Aprendizaje por refuerzo en espacios continuos: algoritmos y aplicación al tratamiento de la anemia renal

Anemia Renal: Aprendizaje por Refuerzo

Información del documento

Autor

Pablo Escandell Montero

instructor/editor Dr. José David Martín Guerrero
subject/major Ingeniería Informática o similar (se infiere del tema de la tesis)
Tipo de documento Tesis Doctoral
Idioma Spanish
Formato | PDF
Tamaño 3.88 MB

Resumen

I.Aprendizaje por Refuerzo Fundamentos y Algoritmos

Este trabajo se centra en el aprendizaje por refuerzo (RL), un paradigma de aprendizaje automático para resolver problemas de decisión secuencial. Se basa en la programación dinámica (DP), pero a diferencia de los métodos clásicos de DP, el RL es especialmente útil en espacios de estados continuos, donde la generalización del comportamiento aprendido es crucial. Los algoritmos de RL, como la iteración de políticas y la iteración de valores, buscan una política que maximice la recompensa acumulada. Se destacan las diferencias entre el enfoque basado en modelos (DP) y el basado en experiencia (RL).

1. Introducción al Aprendizaje por Refuerzo

El documento inicia definiendo el aprendizaje por refuerzo (RL) como un paradigma de aprendizaje automático para la resolución de problemas de decisión secuenciales. Se destaca su aplicación en campos diversos como el control automático, la medicina, la investigación operativa y la economía. La base teórica del RL se encuentra en la programación dinámica (DP), que asume un espacio de estados discreto y finito. Sin embargo, la mayoría de las aplicaciones prácticas presentan espacios de estados continuos, lo que limita la utilidad de los algoritmos clásicos de DP. Para superar esta limitación, el RL debe abordar dos desafíos principales en espacios continuos: generalizar el comportamiento aprendido a situaciones no experimentadas previamente y representar las políticas de forma compacta. Estos desafíos se han estudiado extensamente en el contexto del aprendizaje supervisado, donde la aproximación de funciones continuas a partir de datos discretos es un problema recurrente. En resumen, esta sección establece el contexto y los desafíos inherentes al uso del RL en problemas del mundo real, donde la complejidad de los espacios de estados es una consideración importante.

2. El Agente la Política y la Recompensa

En el aprendizaje por refuerzo, un agente toma decisiones en cada estado basándose en una política, que es una función que mapea estados a acciones. El objetivo del agente es aprender la política que maximiza la recompensa acumulada a largo plazo. Un aspecto fundamental es que el agente no recibe información explícita sobre las acciones correctas; la información sobre el éxito o fracaso proviene únicamente de las recompensas. El documento utiliza el ejemplo del ajedrez para ilustrar este concepto: el estado se define por la posición de las piezas, las acciones son los movimientos legales, y la recompensa es positiva al ganar, negativa al perder, y neutra en el resto de las situaciones. Esta falta de información explícita sobre las acciones óptimas obliga al agente a aprender a través de la exploración y la explotación de diferentes acciones, buscando la mejor estrategia para alcanzar el objetivo final (maximizar la recompensa).

3. Programación Dinámica vs. Aprendizaje por Refuerzo Diferencias Clave

El documento establece una comparación entre la programación dinámica (DP) y el aprendizaje por refuerzo (RL). Ambos enfoques buscan optimizar una política para maximizar la recompensa en un proceso de decisión de Markov (MDP), pero difieren en su enfoque. La programación dinámica requiere un modelo completo del MDP, es decir, conocimiento preciso de las probabilidades de transición entre estados y de las recompensas asociadas a cada transición. Los algoritmos de DP, como la iteración de políticas (PI) y la iteración de valores (VI), se basan en este modelo para calcular la política óptima. En contraste, el aprendizaje por refuerzo es un método basado en la experiencia; el agente interactúa con el entorno, recopilando datos sobre transiciones y recompensas, y aprende la política óptima a partir de estas experiencias. Esta diferencia es crucial, ya que el RL es aplicable a situaciones donde el modelo del MDP no es conocido o es demasiado complejo para obtenerse. La sección enfatiza que, aunque el objetivo es el mismo, la forma de alcanzarlo es fundamentalmente diferente en ambos paradigmas.

4. Algoritmos de Aprendizaje por Refuerzo Aprendizaje por Diferencias Temporales

Esta sección se enfoca en los algoritmos de aprendizaje por refuerzo, concentrándose en los métodos basados en el aprendizaje por diferencias temporales (temporal difference learning), los cuales son ampliamente utilizados y estudiados. Al igual que en la programación dinámica, el objetivo es encontrar una política que maximice la recompensa, pero ahora esta optimización se realiza a partir de la experiencia del agente. La precisión de la política resultante depende de la calidad y las propiedades estadísticas del proceso de muestreo de experiencias. Se comparan los métodos que representan explícitamente la política con aquellos que trabajan con la función valor Q. Representar la política explícitamente resulta ventajoso en escenarios con un número elevado de acciones, evitando el cálculo exhaustivo del valor Q para cada acción. Además, esta representación permite aprender políticas estocásticas de manera natural. Esta característica ha hecho populares a los métodos actor-crítico, especialmente en robótica. Sin embargo, en espacios de estados continuos, se requiere la aproximación de funciones, introduciendo errores que pueden afectar la precisión de la política óptima.

5. Métodos Exactos vs. Aproximados en Aprendizaje por Refuerzo

La sección contrasta los métodos exactos y aproximados en el contexto de la programación dinámica y el aprendizaje por refuerzo. Los métodos exactos asumen que las funciones valor y las políticas pueden representarse de forma exacta, lo que implica que el número de estados y acciones debe ser discreto y suficientemente pequeño para ser almacenado en tablas. Estos métodos, aunque permiten calcular la solución exacta, son inviables en la mayoría de las aplicaciones reales debido a la alta dimensionalidad o incluso infinitud de los espacios de estados. Los métodos aproximados combinan los algoritmos clásicos de RL con técnicas de aproximación de funciones para lidiar con espacios de estados de alta dimensionalidad o continuos. Esta aproximación introduce un error inherente, resultando en políticas aproximadamente óptimas. El texto menciona la complejidad adicional cuando el espacio de acciones es continuo, ya que muchas actualizaciones de la función valor requieren una maximización sobre las acciones, lo cual puede ser un problema de optimización no convexo difícil de resolver. La discretización del espacio de acciones o el uso de algoritmos que representen explícitamente la política son alternativas para simplificar este proceso.

II.Aprendizaje por Refuerzo con Aproximación de Funciones

En aplicaciones reales, el espacio de estados suele ser continuo, haciendo inviable el uso de algoritmos de RL exactos. La aproximación de funciones se vuelve necesaria. Se analizan algoritmos como ER, LSPI y FQI, comparándolos en un problema de control, el 'coche en la montaña', utilizando distintos aproximadores como redes RBF y árboles de decisión. Se discute la influencia de la distribución de los datos en la calidad de la política aprendida, destacando el reto de la 'maldición de la dimensionalidad'.

1. La Necesidad de la Aproximación de Funciones en RL

El capítulo 3 aborda la necesidad de usar técnicas de aproximación de funciones en algoritmos de aprendizaje por refuerzo (RL) cuando nos enfrentamos a espacios de estados de alta dimensionalidad o continuos. En estos casos, almacenar las funciones valor y las políticas como tablas se vuelve inviable, ya que el número de estados crece exponencialmente. Los algoritmos clásicos de RL, basados en la programación dinámica, dejan de ser eficientes. Por lo tanto, se requiere aproximar las funciones valor y las políticas utilizando métodos de aprendizaje supervisado. Sin embargo, la combinación de técnicas iterativas de RL con métodos de aproximación puede generar inestabilidad y afectar la convergencia, ya que las garantías teóricas de los algoritmos exactos pueden no ser válidas en el caso aproximado. La aproximación de funciones se presenta como la solución para tratar la alta dimensionalidad o la continuidad en el espacio de estados, pero requiere una atención especial a la estabilidad y la convergencia del proceso de aprendizaje.

2. Comparación de Algoritmos ER LSPI y FQI

Se realiza un estudio empírico comparando los algoritmos ER, LSPI y FQI para el aprendizaje por refuerzo con aproximación de funciones. La comparación se lleva a cabo utilizando un único aproximador por algoritmo: redes RBF con funciones de base fija para ER y LSPI, y un comité (ensemble) de árboles de decisión para FQI. Esta elección se basa en su uso frecuente en la literatura y buenos resultados reportados, aunque se reconoce que otros aproximadores podrían ser más adecuados dependiendo del problema específico. Para la comparación, se utiliza el problema del 'coche en la montaña', un problema de control bien establecido. Se analiza la influencia de varios factores como el tipo de aproximador, la dimensionalidad del problema, la función de recompensa y la distribución de las muestras en el rendimiento de los algoritmos. Los resultados muestran que con suficientes datos (≥ 200 episodios), los tres algoritmos obtienen resultados similares y cercanos al óptimo, mientras que con pocos datos, ninguno resulta adecuado. FQI muestra un mejor desempeño para la mayoría de los casos.

3. El Impacto de la Distribución de Datos y la Dimensionalidad

El análisis se extiende a la influencia de la distribución de los datos en la calidad de la política aprendida. Se observa que la capacidad de los aproximadores para trabajar con datos distribuidos de forma no uniforme es crucial. Si los datos se concentran en una región específica del espacio de estados, los algoritmos tienen mayor facilidad para aprender una política óptima desde esa región, pero pueden presentar dificultades para estimar la función valor óptima en otras zonas. Se utiliza el error cuadrático medio de la raíz (RMSE) para evaluar el rendimiento de los algoritmos. Los resultados muestran que, aunque un conjunto de datos más grande contenga más información, si esa información está concentrada en una región, puede afectar negativamente la calidad de la política, especialmente para ciertos tipos de aproximadores. Esta observación resalta la importancia de la distribución de los datos y la dificultad que representa la 'maldición de la dimensionalidad' en problemas de alta dimensionalidad.

4. Aproximadores Paramétricos vs. No Paramétricos

Se discute la diferencia entre el uso de aproximadores paramétricos y no paramétricos en el contexto de la aproximación de funciones para el aprendizaje por refuerzo. Los aproximadores paramétricos, al modificar únicamente sus parámetros, deben tener la flexibilidad suficiente para aproximar todas las funciones valor que surgen durante el proceso de aprendizaje. Si bien esta flexibilidad suele requerir aproximadores no lineales, la combinación de algoritmos de RL con estos aproximadores puede ser inestable desde el punto de vista teórico y práctico. Por lo tanto, a pesar de sus limitaciones, se suelen preferir aproximadores lineales. Se mencionan también aproximadores lineales que aumentan su flexibilidad al permitir la incorporación de nuevas funciones base según sea necesario, combinando características de los métodos paramétricos y no paramétricos. La elección del tipo de aproximador es fundamental para el éxito del proceso de aprendizaje y la obtención de una política de buena calidad.

III.Aprendizaje por Refuerzo Batch y Online El Algoritmo IVAO

Se presenta el algoritmo IVAO, un método de aprendizaje online que busca eficiencia en el uso de datos. A diferencia de los métodos batch, IVAO interactúa con el entorno mientras aprende, pero almacena y reutiliza las interacciones para mejorar la estimación de la función valor. Se utiliza el concepto de funciones valor ajustadas, mejorando la estabilidad del algoritmo y permitiendo el uso de un rango más amplio de aproximadores. El algoritmo se clasifica como 'growing batch', combinando ventajas de los métodos batch y online. La gestión del dilema exploración-explotación es clave.

1. Aprendizaje Online vs. Offline Eficiencia en el Uso de Datos

El capítulo 4 introduce la distinción entre algoritmos de aprendizaje por refuerzo (RL) online y offline, enfatizando la eficiencia en el uso de datos. Los algoritmos offline, o batch RL, procesan un conjunto de datos pre-recopilados de interacciones agente-entorno para encontrar una política óptima. Estos métodos, aunque eficientes en el uso de datos ya que procesan cada interacción múltiples veces, funcionan de forma offline, sin interacción con el entorno durante el proceso de aprendizaje. En contraste, los algoritmos online interactúan con el entorno mientras aprenden, pero a menudo son menos eficientes en el uso de datos porque las interacciones se procesan solo una vez. El capítulo presenta el algoritmo IVAO, que busca combinar las ventajas de ambos enfoques. El avance tecnológico actual, con procesadores más potentes, permite considerar algoritmos online con mayor carga computacional para aplicaciones donde el tiempo real no es una restricción tan severa como en robótica. Se mencionan ejemplos de aplicaciones fuera de la robótica, como el control de plantas de tratamiento de agua o sistemas de climatización, donde tiempos de muestreo más largos permiten el uso de algoritmos más computacionalmente intensivos.

2. El Algoritmo IVAO Un Enfoque Growing Batch

El algoritmo IVAO se presenta como un método de aprendizaje online que busca una mayor eficiencia en el uso de los datos. A diferencia de los métodos incrementales que actualizan la estimación de la función valor en cada paso, IVAO almacena y reutiliza las interacciones agente-entorno múltiples veces. El algoritmo se basa en un esquema de iteración de funciones valor, mejorando iterativamente una estimación inicial hasta alcanzar (aproximadamente) la función valor óptima. Para mejorar la estabilidad y ampliar el rango de aproximadores aplicables, IVAO utiliza funciones valor 'ajustadas'. La clave de IVAO es combinar las ventajas del aprendizaje batch en un método online; se lo clasifica como 'growing batch' porque interactúa con el entorno para aprender online pero, al mismo tiempo, almacena y reutiliza los datos obtenidos, similar a los métodos batch. El algoritmo cuenta con dos parámetros ajustables: K (número de transiciones entre actualizaciones) y N (número máximo de transiciones almacenadas), siendo N necesario para limitar el consumo de memoria.

3. Funciones Valor Ajustadas y Relación con Otros Algoritmos

El algoritmo IVAO se basa en dos ideas principales: el esquema clásico de iteración de funciones valor y el concepto de funciones valor ajustadas. La iteración de funciones valor, propuesta por Bellman, consiste en dividir un problema en subproblemas, resolverlos individualmente y combinar las soluciones para una solución global. Las funciones valor ajustadas, introducidas por Gordon, modifican el orden en que se calculan y actualizan las nuevas estimaciones de la función valor, mejorando la eficiencia. Originalmente propuestas en el contexto de la programación dinámica, ambas ideas se adaptan aquí al aprendizaje por refuerzo. Se menciona Fitted Value Iteration (FVI) como un algoritmo previo que utiliza funciones valor ajustadas pero requiere un modelo completo del MDP. En contraste, IVAO, al ser un método basado en experiencia, no requiere este modelo. Se mencionan otros algoritmos similares basados en este principio, como KADP, FQI, FNAC y NFTD, destacando la importancia de que el mapeado del aproximador sea no expansivo para garantizar la convergencia teórica. Sin embargo, en la práctica se han obtenido buenos resultados incluso con aproximadores que no cumplen esta condición, como árboles de decisión o redes neuronales.

4. Exploración Explotación en IVAO

En algoritmos de aprendizaje online, la exploración y la explotación son cruciales. La exploración consiste en probar nuevas acciones para obtener más información sobre el entorno, mientras que la explotación consiste en utilizar las acciones que se cree que son mejores según la información ya disponible. En algoritmos offline, la exploración se realiza durante la fase de recolección de datos, mientras que el algoritmo en sí no se encarga de la exploración. En los algoritmos online, la exploración es necesaria para evitar quedar atrapado en mínimos locales; sin ella, ciertas regiones del espacio de estados podrían no ser exploradas, llevando a estimaciones erróneas de la función Q y a políticas subóptimas. Este es el conocido dilema exploración-explotación. El algoritmo IVAO implementa una estrategia ϵ-greedy, un método común para abordar este dilema, que consiste en seleccionar la mejor acción con probabilidad 1-ϵ y una acción aleatoria con probabilidad ϵ. El pseudo-código de IVAO con exploración ϵ-greedy se muestra para clarificar el funcionamiento del algoritmo en este aspecto.

IV.Predicción de la Función Valor con Máquinas de Aprendizaje Extremo

Este apartado se enfoca en la predicción de la función valor o evaluación de la política, un problema clave en muchos algoritmos de RL. Se utiliza el algoritmo Least Squares Temporal Difference (LSTD), combinándolo con máquinas de aprendizaje extremo (ELM) para mejorar la aproximación en espacios de alta dimensionalidad. Se compara LSTD-ELM con LSTD usando redes RBF como método de referencia, evaluando su precisión en problemas como Hop-world y el péndulo invertido. El uso de comités de ELM se explora para mejorar aún más la precisión.

1. Predicción de la Función Valor y la Evaluación de la Política

El capítulo 5 se centra en el problema de estimar la función valor V dado un proceso de decisión de Markov (MDP) y una política π fija. Este problema, conocido como predicción de la función valor o evaluación de la política, tiene diversas aplicaciones prácticas, como la planificación de redes de telecomunicaciones, la estimación del tiempo de espera de aviones ('taxi-out') o la evaluación de posiciones en juegos como el Go. Además, es un problema fundamental en algoritmos de aprendizaje por refuerzo (RL) basados en iteración de políticas. El texto destaca la importancia de este problema en el contexto de RL. Se describe el algoritmo Least Squares Temporal Difference (LSTD) que asume una representación lineal de la función valor y destaca que la selección del conjunto de características es la etapa más crítica del algoritmo. Se discuten diferentes enfoques para la selección de características, incluyendo la adaptación automática de las características durante el aprendizaje, aunque se menciona que esto puede afectar negativamente la convergencia. El uso de particiones regulares del espacio de entrada, como la codificación en baldosas o funciones RBF con base fija, son alternativas más comunes.

2. Aproximadores Locales vs. Globales Limitaciones y Retos

El texto contrasta el uso de aproximadores locales y globales en el contexto de la predicción de funciones valor. Si bien los aproximadores globales, como los utilizados en el programa de Backgammon de Gerry Tesauro, han tenido éxitos notables, también se han reportado resultados negativos en varias aplicaciones que combinan RL y aproximadores globales, especialmente en aprendizaje online. La actualización de los parámetros de un aproximador global durante el aprendizaje online puede afectar arbitrariamente las estimaciones de otros estados, llevando a una convergencia lenta o incluso a la divergencia. Los aproximadores locales, como la codificación en baldosas o las funciones RBF, mitigan este problema al afectar solo una parte limitada del espacio de salida cuando se actualizan sus parámetros. Sin embargo, en problemas de alta dimensionalidad, los aproximadores locales pueden sufrir la 'maldición de la dimensionalidad', limitando su capacidad de aproximación. El algoritmo LSTD, al procesar los datos de forma offline, es más adecuado para la combinación con aproximadores globales.

3. Máquinas de Aprendizaje Extremo ELM y su Integración con LSTD

Para superar las limitaciones de los aproximadores locales en problemas de alta dimensionalidad, el capítulo propone el uso de máquinas de aprendizaje extremo (ELM) junto con el algoritmo LSTD. ELM es un algoritmo rápido para entrenar redes neuronales de una sola capa oculta, donde los pesos de la capa oculta se asignan aleatoriamente y solo se optimizan los pesos de la capa de salida mediante mínimos cuadrados. Este método se puede ver como un mapeo de las entradas a un espacio de características definido por los nodos de la capa oculta. ELM se integra con LSTD para resolver problemas de predicción de funciones valor. Se mencionan las ventajas de ELM, como la rapidez de entrenamiento en comparación con otros métodos iterativos. Se destaca que ELM es válido para diversas funciones de activación infinitamente diferenciables, siendo la sigmoide la más común. La selección del número óptimo de nodos en la capa oculta, un factor que influye en el sobreajuste o en la capacidad de modelar los datos, se discute, mencionando diferentes métodos para su optimización automática.

4. Comités de ELM para Mejorar la Aproximación

La sección explora el uso de comités (o ensembles) de ELM para mejorar la capacidad de aproximación. Los comités combinan múltiples modelos para obtener un modelo más preciso y robusto que los modelos individuales. Se describe el procedimiento usual para generar un comité de ELM: se usan varias redes ELM con la misma arquitectura y función de activación, pero con parámetros inicializados de forma independiente. Para combinar las salidas de los modelos en el comité, se mencionan diferentes técnicas, como bootstrap aggregating, AdaBoost, algoritmos evolutivos, o el uso de la entropía. Sin embargo, en el contexto de la combinación con LSTD para aproximar funciones valor, las salidas individuales de cada red ELM no están disponibles. Por lo tanto, se propone promediar las salidas de cada red ELM como una opción viable para obtener la salida del comité.

5. Experimentos y Resultados Comparación LSTD ELM vs. LSTD RBF

Se presentan experimentos para comparar el rendimiento de LSTD con ELM (LSTD-ELM) y LSTD con redes RBF de base fija (LSTD-RBF) en problemas de predicción de la función valor. LSTD-RBF se usa como método de referencia. Se utiliza el error absoluto medio (MAE) para evaluar la calidad de la aproximación. Se observa una dependencia entre el número de características (nodos ocultos en LSTD-ELM y funciones base en LSTD-RBF) y el MAE, siendo menor el error para redes más complejas. En algunos casos, LSTD-RBF supera ligeramente a LSTD-ELM, pero LSTD-ELM demuestra una capacidad para representar las funciones valor de forma más compacta, usando menos características para obtener un error similar o menor. Los experimentos también incluyen el uso de comités de ELM (LSTD-cELM), mostrando una mejora consistente en la calidad de la aproximación al usar suficientes características, aunque el grado de mejora varía entre problemas.

V.Aplicación al Tratamiento de la Anemia en Hemodiálisis

Se presenta una aplicación del aprendizaje por refuerzo a la optimización del tratamiento de la anemia en hemodiálisis. El objetivo es optimizar la administración de darbepoetina alfa, teniendo en cuenta la heterogeneidad en la respuesta de los pacientes. Se desarrolla un modelo de proceso de decisión de Markov (MDP) que incluye variables como los niveles de hemoglobina, dosis administradas, y características del paciente (agrupadas mediante k-means). Los resultados muestran que la política aprendida por RL supera a un protocolo estándar, mejorando la eficiencia del tratamiento y reduciendo el consumo de darbepoetina alfa. Se menciona una prueba piloto con pacientes reales.

1. El Problema Anemia en Pacientes de Hemodiálisis

El capítulo 6 aplica el aprendizaje por refuerzo a la problemática de la anemia en pacientes sometidos a hemodiálisis. Más del 90% de estos pacientes sufren anemia, tratada generalmente con darbepoetina alfa. La respuesta al tratamiento es altamente heterogénea, requiriendo un ajuste individualizado de la dosis. Sin embargo, este ajuste es complejo debido a la duración prolongada de los efectos del fármaco (hasta tres meses), dificultando la determinación de la dosis efectiva, y a la variabilidad de la dosis óptima en función del estado del paciente (inflamación, otros fármacos, variaciones de peso, etc.). Estas dificultades, sumadas al estrecho margen terapéutico y al alto costo de la darbepoetina alfa, justifican la necesidad de optimizar los protocolos de administración. La alta heterogeneidad en la respuesta de los pacientes crea un escenario ideal para la aplicación de técnicas de aprendizaje automático y, en particular, de aprendizaje por refuerzo, para lograr una personalización del tratamiento y una mejora en su eficacia y eficiencia.

2. Modelo de Proceso de Decisión de Markov MDP para el Tratamiento

Para abordar el problema de la optimización del tratamiento de la anemia, se propone un modelo basado en procesos de decisión de Markov (MDP). El espacio de estados del MDP se define considerando varios factores relevantes: el nivel de hemoglobina (Hb) actual y su variación con respecto al mes anterior, la dosis de darbepoetina alfa administrada en el mes actual y en los dos meses previos (debido a la duración prolongada de sus efectos), y el grupo al que pertenece el paciente según sus características individuales. Para reducir la dimensionalidad del espacio de estados, se utiliza un algoritmo de agrupamiento (clustering) k-means para clasificar a los pacientes en grupos con características similares (Ep, Cp, Cr), considerando el sexo del paciente (MCH) como una variable que define grupos separados para hombres y mujeres. Este modelo permite personalizar el tratamiento, asumiendo que pacientes dentro del mismo grupo responderán de forma similar a una misma dosis. La definición precisa del espacio de estados es crucial para la aplicación del aprendizaje por refuerzo.

3. Resultados y Comparación con Protocolos Estándar

Los experimentos se realizaron utilizando un modelo matemático, como fase previa a la evaluación clínica con pacientes reales. Se compara la política aprendida mediante aprendizaje por refuerzo (πRL) con una política basada en un protocolo estándar (πprotocolo). Los resultados muestran un incremento del 27.6% en el número de pacientes que alcanzaron el objetivo de tratamiento con la política aprendida por RL, en comparación con el protocolo estándar. Además, se observó una reducción del 5.13% en la cantidad de darbepoetina alfa utilizada, lo que representa una importante mejora tanto económica como médica, debido al alto costo y a los efectos secundarios del fármaco. El análisis de la desviación estándar de los niveles de hemoglobina muestra que πRL estabiliza los niveles de hemoglobina dentro del rango objetivo de manera más consistente que πprotocolo, que presenta oscilaciones significativas incluso después de un período prolongado de tratamiento. Estos resultados promueven el desarrollo de una prueba piloto de evaluación clínica con pacientes reales.