Conceptos Fundamentales del Aprendizaje por Refuerzo: Exploración, Políticas y Funciones de Valor
Clasificado en Ciencias sociales
Escrito el en
español con un tamaño de 4,25 KB
Conceptos Esenciales en el Aprendizaje por Refuerzo (RL)
El Aprendizaje por Refuerzo (RL) se basa en varios pilares teóricos que definen cómo un agente interactúa y aprende de su entorno. A continuación, se detallan algunos de los conceptos fundamentales que rigen la toma de decisiones y la representación del conocimiento en RL.
El Dilema Exploración-Explotación
En el dilema exploración-explotación, el equilibrio es crucial para la convergencia del agente:
- Exploración Excesiva: Si el sistema explora demasiado, dedica mucho tiempo a probar acciones nuevas sin explotar lo que ya ha aprendido. Esto puede generar un bajo rendimiento durante muchas iteraciones e incluso impedir que el agente converja a una política óptima.
- Explotación Excesiva: Si el sistema explota demasiado, es decir, solo elige las acciones que considera mejores hasta el momento, corre el riesgo de quedarse atrapado en una política subóptima, ya que no probará acciones que podrían resultar mejores a largo plazo.
En ambos casos, el sistema no converge correctamente. Es importante señalar que el concepto de “explorar” en este contexto no es idéntico a “explorar el entorno”. En este dilema, explorar significa tomar decisiones alternativas o menos conocidas para mejorar el conocimiento de la política, mientras que explorar el entorno se refiere a desplazarse por nuevas partes del espacio de estados. Aunque están relacionados, no son lo mismo.
Notación de Políticas en RL
La notación $\pi$ representa la política del agente en un estado dado. La forma en que se expresa depende de si la política es determinista o estocástica:
- Política Determinista: $\pi(s)$ devuelve directamente la acción que el agente debe tomar en ese estado. Por ejemplo, si el estado es $s$, la política determinista produce una acción específica $a$, es decir, $\pi(s)=a$.
- Política Estocástica: $\pi(s,a)$ se refiere a una política estocástica, que indica la probabilidad de ejecutar la acción $a$ cuando el agente está en el estado $s$. En este caso, $\pi(s,a)$ devuelve un valor entre 0 y 1, representando dicha probabilidad.
Por lo tanto, $\pi(s)$ se interpreta como una acción concreta, mientras que $\pi(s,a)$ indica la probabilidad de tomar una acción específica en un estado dado.
Diferencia entre Estado y Observación
En aprendizaje por refuerzo, estado y observación no siempre son lo mismo:
- Entorno Totalmente Observable (MDP): En un Proceso de Decisión de Markov (MDP), el agente tiene acceso completo al estado del entorno, por lo que la observación coincide con el estado.
- Entorno Parcialmente Observable (POMDPs): En entornos parcialmente observables (POMDPs), el agente solo recibe una observación parcial del estado real. En estos casos, el estado representa la situación completa del entorno, mientras que la observación es solo una información incompleta o ruidosa sobre ese estado.
Esta diferencia tiene una implicación directa sobre la propiedad de Markov, que establece que el futuro depende únicamente del presente y no del pasado. Para que esta propiedad se cumpla, es necesario que el estado actual contenga toda la información relevante. Si solo se dispone de observaciones parciales, la propiedad de Markov no se cumple directamente.
Relación entre Funciones de Valor V y Q
La función de valor de estado $V^\pi(s)$ y la función de valor de acción-estado $Q^\pi(s,a)$ están intrínsecamente relacionadas.
La función $V^\pi(s)$ coincide con $Q^\pi(s,a)$ cuando la acción $a$ es la que la política $\pi$ tomaría en el estado $s$. En general, se puede expresar la relación como:
$$V^\pi(s) = \sum_a \pi(a|s) Q^\pi(s,a)$$
Esta relación se cumple especialmente cuando la política es determinista.
La ecuación de Bellman para políticas estocásticas expresa el valor de un estado como la suma de los valores esperados de recompensa inmediata y de los valores futuros, ponderados por la probabilidad de tomar cada acción. La ecuación completa es: