Heurístico de accesibilidad
Clasificado en Magisterio
Escrito el en español con un tamaño de 1,98 KB
Métodos de aprendizaje: profesor directo, profesor indirecto, medida De rendimiento, un crítico.
Proceso de decisión de markov (MDP): es un proceso estocástico que viene Caracterizado por cinco elementos: pasos para la decisión, estados, acciones, Probabilidades de transición y recompensas.
Estructura de un aprendedor por refuerzo:1. Función de premio, 2. Sistema de control, 3. Sensores, 4. Actuadores, entorno
Entorno: es la información que el sistema conoce sobre su entorno.
Resultados de ejecución de acciones: son valores escalares recibidas por el sistema a raíz de la transición De un estado a otro.
Importancia de las recompensas: problema a resolver, restricciones impuestas, La tarea debe estar descrita mediante la función de recompensa.
Aprender sin un modelo del mundo inicial: en el caso de que no tengamos un modelo Disponible, tenemos dos opciones. Aprender a partir de la experiencia, usar métodos Que no requieren de ese modelo.
Aprendizaje de un modelo del mundo: modelo a partir de realizar ensayos en el Entorno; offline sistema clásica, simultanea.
Alternativas al aprendizaje de un modelo: dos métodos, critico heurístico adaptivo (métodos Con estrategias de aprendizaje separada de la política actual), aprendizaje Q (aprenden Una función valor que se defina implícitamente)
Critico heurisitico adaptivo (CHA): Dos pasos; aprender una función valor usando una política fija, Aprender la política greedy. También se usa un actor y un crítico.