Heurístico de accesibilidad

Clasificado en Magisterio

Escrito el 5 de Enero de 2023 en español con un tamaño de 1,98 KB

Métodos de aprendizaje: profesor directo, profesor indirecto, medida De rendimiento, un crítico.

Proceso de decisión de markov (MDP): es un proceso estocástico que viene Caracterizado por cinco elementos: pasos para la decisión, estados, acciones, Probabilidades de transición y recompensas.

Estructura de un aprendedor por refuerzo:1. Función de premio, 2. Sistema de control, 3. Sensores, 4. Actuadores, entorno

Entorno: es la información que el sistema conoce sobre su entorno.

Resultados de ejecución de acciones: son valores escalares recibidas por el sistema a raíz de la transición De un estado a otro.

Importancia de las recompensas: problema a resolver, restricciones impuestas, La tarea debe estar descrita mediante la función de recompensa.

Aprender sin un modelo del mundo inicial: en el caso de que no tengamos un modelo Disponible, tenemos dos opciones. Aprender a partir de la experiencia, usar métodos Que no requieren de ese modelo.

Aprendizaje de un modelo del mundo: modelo a partir de realizar ensayos en el Entorno; offline sistema clásica, simultanea.

Alternativas al aprendizaje de un modelo: dos métodos, critico heurístico adaptivo (métodos Con estrategias de aprendizaje separada de la política actual), aprendizaje Q (aprenden Una función valor que se defina implícitamente)

Critico heurisitico adaptivo (CHA): Dos pasos; aprender una función valor usando una política fija, Aprender la política greedy. También se usa un actor y un crítico.

Entradas relacionadas:

Etiquetas: