Fundamentos de Regresión Lineal y Gradiente Descendente en Machine Learning

Clasificado en Matemáticas

Escrito el en español con un tamaño de 14,18 KB

Regresión Lineal y Gradiente Descendente

La regresión lineal es un método fundamental utilizado en el aprendizaje automático para modelar y predecir la relación entre una variable dependiente y una o más variables independientes, encontrando la mejor línea recta que se ajusta a los datos.

Función Hipótesis

Para realizar el aprendizaje supervisado, debemos decidir cómo representar las funciones. Utilizamos la función hipótesis h(x) para aproximar "y" como una función lineal de x:

hθ(x) = θ0 + θ1x1 + θ2x2

Donde θi son los parámetros, también llamados pesos. El término θ0 es conocido como el término de intersección. Para simplificar la notación, introduciremos la convención de hacer x0 = 1.

oVHoXuK1ZYggwuH8rD7cYB7i62HL8YxS89qSHgcv7J+B6yuHxuhQ+cHmPpf8B+0WMS+5LrVgAAAAASUVORK5CYII=

Función de Costo

Dado un conjunto de entrenamiento, el objetivo es elegir los parámetros que minimicen las diferencias entre las predicciones de h(x) y los valores reales y del conjunto de entrenamiento. Para ello, utilizaremos la función de costo de mínimos cuadrados.

OeiBQZM8INfwGJM95a2QtQkpAAoR4OCX+8iv1E7OOr+7RCJWogUABJ1Gqmrk6jTSAEgUaf5f4GOmwPtWl6sAAAAAElFTkSuQmCC

Algoritmo de Gradiente Descendente (GD)

El GD es un algoritmo utilizado para minimizar la función de costo, ajustando los parámetros de forma iterativa. El proceso consiste en:

  • Elegir una configuración inicial de parámetros.
  • Actualizar iterativamente los valores en la dirección opuesta de J(θ) hasta alcanzar un mínimo.

Tipos de Gradiente Descendente

  • Gradiente descendente por lotes (BGD): Se utilizan todas las muestras de entrenamiento en cada iteración y se calcula el gradiente promedio de todos los ejemplos. Es más preciso, pero computacionalmente más costoso.
  • Gradiente descendente estocástico (SGD): Se utiliza solo un ejemplo aleatorio de entrenamiento en cada iteración. Es más eficiente, pero puede tener una convergencia más ruidosa debido a la aleatoriedad.
  • Gradiente descendente por mini lotes: Combina las ventajas de ambos enfoques utilizando un subconjunto pequeño llamado D'. Esto reduce significativamente el costo computacional al calcular el gradiente.

Es importante tener en cuenta que, aunque el descenso del gradiente puede ser susceptible a mínimos locales, en general, el problema de optimización tiene un único óptimo global. El gradiente descendente siempre converge hacia este punto. Aunque el SGD es más rápido en acercarse al mínimo, puede que nunca converja exactamente, aunque sus soluciones suelen ser buenas aproximaciones.

Entradas relacionadas: