Modelado Predictivo: Regresión y Factorial para Datos Cuantitativos

Clasificado en Matemáticas

Escrito el en español con un tamaño de 5,26 KB

Regresión Simple o Múltiple: Estimación de Variables

La regresión simple o múltiple es una técnica estadística utilizada para estimar el valor de una variable dependiente a partir de una o varias variables independientes.

Pasos Clave en el Proceso de Regresión

  1. Determinar el Objetivo

    Definir claramente la meta del estudio. Por ejemplo: Determinar la intención de compra de hombres mayores de 18 años de ropa interior elaborada con fibras de bambú, en función de 4 atributos específicos (nombrar cada atributo).

  2. Identificar Variables

    • Variable Dependiente (1 variable métrica): Intención de compra de [producto específico].
    • Variable/s Independiente/s (no métricas): Cada uno de los atributos definidos.
  3. Plantear las Hipótesis

    • Hipótesis de Investigación: La intención de compra de [producto] depende o varía según la importancia que le dan los clientes a cada uno de los atributos.
    • Hipótesis Nula: La intención de compra de ropa interior hecha de [material] no depende de la importancia que le dan los clientes a cada uno de los atributos.
  4. Formular la Ecuación de Regresión

    La ecuación de regresión general es: Y = a + bX1 + cX2 + dX3 + ...

    Interpretación: Si una variable independiente aumenta en 1 punto (observando si el coeficiente es positivo o negativo), la variable dependiente aumentará o disminuirá en la magnitud del coeficiente correspondiente.

  5. Evaluar la Importancia de las Variables Independientes

    Sumar los coeficientes de las variables independientes para determinar su grado de importancia. Por ejemplo, si los coeficientes de las variables independientes son 1, 2 y 1.3, se suman (2.5) y se calcula el promedio de cada uno.

    Interpretación: Los coeficientes pueden ser parejos, pero uno puede tener mayor importancia relativa.

  6. Calcular e Interpretar el Coeficiente de Determinación (R²)

    Obtener el valor de R o . Si se obtiene R, se eleva al cuadrado para obtener R². Si se obtiene R², se calcula la raíz cuadrada para obtener R. Este valor indica la magnitud de la correlación.

    Análisis: Por ejemplo, si R² es 0.76 (76%), significa que el 76% de la variación de la variable dependiente está influenciado por las variables independientes (nombrarlas). El 24% restante es variación no explicada por el modelo.

  7. Prueba de Hipótesis y Nivel de Confianza

    Con un nivel de confianza del 95% o superior, los resultados del análisis son aceptables. En este caso, se acepta la hipótesis de investigación y se rechaza la hipótesis nula.

Análisis Factorial: Reducción de Variables

El análisis factorial es una técnica que permite reducir el número de variables agrupándolas en factores. Los datos suelen presentarse en una tabla.

Pasos para Realizar un Análisis Factorial

  1. Identificar Cargas Factoriales Altas

    Resaltar o marcar los valores más altos en cada fila de la matriz de componentes rotados.

  2. Calcular Comunalidades

    Las comunalidades se calculan como la sumatoria de los cuadrados de las cargas factoriales de cada variable en todos los factores.

  3. Calcular los Eigenvalores

    El eigenvalor (o valor propio) se calcula por columna y representa la cantidad de varianza explicada por cada factor.

  4. Calcular la Varianza Explicada

    La varianza explicada por cada factor se obtiene dividiendo su eigenvalor entre el número total de variables.

  5. Calcular la Varianza Acumulada

    La varianza acumulada es la suma progresiva de la varianza explicada por cada factor, indicando el porcentaje total de varianza explicada por un conjunto de factores.

  6. Elaborar el Informe de Resultados

    En el informe, se debe definir la técnica utilizada y el objetivo del análisis.

    • Asignar un nombre a cada factor (conjunto de variables con cargas más altas) y ordenarlos por mayor importancia, es decir, por su eigenvalor. Por ejemplo: "El Factor 1 es el que más explica la variación total de los datos en un 34.5%, seguido por el Factor 2, etc."
    • En relación a la Varianza Acumulada (VA) (ej. 79.20%) del análisis realizado, surgieron otros factores que explican el 20.8% restante de la variación. Estos no se consideran porque no representan ninguna dimensión significativa.
    • Respecto a las comunalidades: "La comunalidad más alta indica que los 3 factores en conjunto explican el 98% de la Variable 2, siendo esta la mejor explicada. Por otro lado, los 3 factores explican en un 64% la Variable 3, siendo esta la menos explicada por ellos."

Entradas relacionadas: