Fundamentos Esenciales de Muestreo y Técnicas Estadísticas Avanzadas

Clasificado en Matemáticas

Escrito el en español con un tamaño de 332,96 KB

Conceptos Fundamentales en Estadística

Esta sección define los términos esenciales utilizados en el ámbito de la estadística y la investigación.

Poboación

Conxunto de individuos ou obxectos de interese no estudo. É o obxectivo do estudo o que define a poboación. Tamén chamada poboación obxectivo ou de interese: agregado ideal sobre o cal desexaríase obter información en determinada data ou período. As características que se desexan coñecer son as variables de estudo (tamén variables estatísticas).

Mostra

Subconxunto de unidades seleccionadas da poboación. Unha mostra é un subconxunto de elementos da poboación que sexa representativa da mesma, obtida co fin de investigar as características da poboación de procedencia. Ten as mesmas características xerais que a poboación. As características numéricas da mostra denomínanse estatísticas e adoitan utilizarse como estimacións dos parámetros da poboación.

Subpoboación

Subconxunto de unidades seleccionadas da poboación que posúen algunha característica específica.

Poboación Obxectivo

Agregado ideal sobre o cal desexaríase obter información en determinada data ou período. Debe cumprir unha serie de criterios de interese para o/a investigador/a.

Poboación Accesible

Parte da poboación á cal o investigador/a ten un acceso razoable. Pode estar limitada a unha rexión, unha cidade, unha institución, etc.

Mostra Representativa

Subconxunto de elementos da poboación que sexa representativa da mesma, obtida co fin de investigar as características da poboación de procedencia. Ten as mesmas características xerais que a poboación.

Marco (ou Marco de Mostraxe)

Listaxe que contén todos os elementos da poboación obxectivo. O marco de mostraxe sitúase entre a poboación e a mostra. Idealmente o marco debería coincidir coa poboación, pero raramente será así debido ás dificultades para enumerar todos os membros dunha poboación. O marco é o agregado a partir do cal se vai efectuar a selección probabilística da mostra.

Poboación Mostral (ou Poboación da Enquisa)

Conxunto de elementos que contestaron unha enquisa. Derívase da poboación marco suprimindo unidades inaccesibles, non cooperantes (sen resposta), datos perdidos, respostas inadmisibles, etc.

Censo

Enumeración e anotación de certas características de todos os elementos dunha poboación. Caracterízase por obter información de todos os elementos da poboación de interese. Por exemplo, o censo agrario.

Rexistro

Un rexistro administrativo é o resultado das operacións habituais dunha organización: unha empresa leva o rexistro de cada empregado/a co nome, idade, sexo, salario, data de incorporación á empresa, etc. Outros exemplos son os rexistros de nacementos, de matriculacións de vehículos, rexistros tributarios, etc.

Unidade de Mostraxe

Será un individuo ou conxunto de individuos que se seleccionan nunha única extracción. Como requisito esíxese que o elemento ou o grupo de elementos que compoñen o estudo reúnan as características da poboación. Son as unidades que están a formar parte no proceso de selección da mostra.

Unidade Elemental

Todo elemento pertencente á poboación obxecto do estudo. Tamén chamado unidade simple ou individuo. É o ente básico do cal se obtén información inicial.

Variables

Características a estudar sobre os elementos que compoñen o estudo. Refírense ás características particulares que poden presentarse nun ou varios elementos da poboación estudada e que varían dun individuo a outro. As variables poden presentar distintas modalidades ou categorías, que deben ser incompatibles e exhaustivas. Unha variable é de atributo ou cualitativa cando as diversas modalidades non son medibles; é cuantitativa ou numérica se as súas modalidades son medibles (discretas ou continuas).

Estatístico

Son funcións das observacións mostrais. Algúns deles utilízanse para estimar os parámetros (en xeral descoñecidos), partindo dos datos recadados nunha investigación por mostraxe. A diferenza dos parámetros, os estatísticos son aleatorios.

Estimador

Estatístico que se utiliza para estimar un parámetro descoñecido da poboación. É unha variable aleatoria na mostraxe, na que cada valor leva incorporada unha probabilidade igual á da realización mostral en que se basea. Presentaría valores diferentes segundo as unidades que compoñen a mostra.

Métodos de Mostraxe Probabilística

Exploración das principais técnicas de mostraxe utilizadas na investigación estatística, garantindo a representatividade dos datos.

Mostraxe Aleatoria Simple (M.A.S.)

“Unha mostra aleatoria simple de tamaño n dunha poboación finita de tamaño N é unha mostra seleccionada tal que cada posible mostra de tamaño n ten a mesma probabilidade de ser seleccionada (mostras equiprobables). Unha forma de obter esta mostra sería numerando as unidades de 1 a N, sendo N o tamaño da poboación, e extraer unha serie de n números aleatorios. As unidades correspondentes a eses números serán as que formen parte da mostra.”

Mostraxe Aleatoria Simple Sen Reposición

“Un procedemento aleatorio de mostraxe é sen reposición cando todas as mostras que teñen algún elemento repetido son sucesos imposibles; o procedemento non concede posibilidade de selección a estas mostras, a súa probabilidade é cero. Nun procedemento sen reposición (tamén denominado irrestrito) unha unidade que se escollera para pertencer á mostra non pode repetirse.”

“Denominamos á mostraxe aleatoria simple sen reposición como a mostraxe aleatoria simple e denotarémolo por MAS (N, n), onde N fai referencia ao tamaño poboacional e n ao tamaño da mostra.”

Mostraxe Aleatoria Simple Con Reposición

“Un procedemento de mostraxe aleatoria é con reposición cando existe algunha mostra que ten entre os seus n elementos algún repetido. Unha unidade xa escollida para pertencer á mostra pode volver ser escollida. Calquera sucesión de n elementos da poboación, todos distintos ou non, é unha mostra posible; as distribucións marxinais son iguais e independentes.”

“Cando fagamos referencia a unha mostraxe aleatoria simple con reposición deberase especificar o feito de que sexa con reposición, evitando desta maneira posibles confusións, e denotarémolo como MASR (N, n).”

Mostraxe Con/Sen Reemprazamento

“A probabilidade de selección dunha determinada mostra é diferente se consideramos MAS con ou sen reposición. Polo que tamén van diferir as expresións que debemos empregar para obter os estimadores e consecuentemente, varianzas, covarianzas, etc.”

“Se o tamaño da poboación é grande e a fracción que supón a mostra sobre a poboación é pequena (a denominada como fracción de mostraxe definida como f=n/N é pequena) a mostraxe sen reemprazamento pode asimilarse á mostraxe con reemprazamento.”

Poboación Finita e Infinita

“Cando non podemos considerar a mostra como infinita, é dicir con mostras finitas de tamaño non moi grande, as expresións imos ter que corrixilas co denominado factor de corrección das poboacións finitas, factor que vén determinado pola expresión (N−n)/N = (1−f).”

“A efectos prácticos esta corrección non é necesaria cando a fracción de mostraxe sexa pequena. Algúns autores falan de fraccións inferiores ao 10%, outros de n/N.”


Mostraxe Aleatoria Estratificada

Unha mostra aleatoria estratificada é a obtida mediante a separación dos elementos da poboación en grupos non solapados, chamados estratos, e a selección posterior dunha mostra irrestrita aleatoria simple de cada estrato.

O que propón a mostraxe estratificada é formar grupos o máis heteroxéneos posible entre si, aproveitando toda a información adicional dispoñible, de forma que este factor asuma a maior parte da varianza total. Dentro dos grupos existiría entón unha gran homoxeneidade, condicións nas cales a mostraxe conseguiría cun menor tamaño de mostra unha gran precisión.

Os estratos son os grupos non solapados en que se divide a poboación para realizar a mostraxe estratificada. Cada estrato debe ser internamente homoxéneo respecto á variable de interese e o máis diferente posible doutros estratos.


Formación dos Estratos

Para formar os estratos, escóllese unha variable relacionada coa variable obxecto de estudo (por exemplo, “número de traballadores” para estudar salarios). O número de estratos adoita limitarse, xa que a partir de 6 estratos non se obteñen grandes reducións adicionais da varianza, salvo que exista unha correlación moi alta entre a variable de estratificación e a de estudo.

Afixación da Mostra

Afixación é a repartición do tamaño total da mostra entre os diferentes estratos. Métodos principais:

Resumo das Vantaxes da Mostraxe Estratificada

  • Permite obter estimacións máis precisas para subgrupos da poboación.
  • Pode reducir o erro de estimación respecto a unha mostraxe aleatoria simple do mesmo tamaño, especialmente se os estratos son internamente homoxéneos.
  • Posibilita o uso de diferentes técnicas de mostraxe en cada subpoboación.

Técnicas Avanzadas de Reducción de Dimensionalidad y Asociación

Análisis Factorial Exploratorio (AF) y Análisis de Componentes Principales (ACP)

El Análisis Factorial Exploratorio (AF) es una técnica de interdependencia que busca identificar factores latentes (no observables) que explican la estructura de correlaciones entre un conjunto de variables observadas, diferenciando entre varianza común (comunalidad) y específica (unicidad). Se utiliza para reducir la dimensionalidad y para descubrir la estructura subyacente de los datos.

El Análisis de Componentes Principales (ACP) es una técnica de reducción dimensional que transforma un conjunto de variables correlacionadas en un menor número de componentes principales, que son combinaciones lineales de las variables originales y recogen la máxima variabilidad posible. No diferencia entre varianza común y específica.

Conceptos Clave en AF y ACP

  • Cargas factoriales: Pesos que indican la importancia de cada factor en cada variable observada; equivalen a correlaciones entre variables y factores.
  • Comunalidad: Parte de la varianza de una variable explicada por los factores comunes extraídos; suma de los cuadrados de las cargas factoriales de esa variable.
  • Especificidad (unicidad): Parte de la varianza de una variable no explicada por los factores comunes; varianza específica o error.
  • Rotación: Procedimiento para facilitar la interpretación de los factores extraídos, buscando que cada variable cargue fuerte en un factor y débil en los demás. Puede ser ortogonal (factores no correlacionados) u oblicua (factores correlacionados).
  • Puntuaciones factoriales: Valores de los individuos en las dimensiones/factores extraídos, calculados como combinaciones lineales de las variables observadas.

Análisis de Correspondencias (AC)

El Análisis de Correspondencias Simple (ACS) es una técnica factorial que estudia la asociación entre dos variables cualitativas a partir de una tabla de contingencia, buscando reducir la dimensionalidad y visualizar las relaciones entre categorías mediante mapas perceptuales. Trabaja con perfiles de fila y columna y mide asociación a través de la inercia (dispersión respecto al perfil medio).

El Análisis de Correspondencias Múltiple (ACM) es una extensión del ACS a más de dos variables categóricas. Permite analizar relaciones complejas entre múltiples variables y categorías, representando conjuntamente individuos y categorías en un espacio reducido.

Conceptos Clave en AC

  • Perfil fila/columna: Distribución de frecuencias relativas de una categoría de una variable respecto a las categorías de la otra variable. Permiten comparar distribuciones condicionadas y analizar similitudes/diferencias.
  • Inercia: Medida de la dispersión de los perfiles respecto al perfil medio (centroide). Inercia alta implica perfiles muy diferentes (asociación), inercia baja implica perfiles similares (independencia).
  • Distancia chi-cuadrado: Medida de la distancia entre perfiles (fila o columna) y el perfil medio, utilizada para calcular la inercia.
  • Contribución: Importancia de una categoría o dimensión en la explicación de la inercia total o parcial.
  • Escalado óptimo: Procedimiento para asignar valores numéricos a las categorías de las variables cualitativas, maximizando la varianza de las puntuaciones y facilitando la interpretación de las dimensiones extraídas.

Ejemplos Prácticos

Ejemplo de Análisis Factorial Exploratorio (AF) y ACP

Ejemplo (resumido de los PDFs): Supón que tienes 6 variables socioeconómicas de varias regiones (porcentaje de jóvenes, mayores, renta media, índice de Gini...). Se quiere reducir la información a unas pocas dimensiones.

Pasos para el Análisis

  1. Comprobar supuestos: Matriz de correlaciones con valores altos. Determinante próximo a cero. KMO > 0,5 y prueba de Bartlett significativa.
  2. Extraer componentes principales (ACP): Se calculan autovalores y autovectores de la matriz de correlaciones. Se retienen los componentes con autovalor > 1 (regla de Kaiser) o según el gráfico de sedimentación. Se obtiene la matriz de cargas factoriales (correlaciones entre variables y componentes). Se interpreta cada componente según las variables que más cargan en él.
  3. Rotación: Se aplica rotación ortogonal (Varimax) para facilitar la interpretación. Se observa cómo cada variable carga fuerte en un componente y débil en los demás.
  4. Interpretación: Se asigna nombre a cada componente según las variables que más contribuyen. Se calcula la varianza explicada por cada componente y la acumulada.

Ejemplo Concreto

Primer componente recoge el envejecimiento de la población (carga positiva en % mayores y negativa en % jóvenes). Segundo componente recoge desigualdad (carga en índice de Gini y renta media). La suma de los autovalores de los componentes retenidos indica el % de varianza explicada.

Ejemplo de Análisis de Correspondencias Simple (ACS)

Ejemplo: Supón una tabla de contingencia entre país visitado y tipo de jornada (festivo, media jornada, jornada completa) en viajes de un autor.

Pasos para el Análisis

  1. Construir perfiles de fila y columna: Calcular las frecuencias relativas de cada tipo de jornada en cada país (perfil fila). Calcular las frecuencias relativas de cada país en cada tipo de jornada (perfil columna).
  2. Comparar perfiles: Si los perfiles son iguales entre sí y al perfil medio, las variables son independientes. Si los perfiles difieren, hay asociación.
  3. Calcular inercia: Inercia de cada perfil = masa × (distancia chi-cuadrado al perfil medio)². Inercia total = suma de las inercias de todos los perfiles. Inercia alta indica asociación; baja, independencia.
  4. Representación gráfica: Se proyectan las categorías en un plano de menor dimensión, donde la proximidad indica similitud o asociación.

Ejemplo Concreto

Grecia destaca por jornadas de media jornada (86%), Francia/Alemania por jornadas completas (83%). La inercia total se calcula sumando las inercias de los perfiles de país respecto al perfil medio. El mapa perceptual muestra qué países y tipos de jornada están más asociados.

Muestreo por Conglomerados y Conceptos de Estimación

Muestreo por Conglomerados

Es un diseño muestral en el que la población de tamaño M se divide en N grupos denominados conglomerados, de modo que no se solapan y cubren toda la población. Cada conglomerado contiene un número Mk de unidades elementales (el tamaño del conglomerado). Los conglomerados pueden ser de igual o distinto tamaño, pero deben ser lo más heterogéneos posible internamente y lo más homogéneos posible entre sí para que sean representativos de la población. En el muestreo por conglomerados, en lugar de seleccionar unidades individuales, se seleccionan conglomerados mediante un criterio determinado. La muestra estará formada por todas las unidades que componen los conglomerados elegidos.

Unidades Primarias y Secundarias

  • Unidades primarias: Los conglomerados seleccionados en la primera etapa.
  • Unidades secundarias: Las unidades dentro de los conglomerados (puede haber más etapas: terciarias, etc.).
  • Unidades finales: Las unidades elementales de las que se obtiene la información.

Tipos de Muestreo por Conglomerados

  • Monoetápico: Se seleccionan n conglomerados y se observa a todas las unidades dentro de ellos.
  • Bietápico o polietápico: Tras seleccionar los conglomerados, se seleccionan aleatoriamente unidades dentro de cada conglomerado.

Ventajas y Desventajas

  • Ventajas:
    • No necesita un marco teórico completo, solo de los conglomerados seleccionados.
    • Puede aprovechar divisiones territoriales ya existentes.
    • Reduce costos y tiempo de recogida de datos.
  • Desventajas:
    • Menor precisión, ya que suele haber cierta homogeneidad dentro de los conglomerados.
    • La eficiencia disminuye cuando el tamaño de los conglomerados aumenta.

Conceptos Clave de Estimación

  • Estimador: Es una función de los datos muestrales que se utiliza para aproximar un parámetro desconocido de la población. Ejemplo: la media muestral es un estimador de la media poblacional.
  • Estimación: Es el valor concreto que toma el estimador en una muestra específica.
  • Parámetro: Valor numérico que describe una característica de la población (por ejemplo, la media o la proporción).
  • Estimación puntual: Consiste en dar un único valor como aproximación al parámetro poblacional (por ejemplo, la media muestral para estimar la media poblacional).
  • Estimación por intervalo (intervalo de confianza): Consiste en dar un rango de valores, calculado a partir de la muestra, que contiene el valor verdadero del parámetro con una determinada probabilidad (nivel de confianza).
  • Error de estimación: Diferencia entre el valor estimado y el valor real del parámetro.
  • Nivel de confianza: Probabilidad de que el intervalo calculado contenga el valor real del parámetro poblacional.

g94nMUHVbWKowAAAABJRU5ErkJggg==

Entradas relacionadas: