Data Mining: Extracción de Conocimiento y Predicción de Datos

Clasificado en Informática

Escrito el en español con un tamaño de 3,98 KB

Data Mining: Concepto

Data Mining: Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil. Sinónimo: Análisis Inteligente de Datos.

Capacidades Clave del Data Mining

El Data Mining proporciona las siguientes capacidades:

  • Predicción automatizada de comportamientos: Automatiza el proceso de encontrar información predecible en grandes bases de datos.
  • Predicción automatizada de tendencias: Basándose en bases de datos históricas, crea un modelo para predecir tendencias.
  • Descubrimiento automatizado de modelos previamente desconocidos: Las herramientas de Data Mining exploran las bases de datos e identifican modelos previamente ocultos en un solo paso.

Extracción de Conocimiento en Bases de Datos (KDD)

Extracción o "Descubrimiento de Conocimiento en Bases de Datos" (KDD): Extracción automatizada de conocimiento o patrones interesantes, no triviales, implícitos, previamente desconocidos, potencialmente útiles y predictivos a partir de grandes bases de datos.

Aplicaciones del Data Mining

  • Negocios:
    • Contacto con clientes con mayor probabilidad de responder positivamente a una promoción.
    • Envío de emails con ofertas personalizadas.
    • Hábitos de compra en supermercados.
    • Patrones de fuga (identificación de clientes propensos a irse).
    • Detección de fraudes (lavado de dinero, tarjetas de crédito, servicios de telefonía móvil).
    • Análisis de la relación contribuyentes con el fisco.
    • Comportamiento de usuarios en Internet.
    • Predicción de audiencias televisivas.
  • Terrorismo: Identificación de patrones y conexiones.
  • Genética: Estudio de cómo el ADN de un individuo afecta al riesgo de desarrollar enfermedades comunes.

Técnicas Comunes en Data Mining

Las técnicas más comúnmente usadas en Data Mining incluyen:

  • Redes Neuronales Artificiales: Modelos predictivos no lineales que aprenden a través del entrenamiento, inspirados en las redes de neuronas biológicas.
  • Árboles de Decisión: Representan conjuntos de decisiones que generan reglas para la clasificación de un conjunto de datos.
  • Reglas de Inducción: Extracción de reglas "si-entonces" (if-then) a partir de datos, basadas en significado estadístico.
  • Algoritmos Genéticos: Modelos inspirados en la evolución de las especies, aplicados generalmente en problemas de optimización.
  • Clustering (Agrupamiento): Divide bases de datos en grupos. Identifica grupos distintos y similares dentro de los datos.

Tipos de Información Producida por Data Mining

La minería de datos produce cinco tipos principales de información:

  • Asociaciones
  • Secuencias
  • Clasificaciones
  • Agrupamientos
  • Pronósticos

Asociaciones y Secuencias

Estas técnicas exploran datos con el fin de identificar relaciones entre valores dentro de una base de datos. El descubrimiento de Asociaciones identifica relaciones simultáneas (ej. productos comprados juntos - COMPRA), mientras que el descubrimiento de Secuencias identifica patrones a lo largo del tiempo (ej. eventos que ocurren en orden - TIEMPO).

Métodos Gráficos

Los métodos gráficos pueden ser muy útiles para visualizar y comprender la estructura de las relaciones identificadas en los datos.

Entradas relacionadas: