Data Mining: Extracción de Conocimiento y Predicción de Datos
Clasificado en Informática
Escrito el en español con un tamaño de 3,98 KB
Data Mining: Concepto
Data Mining: Proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil. Sinónimo: Análisis Inteligente de Datos.
Capacidades Clave del Data Mining
El Data Mining proporciona las siguientes capacidades:
- Predicción automatizada de comportamientos: Automatiza el proceso de encontrar información predecible en grandes bases de datos.
- Predicción automatizada de tendencias: Basándose en bases de datos históricas, crea un modelo para predecir tendencias.
- Descubrimiento automatizado de modelos previamente desconocidos: Las herramientas de Data Mining exploran las bases de datos e identifican modelos previamente ocultos en un solo paso.
Extracción de Conocimiento en Bases de Datos (KDD)
Extracción o "Descubrimiento de Conocimiento en Bases de Datos" (KDD): Extracción automatizada de conocimiento o patrones interesantes, no triviales, implícitos, previamente desconocidos, potencialmente útiles y predictivos a partir de grandes bases de datos.
Aplicaciones del Data Mining
- Negocios:
- Contacto con clientes con mayor probabilidad de responder positivamente a una promoción.
- Envío de emails con ofertas personalizadas.
- Hábitos de compra en supermercados.
- Patrones de fuga (identificación de clientes propensos a irse).
- Detección de fraudes (lavado de dinero, tarjetas de crédito, servicios de telefonía móvil).
- Análisis de la relación contribuyentes con el fisco.
- Comportamiento de usuarios en Internet.
- Predicción de audiencias televisivas.
- Terrorismo: Identificación de patrones y conexiones.
- Genética: Estudio de cómo el ADN de un individuo afecta al riesgo de desarrollar enfermedades comunes.
Técnicas Comunes en Data Mining
Las técnicas más comúnmente usadas en Data Mining incluyen:
- Redes Neuronales Artificiales: Modelos predictivos no lineales que aprenden a través del entrenamiento, inspirados en las redes de neuronas biológicas.
- Árboles de Decisión: Representan conjuntos de decisiones que generan reglas para la clasificación de un conjunto de datos.
- Reglas de Inducción: Extracción de reglas "si-entonces" (if-then) a partir de datos, basadas en significado estadístico.
- Algoritmos Genéticos: Modelos inspirados en la evolución de las especies, aplicados generalmente en problemas de optimización.
- Clustering (Agrupamiento): Divide bases de datos en grupos. Identifica grupos distintos y similares dentro de los datos.
Tipos de Información Producida por Data Mining
La minería de datos produce cinco tipos principales de información:
- Asociaciones
- Secuencias
- Clasificaciones
- Agrupamientos
- Pronósticos
Asociaciones y Secuencias
Estas técnicas exploran datos con el fin de identificar relaciones entre valores dentro de una base de datos. El descubrimiento de Asociaciones identifica relaciones simultáneas (ej. productos comprados juntos - COMPRA), mientras que el descubrimiento de Secuencias identifica patrones a lo largo del tiempo (ej. eventos que ocurren en orden - TIEMPO).
Métodos Gráficos
Los métodos gráficos pueden ser muy útiles para visualizar y comprender la estructura de las relaciones identificadas en los datos.