Estrategias y Técnicas de Procesamiento de Lenguaje Natural para Recuperación de Información
Clasificado en Informática
Escrito el en
español con un tamaño de 3,17 KB
Procesamiento de Lenguaje: Búsqueda por Campos
Puede interesarnos localizar información que pertenezca a determinada zona del documento (ej. título o resumen) o a determinados metadatos (ej. fecha) para permitir búsquedas por campos.
- Esto es más importante si cabe en información con cierta estructura, como la etiquetada en XML.
- También nos permite asociar diferentes pesos a cada documento según dónde se encuentren los términos de la consulta.
Métodos de Búsqueda
- Creación de índices independientes por campo:
- Problema: espacio.
- Cálculo de peso asociado a un campo (aprendizaje, expertos, …).
- Entrada indicando el campo en el índice:
- ¿Qué peso tiene cada campo?
Búsqueda por Frase
- Biword indexes: Almacenamiento de pares de términos en el índice.
- Positional indexes: Almacenamiento de la posición de cada ocurrencia de un término.
- De los documentos que contienen los términos de consulta, se analiza la posición de esos términos para verificar si es correcta (si forman la frase).
- Problema: tiempo de procesamiento.
- Ventaja: válido para búsquedas por proximidad.
Tokenizer
Es el programa encargado de segmentar la frase en palabras simples o compuestas. Pueden dividirla en sintagmas, grupos nominales, etc.
- Tokens: unidades en el texto.
- Términos: unidades en el índice del sistema de recuperación.
- Ejemplo: "el coche de caballos corría veloz" -> 6 tokens, 4 términos.
- Problemas: Delimitadores de tokens.
Normalización
Proceso por el que los tokens se convierten a una forma canónica, de modo que pueda existir matching entre dos tokens a pesar de pequeñas variaciones superficiales en ellos.
Stemming
Normalizan a la raíz teniendo solo en cuenta la terminación de la palabra (sufijos) o el inicio.
- Sencillos de programar.
- Disminuyen la base de datos entre un 10-50%.
- Son frecuentemente derivativos.
- Normalmente hay un tamaño mínimo de palabra sobre el que hacer el stemming.
- Tienen reglas muy simples del tipo sustituir final "-ando" por "-ar", así pasa "caminando" a "caminar".
Extracción de Información
Proceso de seleccionar, clasificar y combinar datos que están presentes explícitamente (no implícita) en uno o más documentos en lenguaje natural.