Estrategias y Técnicas de Procesamiento de Lenguaje Natural para Recuperación de Información

Escrito el 10 de Enero de 2026 en español con un tamaño de 3,17 KB

Procesamiento de Lenguaje: Búsqueda por Campos

Puede interesarnos localizar información que pertenezca a determinada zona del documento (ej. título o resumen) o a determinados metadatos (ej. fecha) para permitir búsquedas por campos.

Esto es más importante si cabe en información con cierta estructura, como la etiquetada en XML.
También nos permite asociar diferentes pesos a cada documento según dónde se encuentren los términos de la consulta.

Métodos de Búsqueda

Creación de índices independientes por campo:
- Problema: espacio.
- Cálculo de peso asociado a un campo (aprendizaje, expertos, …).
Entrada indicando el campo en el índice:
- ¿Qué peso tiene cada campo?

Búsqueda por Frase

Biword indexes: Almacenamiento de pares de términos en el índice.
Positional indexes: Almacenamiento de la posición de cada ocurrencia de un término.
- De los documentos que contienen los términos de consulta, se analiza la posición de esos términos para verificar si es correcta (si forman la frase).
- Problema: tiempo de procesamiento.
- Ventaja: válido para búsquedas por proximidad.

Tokenizer

Es el programa encargado de segmentar la frase en palabras simples o compuestas. Pueden dividirla en sintagmas, grupos nominales, etc.

Tokens: unidades en el texto.
Términos: unidades en el índice del sistema de recuperación.
Ejemplo: "el coche de caballos corría veloz" -> 6 tokens, 4 términos.
Problemas: Delimitadores de tokens.

Normalización

Proceso por el que los tokens se convierten a una forma canónica, de modo que pueda existir matching entre dos tokens a pesar de pequeñas variaciones superficiales en ellos.

Stemming

Normalizan a la raíz teniendo solo en cuenta la terminación de la palabra (sufijos) o el inicio.

Sencillos de programar.
Disminuyen la base de datos entre un 10-50%.
Son frecuentemente derivativos.
Normalmente hay un tamaño mínimo de palabra sobre el que hacer el stemming.
Tienen reglas muy simples del tipo sustituir final "-ando" por "-ar", así pasa "caminando" a "caminar".

Extracción de Información

Proceso de seleccionar, clasificar y combinar datos que están presentes explícitamente (no implícita) en uno o más documentos en lenguaje natural.

Entradas relacionadas:

Etiquetas: