Estrategias y Técnicas de Procesamiento de Lenguaje Natural para Recuperación de Información

Clasificado en Informática

Escrito el en español con un tamaño de 3,17 KB

Procesamiento de Lenguaje: Búsqueda por Campos

Puede interesarnos localizar información que pertenezca a determinada zona del documento (ej. título o resumen) o a determinados metadatos (ej. fecha) para permitir búsquedas por campos.

  • Esto es más importante si cabe en información con cierta estructura, como la etiquetada en XML.
  • También nos permite asociar diferentes pesos a cada documento según dónde se encuentren los términos de la consulta.

Métodos de Búsqueda

  • Creación de índices independientes por campo:
    • Problema: espacio.
    • Cálculo de peso asociado a un campo (aprendizaje, expertos, …).
  • Entrada indicando el campo en el índice:
    • ¿Qué peso tiene cada campo?

Búsqueda por Frase

  • Biword indexes: Almacenamiento de pares de términos en el índice.
  • Positional indexes: Almacenamiento de la posición de cada ocurrencia de un término.
    • De los documentos que contienen los términos de consulta, se analiza la posición de esos términos para verificar si es correcta (si forman la frase).
    • Problema: tiempo de procesamiento.
    • Ventaja: válido para búsquedas por proximidad.

Tokenizer

Es el programa encargado de segmentar la frase en palabras simples o compuestas. Pueden dividirla en sintagmas, grupos nominales, etc.

  • Tokens: unidades en el texto.
  • Términos: unidades en el índice del sistema de recuperación.
  • Ejemplo: "el coche de caballos corría veloz" -> 6 tokens, 4 términos.
  • Problemas: Delimitadores de tokens.

Normalización

Proceso por el que los tokens se convierten a una forma canónica, de modo que pueda existir matching entre dos tokens a pesar de pequeñas variaciones superficiales en ellos.

Stemming

Normalizan a la raíz teniendo solo en cuenta la terminación de la palabra (sufijos) o el inicio.

  • Sencillos de programar.
  • Disminuyen la base de datos entre un 10-50%.
  • Son frecuentemente derivativos.
  • Normalmente hay un tamaño mínimo de palabra sobre el que hacer el stemming.
  • Tienen reglas muy simples del tipo sustituir final "-ando" por "-ar", así pasa "caminando" a "caminar".

Extracción de Información

Proceso de seleccionar, clasificar y combinar datos que están presentes explícitamente (no implícita) en uno o más documentos en lenguaje natural.

Entradas relacionadas: