Modelo del Espacio Vectorial en la Recuperación de Información

Clasificado en Otras materias

Escrito el en español con un tamaño de 4,75 KB

Modelo del Espacio Vectorial

El modelo del espacio vectorial consiste en generar un campo vectorial, formado por vectores unitarios correspondientes a los términos de indexación. La diferencia con el modelo booleano radica en que este último es un "todo o nada"; es decir, si hay coincidencia con la pregunta, se devuelven los documentos que hicieron match, pero si no la hay, no se devuelve nada. Por otro lado, el modelo del espacio vectorial devuelve documentos relevantes en mayor o menor medida. Las preguntas son una o más palabras en lenguaje humano, y en este modelo se devuelven los documentos en orden de importancia de mayor a menor.

1. Coeficiente de Jaccard

Se utiliza para calcular el grado de importancia de un término en dichos documentos, aunque obvia la frecuencia de aparición de los términos.

Propiedades:

  • Sirve para comparar documentos de distinta longitud.
  • Asigna un score entre 1 y 0, siendo 1 la mejor puntuación.

2. Modelo Bolsa de Palabras

En este modelo se pierde la capacidad de hacer preguntas booleanas. Se tienen en cuenta el conjunto de términos que aparecen en el documento y el orden de los mismos.

3. Término Frecuencia (tf)

Se utiliza para dar la información de la frecuencia de aparición de un término en un documento; es útil para la importancia local de un término.

4. Ponderación de la Frecuencia de Registro

La puntuación es 0 si no aparecen en el documento ninguno de los términos de consulta.

5. Frecuencia del Documento

Número de documentos en los que aparece un término en concreto. Nos sirve para construir la frecuencia inversa del documento. Cabe recalcar que los términos raros son los importantes, no los frecuentes, pues estos aportan mayor información.

Idf Weight

Es aplicable en preguntas con dos o más términos de indexación, y se trata del peso del término en dicha consulta.

6. tf-idf weighting

Mejor esquema de ponderación conocido en la recuperación de información. Aumenta con el número de ocurrencias dentro del documento y con la rareza del término en la colección. Es el producto del término tf (frecuencia de aparición de un término en un documento) y el peso del mismo término.

7. Documentos como Vectores

Los términos son los ejes en el espacio y los documentos son los puntos o vectores en el espacio. Se trata de vectores muy dispersos en los cuales la mayoría de las entradas son cero.

8. Preguntas como Vectores

Tenemos dos ideas: la primera es representar las preguntas como vectores en el espacio y la segunda es hacer un ranking de documentos que estén próximos a la pregunta en el espacio. Para calcular dicho ranking es mejor utilizar el ángulo en lugar de la distancia euclídea pues los vectores pueden tener diferente longitud. Cuanto más similar sea el ángulo, más similar será la pregunta.

Minería de Datos

Disciplina que trata la extracción no trivial de conocimiento implícito, previamente desconocido y útil desde grandes cantidades de datos almacenados en diferentes formatos.

Minería de Texto

Extracción no trivial de conocimiento e información previamente desconocida y útil. Se extrae de información no estructurada. Para ello primero se recupera el documento, luego se categoriza, posteriormente se etiqueta la entidad y por último se extrae dicha información.

Métodos para la Categorización del Documento:

Nos permite saber si un documento es o no relevante para la búsqueda en cuestión.

  1. Naïve Bayes.
  2. tf-idf.
  3. Árboles de decisión.
  4. K-NN.

Reconocimiento de Entidades Nombradas:

Es decir, reconocer y extraer entidades nombradas en el texto, como puede ser genes, proteínas… Hay tres enfoques diferentes:

1. Basado en Diccionarios

Existe un diccionario que tiene los términos de interés precompilados. (BLAST, inventado en el 2000, basado en identificar genes y proteínas). Este enfoque es muy simple, pero si el término no está, no lo reconoce, no es muy eficiente y no reconoce los sinónimos.

2. Basado en Reglas

Se construyen reglas para identificar entidades relevantes. Tienen el problema de que no consideran las características contextuales y son difíciles de ajustar para varios dominios. (En 2010, García-Remesal creó un sistema que buscaba secuencias de ácidos nucleicos con una tasa de error inferior al 10%).

3. Machine Learning

Construir una entidad automática que, dado un texto, hace un etiquetado de las palabras. Se utilizan dos técnicas: la primera son campos condicionales y la segunda, máquinas de soporte vectorial.

Entradas relacionadas: