Fundamentos de Recuperación de Información: Modelos Probabilísticos y Gestión de Datos

Clasificado en Informática

Escrito el en español con un tamaño de 2,93 KB

Modelo Probabilístico

Modelo Probabilístico: Calcula la probabilidad de que un documento sea relevante a una consulta.

  • Asume la independencia de términos: P(york) = P(york|new); P(pie) = P(pie|apple).
  • Asigna pesos a los términos:
    • Positivo: Es probable que el documento sea relevante.
    • Negativo: Es probable que el documento no sea relevante.

Ventajas y Desventajas

Ventajas

  • Ordena los resultados por relevancia.
  • Sigue un razonamiento matemático basado en probabilidades, lo que permite que tenga extensiones populares.

Desventajas

  • Poco intuitivo y resultados no siempre mejores que el vectorial (según Salton).
  • Teoría compleja y costosa computacionalmente en sucesivas iteraciones (dependen del conjunto inicial de documentos mostrados). Reacios a interactuar.
  • No es posible conocer al principio el conjunto de documentos relevantes.
  • Igual que el vectorial, presupone independencia de términos.
  • No normaliza por la longitud del término, no tiene en cuenta la frecuencia del término (el modelo BM25, que es una variación, sí lo hace).

Planificación

Consiste en identificar la fuente idónea teniendo en cuenta su utilidad para nuestro problema, veracidad, calidad y formato.

  1. Identifica el problema.
  2. Comienza con una muestra.
  3. Realizar un caso de estudio.
  4. Identificar necesidades de recolección, limpieza y agregación.

Calidad de Datos

  • Calidad: Consistente (coherente y uniforme), completa y limpia.
  • Integridad de datos: Sin pérdida de datos, datos incorrectos, contaminados, inconsistentes o duplicados.
  • Novedad: La afirmación es nueva para mí.
  • Validez: Fuente fiable, con autoridad y con información sobre su procedencia y cómo se ha transformado (data lineage).
  • Veracidad: Tiene tres dimensiones: objetividad, veracidad y credibilidad.
  • Utilidad: Si tiene un impacto sobre el objetivo de mi proyecto.

Crawler

Aplicación web para recorrer de forma sistemática las páginas web, para indexarlas (por ejemplo, para búsquedas) u otro propósito.

Requisitos de un Crawler

Debe ser:

  • Robusto: Asegurar su funcionamiento independientemente de los elementos que encuentren en los sitios y de su distribución (ej. evitar bucles).
  • Respetuoso: Con las políticas de los servidores (ej. fichero robots.txt, frecuencia de visitas, una conexión por host).

Es aconsejable que sea:

  • Distribuido y habitualmente con uso de threads.
  • Escalable.
  • Eficiente.
  • Extensible.

Entradas relacionadas: