Modelos e Técnicas de Recuperación de Información en Buscadores

Clasificado en Otras lenguas extranjeras

Escrito el en español con un tamaño de 2,61 KB

Factores de Relevancia e Modelo BM25

  • Frecuencia de termos: Cantidade de veces que aparece un concepto.
  • Distribución de termos: Como se distribúen os termos en documentos relevantes e non relevantes. Un termo distribuído ao longo de todo o documento ten unha maior puntuación que outro concentrado unicamente nun parágrafo.
  • Ponderación: Os termos raros (menos frecuentes) adoitan recibir máis peso porque se consideran máis discriminativos.

O modelo clásico empregado é o modelo de recuperación probabilístico BM25. Este sistema axusta a relevancia de cada documento baseado na frecuencia dos termos e o tamaño do documento, permitindo realizar buscas máis precisas e relevantes.

5. Baseado na linguaxe natural (Language Model)

  • Mediante técnicas de procesamento da linguaxe, os sistemas buscan documentos que teñan unha linguaxe similar á da consulta do usuario, destacando aqueles que conteñen termos e frases similares.
  • A diferenza co modelo anterior é que agora xa non se trata só de termos e da súa frecuencia ou distribución. Trátase, ademais, de intentar comprender o seu significado, como están redactados e como se corresponde o que buscamos con respecto ao que figura no documento. Exemplo: Diferenza entre "estou feito polvo" e "estou canso".
  • O buscador chega a estes resultados baseándose na repetición de fórmulas.
  • Exemplo: En YouTube, cando empezas a escribir na barra, amósase unha lista de suxestións baseadas no que máis busca a xente e no teu propio historial.

6. Recuperación semántica

  • Tenta comprender o significado profundo. Non se trata só de coincidencias de palabras chave, senón da análise semántica do documento. Baséase integramente no procesamento da linguaxe natural.
  • Para unha consulta sobre "Menús sen glute nunha web ou app de receitas", o sistema filtra e recomenda pratos marcados como sen glute e pode priorizar aqueles que teñen valores nutricionais compatibles.

7. Personalización

  • Estas técnicas non se exclúen coas anteriores e engaden ao proceso de busca o historial previo de buscas do usuario. O que intentan é ofrecer resultados que teñan en conta as demandas anteriores do usuario no sistema.
  • Computan os clics ou interaccións dos usuarios e engaden esta ponderación aos novos resultados para optimizar a experiencia.

Entradas relacionadas: