Modelos e Técnicas de Recuperación de Información en Buscadores
Clasificado en Otras lenguas extranjeras
Escrito el en
español con un tamaño de 2,61 KB
Factores de Relevancia e Modelo BM25
- Frecuencia de termos: Cantidade de veces que aparece un concepto.
- Distribución de termos: Como se distribúen os termos en documentos relevantes e non relevantes. Un termo distribuído ao longo de todo o documento ten unha maior puntuación que outro concentrado unicamente nun parágrafo.
- Ponderación: Os termos raros (menos frecuentes) adoitan recibir máis peso porque se consideran máis discriminativos.
O modelo clásico empregado é o modelo de recuperación probabilístico BM25. Este sistema axusta a relevancia de cada documento baseado na frecuencia dos termos e o tamaño do documento, permitindo realizar buscas máis precisas e relevantes.
5. Baseado na linguaxe natural (Language Model)
- Mediante técnicas de procesamento da linguaxe, os sistemas buscan documentos que teñan unha linguaxe similar á da consulta do usuario, destacando aqueles que conteñen termos e frases similares.
- A diferenza co modelo anterior é que agora xa non se trata só de termos e da súa frecuencia ou distribución. Trátase, ademais, de intentar comprender o seu significado, como están redactados e como se corresponde o que buscamos con respecto ao que figura no documento. Exemplo: Diferenza entre "estou feito polvo" e "estou canso".
- O buscador chega a estes resultados baseándose na repetición de fórmulas.
- Exemplo: En YouTube, cando empezas a escribir na barra, amósase unha lista de suxestións baseadas no que máis busca a xente e no teu propio historial.
6. Recuperación semántica
- Tenta comprender o significado profundo. Non se trata só de coincidencias de palabras chave, senón da análise semántica do documento. Baséase integramente no procesamento da linguaxe natural.
- Para unha consulta sobre "Menús sen glute nunha web ou app de receitas", o sistema filtra e recomenda pratos marcados como sen glute e pode priorizar aqueles que teñen valores nutricionais compatibles.
7. Personalización
- Estas técnicas non se exclúen coas anteriores e engaden ao proceso de busca o historial previo de buscas do usuario. O que intentan é ofrecer resultados que teñan en conta as demandas anteriores do usuario no sistema.
- Computan os clics ou interaccións dos usuarios e engaden esta ponderación aos novos resultados para optimizar a experiencia.