Búsqueda y recuperación de información

Cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva.Durante 1970 se realizaron pruebas a un grupo de textos como la colección Cranfield para un gran número de distintas técnicas cuyo rendimiento fue bueno.El uso de métodos digitales para almacenar y recuperar información ha desembocado en el denominado fenómeno de la obsolescencia digital, que sucede cuando una fuente digital deja de ser accesible porque sus medio físico, el lector utilizado para la lectura de ese medio o el software que lo controla, ya no se encuentra disponible.La información, inicialmente es más fácil de recuperar en lugar de su fuente en papel, pero dicha información entonces, se pierde definitivamente.Los buscadores, tales como Google, Google Desktop Search, Lycos y Copernic, son algunas de las aplicaciones más populares para la recuperación de información.A veces se plantean ciertos problemas a la hora de recuperar información provocados por el uso del lenguaje natural (entre otras razones) como el silencio (debido a la sinonimia), el ruido (debido a la polisemia), homografía, ambigüedad, etc. Un proceso de recuperación de información comienza cuando un usuario hace una consulta al sistema.Un objeto es una identidad que está representada por información en una base de datos.Los objetos con mayor ranking son mostrados a los usuarios y el proceso puede tener otras iteraciones si el usuario desea refinar su consulta.Las medidas necesitan una colección de documentos y una consulta.A continuación serán descritas algunas medidas comunes, las cuales asumen que: cada documento se sabe que este es relevante o no relevante para una consulta particular.En la práctica pueden haber diferentes matices de relevancia.La exhaustividad es la fracción de documentos relevantes para una consulta que fueron recuperados.Resulta trivial obtener un 100% de exhaustividad si se toman como respuesta para cualquier consulta todos los documentos de la colección.Por lo tanto, la exhaustividad sola no es suficiente, sino que se necesita también medir el número de documentos no relevantes, por ejemplo con el cálculo de la precisión., pues el recobrado y la precisión son pesados uniformemente.La fórmula general para el parámetro real no negativo, que pondera el recobrado dos veces por encima de la precisión, y la medida, que pesa la precisión dos veces por encima del recobrado.“mide la efectividad de la recuperación respecto a un usuario que atribuyeveces más importancia al recobrado que a la precisión”.La Precisión y el recobrado son métricas basadas en toda la lista de documentos retornada por el sistema dada una consulta.Para sistemas que hacen ranking a los documentos retornados para una consulta es deseable considerar además el orden en que los documentos retornados son presentados.: Esta integral es remplazada en la práctica por una suma finita sobre todas las posiciones en la secuencia de documentos con ranking: dondedel ranking es relevante al documento, y cero en otro caso.donde Q es el número de consultas que se están evaluando.La figura a la derecha ilustra la relación entre algunos de los modelos más comunes.
Modelos de recuperación de información.
Categorización de los Modelos de Recuperación de Información