stringtranslate.com

Conferencia sobre recuperación de textos

La Conferencia de Recuperación de Texto ( TREC ) es una serie de talleres que se llevan a cabo en forma continua y se centran en una lista de diferentes áreas o vías de investigación de recuperación de información (IR) . Está copatrocinada por el Instituto Nacional de Estándares y Tecnología (NIST) y la Actividad de Proyectos de Investigación Avanzada de Inteligencia (parte de la oficina del Director de Inteligencia Nacional ), y comenzó en 1992 como parte del programa de texto TIPSTER . Su propósito es apoyar y fomentar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de las metodologías de recuperación de texto y para aumentar la velocidad de la transferencia de tecnología del laboratorio al producto .

Los protocolos de evaluación de TREC han mejorado muchas tecnologías de búsqueda. Un estudio de 2010 estimó que "sin TREC, los usuarios de Internet de Estados Unidos habrían pasado hasta 3.150 millones de horas adicionales utilizando motores de búsqueda web entre 1999 y 2009". [1] Hal Varian, economista jefe de Google, escribió que "los datos de TREC revitalizaron la investigación sobre recuperación de información. Disponer de un conjunto de datos estándar, ampliamente disponible y cuidadosamente elaborado sentó las bases para una mayor innovación en este campo". [2]

Cada pista tiene un desafío en el que el NIST proporciona a los grupos participantes conjuntos de datos y problemas de prueba. Según la pista, los problemas de prueba pueden ser preguntas, temas o características extraíbles de destino . Se realiza una puntuación uniforme para que los sistemas puedan evaluarse de manera justa. Después de la evaluación de los resultados, un taller ofrece un lugar para que los participantes recopilen pensamientos e ideas y presenten trabajos de investigación actuales y futuros. La Conferencia de Recuperación de Texto comenzó en 1992, financiada por DARPA (Proyecto de Investigación Avanzada de Defensa de EE. UU.) y dirigida por el NIST. Su propósito era apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de las metodologías de recuperación de texto.

Objetivos

El TREC está supervisado por un comité de programa compuesto por representantes del gobierno, la industria y el mundo académico. Para cada TREC, el NIST proporciona un conjunto de documentos y preguntas. Los participantes ejecutan su propio sistema de recuperación de datos y devuelven al NIST una lista de los documentos recuperados mejor clasificados. El NIST agrupa los resultados individuales, juzga la exactitud de los documentos recuperados y evalúa los resultados. El ciclo TREC finaliza con un taller que es un foro para que los participantes compartan sus experiencias.

Sentencias de relevancia en TREC

TREC define la relevancia como: "Si estuviera escribiendo un informe sobre el tema del tema y utilizara la información contenida en el documento en el informe, entonces el documento es relevante". [3] La mayoría de las tareas de recuperación de TREC utilizan la relevancia binaria: un documento es relevante o no relevante. Algunas tareas de TREC utilizan la relevancia graduada, capturando múltiples grados de relevancia. La mayoría de las colecciones de TREC son demasiado grandes para realizar una evaluación de relevancia completa; para estas colecciones es imposible calcular la recuperación absoluta para cada consulta. Para decidir qué documentos evaluar, TREC generalmente utiliza un método de agrupación de llamadas. En este método, se agregan los n documentos mejor clasificados de cada ejecución contribuyente y el conjunto de documentos resultante se juzga por completo.

Varios TREC

En 1992 se celebró la TREC-1 en el NIST. La primera conferencia atrajo a 28 grupos de investigadores del mundo académico y de la industria. En ella se demostró una amplia gama de enfoques diferentes para la recuperación de texto de grandes colecciones de documentos. Finalmente, la TREC1 reveló que la construcción automática de consultas a partir de enunciados de consulta en lenguaje natural parece funcionar. Las técnicas basadas en el procesamiento del lenguaje natural no eran ni mejores ni peores que las basadas en enfoques vectoriales o probabilísticos.

El TREC2 se llevó a cabo en agosto de 1993. En él participaron 31 grupos de investigadores. Se examinaron dos tipos de recuperación: la recuperación mediante una consulta "ad hoc" y la recuperación mediante una consulta "de enrutamiento".

En TREC-3, un pequeño grupo de experimentos trabajó con una colección de idiomas en español y otros se ocuparon de la formulación de consultas interactivas en múltiples bases de datos.

TREC-4 lo hicieron aún más corto para investigar los problemas con declaraciones de usuario muy cortas

TREC-5 incluye versiones cortas y largas de los temas con el objetivo de realizar una investigación más profunda sobre qué tipos de técnicas funcionan bien en temas de distintas duraciones.

En TREC-6 se introdujeron tres nuevas vías de recuperación de información de alta precisión, en varios idiomas y con voz. El objetivo de la recuperación de información en varios idiomas es facilitar la investigación en sistemas que puedan recuperar documentos relevantes independientemente del idioma del documento de origen.

TREC-7 contenía siete pistas, de las cuales dos eran una pista de consulta nueva y una pista de corpus muy grande. El objetivo de la pista de consulta era crear una gran colección de consultas.

TREC-8 contiene siete pistas, de las cuales dos (pistas de preguntas y respuestas y web) son nuevas. El objetivo de la consulta de control de calidad es explorar las posibilidades de proporcionar respuestas a consultas específicas en lenguaje natural.

TREC-9 Incluye siete pistas

En TREC-10 se introdujeron las pistas de video Diseño de pistas de video para promover la investigación en la recuperación basada en contenido de video digital

En TREC-11 se introdujeron los rastros de novedad. El objetivo de los rastros de novedad es investigar las capacidades de los sistemas para localizar información relevante y nueva dentro del conjunto de documentos clasificados que arroja un sistema de recuperación de documentos tradicional.

En el TREC-12 celebrado en 2003 se agregaron tres nuevas pistas: pista de genoma, pista de recuperación robusta, HARD (recuperación de alta precisión de documentos) [4]

Pistas

Pistas actuales

Se agregan nuevas pistas a medida que se identifican nuevas necesidades de investigación; esta lista está actualizada para TREC 2018. [5]

Pistas pasadas

Eventos relacionados

En 1997, se lanzó una contraparte japonesa de TREC (el primer taller se realizó en 1999), llamada NTCIR ( NII Test Collection for IR Systems), y en 2000, se lanzó CLEF , una contraparte europea, específicamente orientada al estudio de la recuperación de información en varios idiomas. El Foro para la Evaluación de la Recuperación de Información (FIRE) comenzó en 2008 con el objetivo de construir una contraparte del sur de Asia para TREC, CLEF y NTCIR.

Contribuciones de la conferencia a la eficacia de la búsqueda

El NIST afirma que en los primeros seis años de los talleres, la eficacia de los sistemas de recuperación de información se duplicó aproximadamente. [7] La ​​conferencia también fue la primera en realizar evaluaciones a gran escala de documentos, voz, vídeo y recuperación de información en idiomas distintos del inglés. Además, los desafíos han inspirado una gran cantidad de publicaciones. La tecnología desarrollada por primera vez en TREC ahora está incluida en muchos de los motores de búsqueda comerciales del mundo . Un informe independiente de RTII concluyó que "alrededor de un tercio de la mejora en los motores de búsqueda web entre 1999 y 2009 es atribuible a TREC. Esas mejoras probablemente ahorraron hasta 3 mil millones de horas de tiempo de uso de motores de búsqueda web... Además, el informe mostró que por cada dólar que el NIST y sus socios invirtieron en TREC, al menos entre 3,35 y 5,07 dólares en beneficios se acumularon para los investigadores de recuperación de información de los EE. UU. tanto en el sector privado como en la academia". [8] [9]

Aunque un estudio sugiere que el estado del arte de la búsqueda ad hoc no avanzó sustancialmente en la década anterior a 2009, [10] se refiere sólo a la búsqueda de documentos relevantes por tema en pequeñas colecciones de noticias y web de unos pocos gigabytes. Ha habido avances en otros tipos de búsqueda ad hoc. Por ejemplo, se crearon colecciones de prueba para la búsqueda web de elementos conocidos que encontraron mejoras a partir del uso de texto de anclaje, ponderación de títulos y longitud de URL, que no eran técnicas útiles en las colecciones de prueba ad hoc más antiguas. En 2009, se introdujo una nueva colección web de mil millones de páginas y se descubrió que el filtrado de spam era una técnica útil para la búsqueda web ad hoc, a diferencia de las colecciones de prueba anteriores.

Las colecciones de pruebas desarrolladas en TREC son útiles no sólo para ayudar (potencialmente) a los investigadores a avanzar en el estado de la técnica, sino también para permitir que los desarrolladores de nuevos productos de recuperación (comerciales) evalúen su eficacia en pruebas estándar. En la última década, TREC ha creado nuevas pruebas para la búsqueda de correo electrónico empresarial, la búsqueda genómica, el filtrado de correo no deseado, el e-Discovery y varios otros dominios de recuperación. [ ¿cuándo? ] [ cita requerida ]

Los sistemas TREC suelen proporcionar una base para futuras investigaciones. Algunos ejemplos son:

Participación

La conferencia está formada por un grupo variado e internacional de investigadores y desarrolladores. [15] [16] [17] En 2003, participaron 93 grupos tanto del ámbito académico como de la industria de 22 países.

Véase también

Referencias

  1. ^ Brent R. Rowe; Dallas W. Wood; Albert N. Link; Diglio A. Simoni (julio de 2010). "Evaluación del impacto económico del programa de la Conferencia de recuperación de textos (TREC) del NIST" (PDF) . RTI International .
  2. ^ Hal Varian (4 de marzo de 2008). "Por qué importan los datos".
  3. ^ "Datos - Juicios de relevancia en inglés". Instituto Nacional de Normas y Tecnología . Consultado el 18 de septiembre de 2023 .
  4. ^ Chowdhury, G. G (2003). Introducción a la recuperación de información moderna . Landon: Facet Publishing. Págs. 269-279. ISBN. 978-1856044806.
  5. ^ "TREC Tracks". trec.nist.gov . Archivado desde el original el 31 de marzo de 2019. Consultado el 19 de julio de 2024 .
  6. ^ "Knowledge Base Acceleration Track" (Vía de aceleración de la base de conocimientos). NIST .gov. 2014-06-30 . Consultado el 2020-11-04 .
  7. ^ De la página de inicio de TREC: "... la efectividad se duplicó aproximadamente en los primeros seis años de TREC"
  8. ^ "La inversión del NIST mejoró significativamente los motores de búsqueda". Rti.org. Archivado desde el original el 18 de noviembre de 2011. Consultado el 19 de enero de 2012 .
  9. ^ "Informe de planificación 10-1: Evaluación del impacto económico del programa de la Conferencia de recuperación de textos (TREC) del NIST" (PDF) . Instituto Nacional de Normas y Tecnología . Diciembre de 2010.
  10. ^ Timothy G. Armstrong, Alistair Moffat, William Webber, Justin Zobel. Mejoras que no suman: resultados de recuperaciones ad hoc desde 1998. CIKM 2009. ACM.
  11. ^ Varian, Hal (4 de marzo de 2009). "Por qué importan los datos". Google – vía Blogspot .
  12. ^ El Grupo 451: Estándares en e-Discovery: predicando con el ejemplo
  13. ^ IBM y Jeopardy! reviven la historia con una nueva presentación de Jeopardy!: The IBM Challenge
  14. ^ Ferrucci, David; Brown, Eric; Chu-Carroll, Jennifer; Fan, James; Gondek, David; Kalyanpur, Aditya A.; Lally, Adam; Murdock, J. William; Nyberg, Eric. "Building Watson: An Overview of the DeepQA Project" (PDF) . Asociación para el Avance de la Inteligencia Artificial . Archivado desde el original (PDF) el 15 de diciembre de 2011.
  15. ^ "Participantes - Wiki de la IRF". Wiki.ir-facility.org. 2009-12-01. Archivado desde el original el 2012-02-23 . Consultado el 2012-01-19 .
  16. ^ Oard, Douglas W.; Hedin, Bruce; Tomlinson, Stephen ; Baron, Jason R. "Descripción general del programa jurídico TREC 2008" (PDF) . Instituto Nacional de Normas y Tecnología .
  17. ^ "Text REtrieval Conference (TREC) TREC 2008 Million Query Track Results" (Conferencia de recuperación de textos (TREC) TREC 2008 Resultados de millones de consultas). Trec.nist.gov . Consultado el 19 de enero de 2012 .

Enlaces externos