Recuperación dispersa aprendida

La recuperación dispersa aprendida o búsqueda neuronal dispersa es un enfoque de recuperación de información que utiliza una representación vectorial dispersa de consultas y documentos. ^[1] Toma prestadas técnicas tanto de los algoritmos de bolsa de palabras léxicas como de los algoritmos de incrustación vectorial , y se afirma que funciona mejor que cualquiera de ellos por separado. Los sistemas de búsqueda neuronal dispersa más conocidos son SPLADE ^[2] y su sucesor SPLADE v2. ^[3] Otros incluyen DeepCT, ^[4] uniCOIL, ^[5] EPIC, ^[6] DeepImpact, ^[7] TILDE y TILDEv2, ^[8] Sparta, ^[9] SPLADE-max y DistilSPLADE-max. ^[3]

También existen extensiones de los enfoques de recuperación dispersa al dominio de la visión y el lenguaje, donde estos métodos se aplican a datos multimodales, como la combinación de texto con imágenes. ^[10] Esta expansión permite la recuperación de contenido relevante en diferentes modalidades, como la búsqueda de imágenes basadas en consultas de texto o viceversa.

Algunas implementaciones de SPLADE tienen una latencia similar a la búsqueda léxica de Okapi BM25 y, al mismo tiempo, brindan resultados tan buenos como los clasificadores neuronales de última generación en datos del dominio. ^[11]

Los pesos del modelo oficial de SPLADE y el código de entrenamiento se publican bajo una licencia Creative Commons No Comercial . ^[12] Pero existen otras implementaciones independientes de SPLADE++ (una variante de los modelos SPLADE) que se publican bajo licencias permisivas.

SPRINT es un conjunto de herramientas para evaluar sistemas de recuperación neuronal dispersa. ^[13]

Enlaces externos

Base de código de SPLADE en github

Notas

^ Nguyen, Thong; MacAvaney, Sean; Yates, Andrew (2023). "Un marco unificado para la recuperación dispersa aprendida". En Kamps, Jaap; Goeuriot, Lorraine; Crestani, Fabio; Maistro, Maria; Joho, Hideo; Davis, Brian; Gurrin, Cathal; Kruschwitz, Udo; Caputo, Annalina (eds.). Avances en la recuperación de información . Apuntes de clase en informática. Vol. 13982. Cham: Springer Nature Switzerland. págs. 101–116. arXiv : 2303.13416 . doi :10.1007/978-3-031-28241-6_7. ISBN . 978-3-031-28241-6. Número de identificación del sujeto 257585074.
^ Formal, Thibault; Piwowarski, Benjamin; Clinchant, Stéphane (11 de julio de 2021). "SPLADE: modelo léxico y de expansión dispersos para la clasificación de primera etapa". Actas de la 44.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . SIGIR '21. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 2288–2292. arXiv : 2107.05720 . doi :10.1145/3404835.3463098. ISBN . 978-1-4503-8037-9. Número de identificación del sujeto 235792467.
^ ab Formal, Thibault; Piworwarski, Benjamin; Lassance, Carlos; Clinchant, Stéphane (21 de septiembre de 2021). "SPLADE v2: modelo léxico y de expansión dispersos para la recuperación de información". arXiv : 2109.10086v1 [cs.IR].
^ Dai, Zhuyun; Callan, Jamie (20 de abril de 2020). "Ponderación de términos de documentos según el contexto para búsquedas ad hoc". Actas de la Conferencia Web 2020. Nueva York, NY, EE. UU.: ACM. págs. 1897–1907. doi :10.1145/3366423.3380258. ISBN 9781450370233. Número de identificación del sujeto 218521094.
^ Lin, Jimmy; Ma, Xueguang (28 de junio de 2021). "Algunas notas breves sobre DeepImpact, COIL y un marco conceptual para técnicas de recuperación de información". arXiv : 2106.14807 [cs.IR].
^ MacAvaney, Sean; Nardini, Franco Maria; Perego, Raffaele; Tonellotto, Nicola; Goharian, Nazli; Frieder, Ophir (25 de julio de 2020). "Expansión mediante predicción de importancia con contextualización". Actas de la 43.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . SIGIR '20. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 1573–1576. arXiv : 2004.14245 . doi :10.1145/3397271.3401262. ISBN . 978-1-4503-8016-4.S2CID216641912 .
^ Mallia, Antonio; Khattab, Omar; Suel, Torsten; Tonellotto, Nicola (11 de julio de 2021). "Impactos de los pasajes de aprendizaje para índices invertidos". Actas de la 44.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . SIGIR '21. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 1723–1727. arXiv : 2104.12016 . doi :10.1145/3404835.3463030. ISBN 978-1-4503-8037-9. Número de identificación del sujeto 233394068.
^ Zhuang, Shengyao; Zuccon, Guido (13 de septiembre de 2021). "Reclasificación rápida de pasajes con correspondencia de términos exacta contextualizada y expansión eficiente de pasajes". arXiv : 2108.08513 [cs.IR].
^ Zhao, Tiancheng; Lu, Xiaopeng; Lee, Kyusong (28 de septiembre de 2020). "SPARTA: Respuesta eficiente a preguntas de dominio abierto mediante recuperación de correspondencia de transformadores dispersos". arXiv : 2009.13013 [cs.CL].
^ Nguyen, Thong; Hendriksen, Mariya; Yates, Andrew; de Rijke, Maarten (2024). "Recuperación dispersa aprendida multimodal con control de expansión probabilística". Conferencia Europea sobre Recuperación de Información . Cham: Springer Nature Switzerland. págs. 448–464.
^ Lassance, Carlos; Clinchant, Stéphane (7 de julio de 2022). "Un estudio de eficiencia para modelos SPLADE". Actas de la 45.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . SIGIR '22. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 2220–2226. arXiv : 2207.03834 . doi :10.1145/3477495.3531833. ISBN 978-1-4503-8732-3. Número de identificación del sujeto 250340284.
^ "splade/LICENSE en main · naver/splade". GitHub . Consultado el 25 de agosto de 2023 .
^ Thakur, Nandan; Wang, Kexin; Gurevych, Iryna; Lin, Jimmy (18 de julio de 2023). "SPRINT: un conjunto de herramientas unificado para evaluar y desmitificar la recuperación dispersa neuronal de disparo cero". Actas de la 46.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . SIGIR '23. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 2964–2974. arXiv : 2307.10488 . doi :10.1145/3539618.3591902. ISBN . 978-1-4503-9408-6.S2CID259949923 .