Biblioteca Java para búsqueda de texto completo
Apache Lucene es una biblioteca de software de motor de búsqueda libre y de código abierto , escrita originalmente en Java por Doug Cutting . Cuenta con el respaldo de la Apache Software Foundation y se publica bajo la Apache Software License . Lucene se utiliza ampliamente como base estándar para aplicaciones de búsqueda de producción. [2] [3] [4]
Lucene ha sido portado a otros lenguajes de programación, incluidos Object Pascal , Perl , C# , C++ , Python , Ruby y PHP . [5]
Historia
Doug Cutting escribió originalmente Lucene en 1999. [6] Lucene fue su quinto motor de búsqueda. Anteriormente había escrito dos mientras estaba en Xerox PARC , uno en Apple y un cuarto en Excite . [7] Inicialmente estaba disponible para descargar desde su página principal en el sitio web de SourceForge . Se unió a la familia de productos Java de código abierto de Apache Software Foundation en Jakarta en septiembre de 2001 y se convirtió en su propio proyecto Apache de alto nivel en febrero de 2005. El nombre Lucene es el segundo nombre de la esposa de Doug Cutting y el primer nombre de su abuela materna. [8]
Anteriormente, Lucene incluía varios subproyectos, como Lucene.NET, Mahout , Tika y Nutch . Estos tres son ahora proyectos independientes de alto nivel.
En marzo de 2010, el servidor de búsqueda Apache Solr se unió como un subproyecto de Lucene, fusionando las comunidades de desarrolladores.
La versión 4.0 se lanzó el 12 de octubre de 2012. [9]
En marzo de 2021, Lucene cambió su logotipo y Apache Solr volvió a ser un proyecto Apache de primer nivel, independiente de Lucene.
Características y uso común
Si bien es adecuado para cualquier aplicación que requiera capacidad de búsqueda e indexación de texto completo , Lucene es reconocido por su utilidad en la implementación de motores de búsqueda de Internet y búsquedas locales en un solo sitio. [10] [11]
Lucene incluye una función para realizar una búsqueda difusa basada en la distancia de edición . [12]
Lucene también se ha utilizado para implementar sistemas de recomendación. [13] Por ejemplo, la clase 'MoreLikeThis' de Lucene puede generar recomendaciones para documentos similares. En una comparación del enfoque de similitud basado en vectores de términos de 'MoreLikeThis' con medidas de similitud de documentos basadas en citas, como el análisis de cocitación y proximidad de cocitación, el enfoque de Lucene se destacó en la recomendación de documentos con características estructurales muy similares y una relación más estrecha. [14] En contraste, las medidas de similitud de documentos basadas en citas tendían a ser más adecuadas para recomendar documentos más ampliamente relacionados, [14] lo que significa que los enfoques basados en citas pueden ser más adecuados para generar recomendaciones fortuitas , siempre que los documentos a recomendar contengan citas en el texto.
Proyectos basados en Lucene
Lucene en sí es solo una biblioteca de indexación y búsqueda y no contiene funciones de rastreo y análisis de HTML . Sin embargo, varios proyectos amplían la capacidad de Lucene:
Véase también
Referencias
- ^ "Bienvenido a Apache Lucene". Sección de noticias de Lucene™. Archivado desde el original el 12 de febrero de 2021. Consultado el 12 de febrero de 2020 .
- ^ Kamphuis, Chris; de Vries, Arjen P.; Boytsov, Leonid; Lin, Jimmy (2020), "¿A qué BM25 te refieres? Un estudio de reproducibilidad a gran escala de variantes de puntuación", en Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo (eds.), Advances in Information Retrieval , Lecture Notes in Computer Science, vol. 12036, Cham: Springer International Publishing, págs. 28–34, doi :10.1007/978-3-030-45442-5_4, ISBN 978-3-030-45441-8, Número de pedido mínimo 7148026
- ^ Grand, Adrien; Muir, Robert; Ferenczi, Jim; Lin, Jimmy (2020), "De MAXSCORE a Block-Max Wand: la historia de cómo Lucene mejoró significativamente el rendimiento de la evaluación de consultas", en Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo (eds.), Advances in Information Retrieval , Lecture Notes in Computer Science, vol. 12036, Cham: Springer International Publishing, págs. 20–27, doi :10.1007/978-3-030-45442-5_3, ISBN 978-3-030-45441-8, Número de pedido mínimo 7148045
- ^ Azzopardi, Leif; Moshfeghi, Yashar; Halvey, Martín; Alkhawaldeh, Rami S.; Balog, Krisztian; Di Buccio, Emanuele; Ceccarelli, Diego; Fernández-Luna, Juan M.; Casco, Charlie; Mannix, Jake; Palchowdhury, Sauparna (14 de febrero de 2017). "Lucene4IR: Desarrollo de recursos de evaluación de recuperación de información utilizando Lucene". Foro ACM SIGIR . 50 (2): 58–75. doi :10.1145/3053408.3053421. ISSN 0163-5840. S2CID 212416159.
- ^ "LuceneImplementations". apache.org . Archivado desde el original el 6 de octubre de 2015. Consultado el 23 de septiembre de 2015 .
- ^ KeywordAnalyzer "Mejor búsqueda con Apache Lucene y Solr" (PDF) . 19 de noviembre de 2007. Archivado desde el original (PDF) el 31 de enero de 2012.
- ^ Cutting, Doug (7 de junio de 2019). "Escribí un par de motores de búsqueda en Xerox PARC, luego V-Twin en Apple, luego reescribí la búsqueda de Excite y luego Lucene. Entonces, ¿se podría considerar a Lucene como V-Twin 3.0? ¡Casi 25 años después, V-Twin sigue vivo como Mac OS X Search Kit!". @cutting . Consultado el 19 de junio de 2019 .
- ^ Barker, Deane (2016). Gestión de contenido web . O'Reilly. pág. 233. ISBN 978-1491908105.
- ^ "Apache Lucene - Bienvenido a Apache Lucene". apache.org . Archivado desde el original el 4 de febrero de 2016 . Consultado el 4 de febrero de 2016 .
- ^ McCandless, Michael; Hatcher, Erik; Gospodnetić, Otis (2010). Lucene in Action, segunda edición . Manning. pág. 8. ISBN 978-1933988177.
- ^ "Sistema de almacenamiento semántico GNU/Linux" (PDF) . glscube.org . Archivado desde el original (PDF) el 2010-06-01.
- ^ "Apache Lucene - Sintaxis del analizador de consultas". lucene.apache.org . Archivado desde el original el 2 de mayo de 2017.
- ^ J. Beel, S. Langer y B. Gipp, “La arquitectura y los conjuntos de datos del sistema de recomendación de artículos de investigación de Docear”, en Actas del 3.er Taller internacional sobre minería de publicaciones científicas (WOSP 2014) en la Conferencia conjunta ACM/IEEE sobre bibliotecas digitales (JCDL 2014), Londres, Reino Unido, 2014
- ^ ab M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, V. Markl y B. Gipp, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf "Evaluación de recomendaciones basadas en enlaces para Wikipedia" en Actas de la 16.ª Conferencia conjunta ACM/IEEE-CS sobre bibliotecas digitales (JCDL), Nueva York, NY, EE. UU., 2016, págs. 191-200.
- ^ Wayner, Peter. «11 bases de datos de vanguardia que vale la pena explorar ahora». InfoWorld. Archivado desde el original el 21 de septiembre de 2015. Consultado el 21 de septiembre de 2015 .
- ^ "Elasticsearch: RESTful, Distributed Search & Analytics - Elastic". elastic.co . Archivado desde el original el 8 de octubre de 2015. Consultado el 23 de septiembre de 2015 .
- ^ "El futuro de Compass y Elasticsearch". el tipo se atiene . Archivado desde el original el 15 de octubre de 2015 . Consultado el 14 de octubre de 2015 .
- ^ ab Natividad, Angela. "Socialtext actualiza la búsqueda y se convierte en cine". CMS Wire. Archivado desde el original el 29 de septiembre de 2012. Consultado el 31 de mayo de 2011 .
- ^ Marvin Humphrey. "KinoSearch - Biblioteca de motores de búsqueda. - metacpan.org". p3rl.org . Consultado el 23 de septiembre de 2015 .
- ^ Diment, Kieren; Trout, Matt S (2009). "Libro de recetas de Catalyst". La guía definitiva de Catalyst . Apress . pág. 280. ISBN. 978-1-4302-2365-8.
- ^ Wishart, DS ; et al. (enero de 2009). "HMDB: una base de conocimiento para el metaboloma humano". Nucleic Acids Res. 37 (número de la base de datos): D603–10. doi :10.1093/nar/gkn810. PMC 2686599 . PMID 18953024.
- ^ Lim, Emilia; Pon, Allison; Djoumbou, Yannick; Knox, Craig; Shrivastava, Savita; Guo, An Chi; Neveu, Vanessa; Wishart, David S. (enero de 2010). "T3DB: una base de datos exhaustivamente anotada de toxinas comunes y sus objetivos". Nucleic Acids Res . 38 (número de la base de datos): D781–6. doi :10.1093/nar/gkp934. PMC 2808899 . PMID 19897546.
Bibliografía
Enlaces externos