En el procesamiento del lenguaje natural , la vinculación de entidades , también conocida como vinculación de entidades nombradas (NEL), [1] desambiguación de entidades nombradas (NED), reconocimiento y desambiguación de entidades nombradas (NERD) o normalización de entidades nombradas (NEN) [2] es la tarea de asignar una identidad única a las entidades (como personas famosas, lugares o empresas) mencionadas en el texto. Por ejemplo, dada la oración "París es la capital de Francia" , la idea es determinar que "París" se refiere a la ciudad de París y no a Paris Hilton ni a ninguna otra entidad a la que se pueda hacer referencia como "París" . La vinculación de entidades es diferente del reconocimiento de entidades nombradas (NER) en que NER identifica la aparición de una entidad nombrada en el texto, pero no identifica qué entidad específica es (consulte Diferencias con otras técnicas [ ancla rota ] ).
Introducción
En la vinculación de entidades, las palabras de interés (nombres de personas, lugares y empresas) se asignan desde un texto de entrada a las entidades únicas correspondientes en una base de conocimiento de destino . Las palabras de interés se denominan entidades nombradas (NE), menciones o formas de superficie. La base de conocimiento de destino depende de la aplicación prevista, pero para los sistemas de vinculación de entidades destinados a trabajar en texto de dominio abierto es común utilizar bases de conocimiento derivadas de Wikipedia (como Wikidata o DBpedia ). [2] [3] En este caso, cada página individual de Wikipedia se considera una entidad separada. Las técnicas de vinculación de entidades que asignan entidades nombradas a entidades de Wikipedia también se denominan wikificación . [4]
Considerando nuevamente la oración de ejemplo "París es la capital de Francia" , el resultado esperado de un sistema de enlace de entidades será París y Francia . Estos localizadores uniformes de recursos (URL) pueden usarse como identificadores uniformes de recursos
(URI) únicos para las entidades en la base de conocimiento. El uso de una base de conocimiento diferente devolverá diferentes URI, pero para las bases de conocimiento creadas a partir de Wikipedia existen asignaciones de URI uno a uno. [5]
En la mayoría de los casos, las bases de conocimiento se construyen manualmente, [6] pero en aplicaciones donde hay disponibles grandes corpus de texto , la base de conocimiento se puede inferir automáticamente a partir del texto disponible . [7]
La vinculación de entidades es un paso fundamental para unir los datos web con las bases de conocimiento, lo que resulta beneficioso para anotar la enorme cantidad de datos sin procesar y a menudo ruidosos de la Web y contribuye a la visión de la Web Semántica . [8] Además de la vinculación de entidades, existen otros pasos críticos que incluyen, entre otros, la extracción de eventos [9] y la vinculación de eventos [10], etc.
Aplicaciones
La vinculación de entidades es beneficiosa en campos que necesitan extraer representaciones abstractas del texto, como sucede en el análisis de texto, los sistemas de recomendación , la búsqueda semántica y los chatbots. En todos estos campos, los conceptos relevantes para la aplicación se separan del texto y otros datos no significativos. [11] [12]
Por ejemplo, una tarea común que realizan los motores de búsqueda es encontrar documentos similares a uno que se proporciona como entrada, o encontrar información adicional sobre las personas que se mencionan en él. Considere una oración que contiene la expresión "la capital de Francia" : sin la vinculación de entidades, el motor de búsqueda que mira el contenido de los documentos no podría recuperar directamente los documentos que contienen la palabra "París" , lo que da lugar a los llamados falsos negativos (FN). Peor aún, el motor de búsqueda podría producir coincidencias falsas (o falsos positivos (FP)), como recuperar documentos que hagan referencia a "Francia" como país.
Existen muchos enfoques ortogonales a la vinculación de entidades para recuperar documentos similares a un documento de entrada. Por ejemplo, el análisis semántico latente (LSA) o la comparación de incrustaciones de documentos obtenidas con doc2vec . Sin embargo, estas técnicas no permiten el mismo control detallado que ofrece la vinculación de entidades, ya que devolverán otros documentos en lugar de crear representaciones de alto nivel del original. Por ejemplo, obtener información esquemática sobre "París" , como se presenta en los infoboxes de Wikipedia, sería mucho menos sencillo, o a veces incluso inviable, dependiendo de la complejidad de la consulta. [13]
Además, la vinculación de entidades se ha utilizado para mejorar el rendimiento de los sistemas de recuperación de información [2] y para mejorar el rendimiento de las búsquedas en bibliotecas digitales. [14] La vinculación de entidades también es un insumo clave para la búsqueda semántica . [15] [16]
Desafíos
Existen diversas dificultades a la hora de realizar la vinculación de entidades. Algunas de ellas son intrínsecas a la tarea, [17] como la ambigüedad del texto. Otras son relevantes para el uso en el mundo real, como la escalabilidad y el tiempo de ejecución.
Variaciones de nombre : la misma entidad puede aparecer con representaciones textuales. Las fuentes de estas variaciones incluyen abreviaturas ( New York , NY ), alias ( New York , Big Apple ) o variaciones y errores ortográficos ( New yokr ).
Ambigüedad : la misma mención puede referirse a menudo a muchas entidades diferentes, dependiendo del contexto, ya que muchos nombres de entidades tienden a ser polisémicos (es decir, tienen múltiples significados). La palabra París , entre otras cosas, podría estar haciendo referencia a la capital francesa o a Paris Hilton . En algunos casos (como en la capital de Francia ), no existe similitud textual entre el texto de la mención y la entidad de destino real ( París ).
Ausencia : las entidades nombradas podrían no tener una entidad correspondiente en la base de conocimiento de destino. Esto puede suceder si la entidad es muy específica o inusual, o está relacionada con eventos recientes y la base de conocimiento está desactualizada, o si la base de conocimiento es específica de un dominio (por ejemplo, una base de conocimiento de biología). En estos casos, probablemente se espera que el sistema devuelva un NILenlace de entidad. Saber cuándo devolver una NILpredicción no es sencillo, y se han propuesto muchos enfoques. Algunos ejemplos son la fijación de un umbral de puntuación de confianza en el sistema de enlace de entidades y la inclusión de una NILentidad en la base de conocimiento, que se trata como cualquier entidad. Sin embargo, en algunos casos, el enlace a una entidad incorrecta pero relacionada puede ser más útil para el usuario que no tener ningún resultado. [17]
Escala y velocidad : es deseable que un sistema de vinculación de entidades industriales proporcione resultados en un tiempo razonable y, a menudo, en tiempo real. Este requisito es fundamental para los motores de búsqueda, los chatbots y los sistemas de vinculación de entidades que ofrecen las plataformas de análisis de datos. Garantizar un tiempo de ejecución bajo puede ser un desafío cuando se utilizan grandes bases de conocimiento o cuando se procesan documentos grandes. [18] Por ejemplo, Wikipedia contiene casi 9 millones de entidades y más de 170 millones de relaciones entre ellas.
Información en evolución : un sistema de vinculación de entidades también debería gestionar la información en evolución e integrar fácilmente las actualizaciones en la base de conocimientos. El problema de la información en evolución a veces está relacionado con el problema de las entidades faltantes, por ejemplo, cuando se procesan artículos de noticias recientes en los que se mencionan eventos que no tienen una entrada correspondiente en la base de conocimientos debido a su novedad. [19]
Múltiples idiomas : un sistema de vinculación de entidades podría admitir consultas realizadas en varios idiomas. Lo ideal sería que la precisión del sistema de vinculación de entidades no se viera afectada por el idioma de entrada, y las entidades en la base de conocimientos deberían ser las mismas en diferentes idiomas. [20]
Conceptos relacionados
Vinculación de entidades relacionadas con otros conceptos. Las definiciones suelen ser confusas y varían ligeramente entre autores.
La desambiguación de entidades nombradas (NED) generalmente se considera lo mismo que la vinculación de entidades, pero algunos autores (Alhelbawy et al. [21] ) la consideran un caso especial de vinculación de entidades que supone que la entidad está en la base de conocimiento. [22] [23]
La wikificación es la tarea de vincular menciones textuales a entidades en Wikipedia (generalmente, limitando el alcance a la Wikipedia en inglés en caso de wikificación translingüe).
La vinculación de registros (RL) encuentra la misma entidad en conjuntos de datos múltiples y a menudo heterogéneos. [24] Se considera un concepto más amplio que la vinculación de entidades y es un proceso clave en la digitalización de archivos y la unión de bases de conocimiento. [14]
El reconocimiento de entidades con nombre (NER) localiza y clasifica entidades con nombre en texto no estructurado en categorías predefinidas, como nombres, organizaciones, ubicaciones y más. Por ejemplo, la siguiente oración:
París es la capital de Francia.
sería procesado por un sistema NER para obtener la siguiente salida:
La ciudad de [ París ] es la capital del país de [ Francia ] .
NER suele ser un paso de preprocesamiento de un sistema de vinculación de entidades, ya que puede ser útil saber de antemano qué palabras deben vincularse a entidades de la base de conocimiento.
La resolución de correferencias permite entender si varias palabras de un texto hacen referencia a la misma entidad. Puede ser útil, por ejemplo, para entender a qué palabra se refiere un pronombre. Considere el siguiente ejemplo:
París es la capital de Francia y también la ciudad más grande del país.
En este ejemplo, un algoritmo de resolución de correferencia identificaría que el pronombre It se refiere a París y no a Francia ni a otra entidad. Una distinción notable en comparación con la vinculación de entidades es que la resolución de correferencia no asigna ninguna identidad única a las palabras que encuentra, sino que simplemente dice si se refieren a la misma entidad o no. En ese sentido, las predicciones de un sistema de resolución de correferencia podrían ser útiles para un componente de vinculación de entidades posterior.
Aproches
La vinculación de entidades ha sido un tema candente en la industria y en el mundo académico durante la última década. Aún quedan muchos desafíos por resolver, pero se han propuesto muchos sistemas de vinculación de entidades, con fortalezas y debilidades muy diferentes. [25]
En términos generales, los sistemas modernos de vinculación de entidades se pueden dividir en dos categorías:
Enfoques basados en texto , que hacen uso de características textuales extraídas de grandes corpus de texto (por ejemplo, frecuencia de términos-frecuencia inversa de documentos (Tf-Idf), probabilidades de coocurrencia de palabras, etc.). [26] [17]
Enfoques basados en gráficos , que utilizan la estructura de los gráficos de conocimiento para representar el contexto y la relación de las entidades. [3] [27]
A menudo, los sistemas de vinculación de entidades utilizan tanto gráficos de conocimiento como características textuales extraídas, por ejemplo, de los corpus de texto utilizados para construir los propios gráficos de conocimiento. [22] [23]
Basado en texto
El trabajo seminal de Cucerzan en 2007 publicó uno de los primeros sistemas de enlace de entidades. En concreto, abordó la tarea de wikificación, es decir, vincular menciones textuales a páginas de Wikipedia. [26] Este sistema clasifica las páginas en páginas de entidad, de desambiguación o de lista. El conjunto de entidades presentes en cada página de entidad se utiliza para construir el contexto de la entidad. El paso final es una desambiguación colectiva mediante la comparación de vectores binarios de características elaboradas a mano con el contexto de cada entidad. El sistema de Cucerzan todavía se utiliza como base para trabajos recientes. [28]
Rao et al. [17] propusieron un algoritmo de dos pasos para vincular entidades nombradas con entidades en una base de conocimiento de destino. Primero, se eligen las entidades candidatas utilizando coincidencias de cadenas, acrónimos y alias conocidos. Luego, se elige el mejor vínculo entre los candidatos con una máquina de vectores de soporte de clasificación (SVM) que utiliza características lingüísticas.
Los sistemas recientes, como el de Tsai et al. [24], utilizan incrustaciones de palabras obtenidas con un modelo de skip-gram como características del lenguaje y se pueden aplicar a cualquier idioma para el que se disponga de un gran corpus para construir incrustaciones de palabras. Como la mayoría de los sistemas de vinculación de entidades, consta de dos pasos: una selección inicial de candidatos y una clasificación mediante SVM lineal.
Se han probado varios enfoques para abordar el problema de la ambigüedad de las entidades. El enfoque seminal de Milne y Witten utiliza el aprendizaje supervisado utilizando los textos de anclaje de las entidades de Wikipedia como datos de entrenamiento. [29] Otros enfoques también recopilaron datos de entrenamiento basados en sinónimos inequívocos. [30]
Basado en gráficos
Los sistemas de enlace de entidades modernos también utilizan grandes gráficos de conocimiento creados a partir de bases de conocimiento como Wikipedia, además de características textuales generadas a partir de documentos de entrada o corpus de texto. Además, el enlace de entidades multilingüe basado en el procesamiento del lenguaje natural (PLN) es difícil, porque requiere grandes corpus de texto, que no existen en muchos idiomas, o reglas gramaticales elaboradas a mano, que difieren ampliamente entre idiomas. El enlace de entidades basado en grafos utiliza características de la topología de grafos o conexiones de múltiples saltos entre entidades, que están ocultas al análisis de texto simple.
Han et al. proponen la creación de un gráfico de desambiguación (un subgráfico de la base de conocimiento que contiene entidades candidatas). [3] Este gráfico se utiliza para la clasificación colectiva para seleccionar la mejor entidad candidata para cada mención textual.
Otro enfoque famoso es AIDA, [31] que utiliza una serie de algoritmos gráficos complejos y un algoritmo voraz que identifica menciones coherentes en un subgráfico denso considerando también similitudes de contexto y características de importancia de vértice para realizar una desambiguación colectiva. [27]
Alhelbawy et al. presentaron un sistema de enlace de entidades que utiliza PageRank para realizar enlaces de entidades colectivas en un gráfico de desambiguación y para comprender qué entidades están más fuertemente relacionadas entre sí y, por lo tanto, representarían un mejor enlace. [21] Los algoritmos de clasificación de gráficos (o clasificación de vértices) como PageRank (PR) y Hyperlink-Induced Topic Search (HITS) tienen como objetivo puntuar los nodos según su importancia relativa en el gráfico.
Matemático
Las expresiones matemáticas (símbolos y fórmulas) pueden vincularse a entidades semánticas (por ejemplo, artículos de Wikipedia [32] o elementos de Wikidata [33] ) etiquetadas con su significado en lenguaje natural. Esto es esencial para la desambiguación, ya que los símbolos pueden tener diferentes significados (por ejemplo, "E" puede ser "energía" o "valor esperado", etc.). [34] [33] El proceso de vinculación de entidades matemáticas puede facilitarse y acelerarse mediante la recomendación de anotaciones, por ejemplo, utilizando el sistema "AnnoMathTeX" alojado por Wikimedia. [35] [36] [37]
Para facilitar la reproducibilidad de los experimentos de enlace de entidades matemáticas (MathEL), se creó el punto de referencia MathMLben. [38] [39] Contiene fórmulas de Wikipedia, arXiV y la Biblioteca digital de funciones matemáticas (DLMF) del NIST. Las entradas de fórmulas en el punto de referencia están etiquetadas y aumentadas mediante el marcado de Wikidata . [33] Además, para dos grandes corpus de los repositorios arXiv [40] y zbMATH [41] se examinaron distribuciones de notación matemática. Se identificaron objetos matemáticos de interés (MOI) como candidatos potenciales para MathEL. [42]
Además de vincular a Wikipedia, Schubotz [39] y Scharpf et al. [33] describen la vinculación de contenido de fórmulas matemáticas a Wikidata, tanto en MathML como en marcado LaTeX . Para ampliar las citas clásicas mediante el uso de lenguaje matemático, solicitan un desafío de Descubrimiento de conceptos de fórmulas (FCD) y Reconocimiento de conceptos de fórmulas (FCR) para elaborar MathEL automatizado. Su enfoque de FCD produce una recuperación del 68 % para recuperar representaciones equivalentes de fórmulas frecuentes y del 72 % para extraer el nombre de la fórmula del texto circundante en el conjunto de datos arXiv NTCIR [43] . [37]
Véase también
Scholia tiene un perfil de tema para Enlace de entidades .
^ Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (1 de enero de 2013). "Inteligencia artificial, Wikipedia y recursos semiestructurados: evaluación de enlaces de entidades con Wikipedia". Inteligencia artificial . 194 : 130–150. doi : 10.1016/j.artint.2012.04.005 .
^ abc MA Khalid, V. Jijkoun y M. de Rijke (2008). El impacto de la normalización de entidades nombradas en la recuperación de información para la respuesta a preguntas [ vínculo muerto permanente ] . Proc. ECIR.
^ abc Han, Xianpei; Sun, Le; Zhao, Jun (2011). "Enlaces de entidades colectivas en texto web". Actas de la 34.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . ACM. págs. 765–774. doi :10.1145/2009916.2010019. ISBN .9781450307574. Número de identificación del sujeto 14428938.
^ Rada Mihalcea y Andras Csomai (2007)Wikify! Vinculación de documentos con conocimiento enciclopédico. Proc. CIKM.
^ Shen W, Wang J, Han J. Vinculación de entidades con una base de conocimiento: problemas, técnicas y soluciones[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443-460.
^ Chang YC, Chu CH, Su YC, et al. PIPE: un módulo de extracción de pasajes de interacción proteína-proteína para el desafío BioCreative[J]. Base de datos, 2016, 2016.
^ Lou P, Jimeno Yepes A, Zhang Z, et al. BioNorm: normalización de eventos basada en aprendizaje profundo para la curación de bases de datos de reacciones[J]. Bioinformática, 2020, 36(2): 611-620.
^ Slawski, Bill (16 de septiembre de 2015). "Cómo utiliza Google la desambiguación de entidades con nombre para entidades con el mismo nombre".
^ Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). "Enlace de entidades para consultas mediante la búsqueda de oraciones de Wikipedia". Actas de la Conferencia de 2017 sobre métodos empíricos en el procesamiento del lenguaje natural . págs. 68–77. arXiv : 1704.02788 . doi :10.18653/v1/D17-1007. S2CID 1125678.
^ Le, Quoc; Mikolov, Tomas (2014). "Representaciones distribuidas de oraciones y documentos". Actas de la 31.ª Conferencia Internacional sobre Aprendizaje Automático . 32 : II–1188–II–1196. arXiv : 1405.4053 .
^ ab Hui Han, Hongyuan Zha, C. Lee Giles, "Desambiguación de nombres en citas de autores utilizando un método de agrupamiento espectral de K-way", Conferencia conjunta ACM/IEEE sobre bibliotecas digitales 2005 (JCDL 2005): 334-343, 2005
^ "STICS". Archivado desde el original el 1 de septiembre de 2021. Consultado el 16 de noviembre de 2015 .
^ Hoffart, Johannes; Milchevski, Dragan; Weikum, Gerhard (3 de julio de 2014). "STICS: Búsqueda con cadenas, objetos y gatos". Actas de la 37.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . SIGIR '14. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 1247–1248. doi :10.1145/2600428.2611177. ISBN978-1-4503-2257-7.
^ abcd Rao, Delip; McNamee, Paul; Dredze, Mark (2013). "Enlace de entidades: búsqueda de entidades extraídas en una base de conocimiento". Extracción y resumen de información multilingüe y de múltiples fuentes . Teoría y aplicaciones del procesamiento del lenguaje natural. Springer Berlin Heidelberg. págs. 93–115. doi :10.1007/978-3-642-28569-1_5. ISBN978-3-642-28568-4.S2CID6420241 .
^ Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B.; Santambrogio, Marco D. (2019). "Enlace rápido y preciso de entidades mediante incrustación de grafos". Actas del 2.º Taller internacional conjunto sobre experiencias y sistemas de gestión de datos de grafos (GRADES) y análisis de datos de red (NDA) . ACM. págs. 10:1–10:9. doi :10.1145/3327964.3328499. hdl : 11311/1119019 . ISBN .9781450367899.S2CID 195357229 .
^ Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). "Descubrimiento de entidades emergentes con nombres ambiguos". Actas de la 23.ª conferencia internacional sobre la World Wide Web . ACM. págs. 385–396. doi :10.1145/2566486.2568003. ISBN .9781450327442.S2CID 7562986 .
^ Doermann, David S.; Oard, Douglas W.; Lawrie, Dawn J.; Mayfield, James; McNamee, Paul (2011). "Enlace de entidades entre idiomas". S2CID 3801685.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Alhelbawy, Ayman; Gaizauskas, Robert (agosto de 2014). "Desambiguación de entidades nombradas colectivas mediante métodos de clasificación de grafos y partición de camarillas". Actas de COLING 2014, la 25.ª Conferencia internacional sobre lingüística computacional: Documentos técnicos (Universidad de la Ciudad de Dublín y Asociación de Lingüística Computacional): 1544–1555.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). "Desambiguación de entidades colectivas y robustas mediante incrustaciones semánticas". Actas de la 39.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (PDF) . ACM. págs. 425–434. doi :10.1145/2911451.2911535. ISBN .9781450340694. Número de identificación del sujeto 207237647.
^ ab Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). "Evaluación de enlaces de entidades con Wikipedia". Artif. Intell . 194 : 130–150. doi : 10.1016/j.artint.2012.04.005 . ISSN 0004-3702.
^ ab Tsai, Chen-Tse; Roth, Dan (2016). "Wikificación interlingüe mediante incrustaciones multilingües". Actas de la Conferencia de 2016 del Capítulo norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano . Vol. Actas de NAACL-HLT 2016. págs. doi :10.18653/v1/N16-1072. S2CID 15156124.
^ Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). "Descripción general del descubrimiento y vinculación de entidades trilingües TAC-KBP2015". TAC .
^ ab Cucerzan, Silviu (junio de 2007). "Desambiguación de entidades nombradas a gran escala basada en datos de Wikipedia". Actas de la Conferencia conjunta de 2007 sobre métodos empíricos en el procesamiento del lenguaje natural y el aprendizaje computacional del lenguaje natural (EMNLP-CoNLL) . Asociación de Lingüística Computacional. págs. 708–716.
^ ab Weikum, Gerhard; Thater, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). "Desambiguación robusta de entidades nombradas en texto". Actas de la Conferencia de 2011 sobre métodos empíricos en el procesamiento del lenguaje natural : 782–792.
^ Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Anotación colectiva de entidades de Wikipedia en texto web . Actas de la 15.ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (KDD). CiteSeerX 10.1.1.151.1904 . doi :10.1145/1557019.1557073. ISBN .9781605584959.
^ David Milne e Ian H. Witten (2008). Aprendiendo a vincular con Wikipedia. Proc. CIKM.
^ Zhang, Wei; Jian Su; Chew Lim Tan (2010). "Enlace de entidades aprovechando anotaciones generadas automáticamente". Actas de la 23.ª Conferencia internacional sobre lingüística computacional (Coling 2010) .
^ Yosef, Mohamed Amir; Hoffart, Johannes; Bordino, Ilaria; Spaniol, Marc; Weikum, Gerhard (2011). "AIDA: una herramienta en línea para la desambiguación precisa de entidades nombradas en texto y tablas". Actas de la 37.ª Conferencia internacional sobre bases de datos muy grandes . VLDB 2011: 1450–1453.
^ Giovanni Yoko Kristianto; Goran Topic; Akiko Aizawa; et al. (2016). "Enlace de entidades para expresiones matemáticas en documentos científicos". Bibliotecas digitales: conocimiento, información y datos en una sociedad de acceso abierto . Apuntes de clase en informática. Vol. 10075. Springer. págs. 144–149. doi :10.1007/978-3-319-49304-6_18. ISBN .978-3-319-49303-9.
^ abcd Philipp Scharpf; Moritz Schubotz; et al. (2018). Representación de fórmulas matemáticas en Content MathML usando Wikidata . Conferencia ACM SIGIR sobre investigación y desarrollo en recuperación de información (SIGIR 2018).
^ Moritz Schubotz; Philipp Scharpf; et al. (2018). "Introducción a MathQA: un sistema de respuesta a preguntas con reconocimiento matemático". Descubrimiento y entrega de información . 46 (4). Emerald Publishing Limited: 214–224. arXiv : 1907.01642 . doi :10.1108/IDD-06-2018-0022. S2CID 49484035.
^ "Sistema de recomendación de anotaciones de identificadores y fórmulas AnnoMathTeX".
^ Philipp Scharpf; Ian Mackerracher; et al. (17 de septiembre de 2019). " AnnoMathTeX : un sistema de recomendación de anotación de identificadores de fórmulas para documentos STEM". Actas de la 13.ª Conferencia de la ACM sobre sistemas de recomendación (PDF) . págs. 532–533. doi :10.1145/3298689.3347042. ISBN.9781450362436.S2CID202639987 .
^ por Philipp Scharpf; Moritz Schubotz; Bela Gipp (14 de abril de 2021). "Enlace rápido de entidades matemáticas de Wikidata en artículos de Wikipedia mediante la recomendación de anotaciones". Actas complementarias de la Web Conference 2021 (PDF) . págs. 602–609. arXiv : 2104.05111 . doi :10.1145/3442442.3452348. ISBN9781450383134. Número de identificación del sujeto 233210264.
^ "Fórmula de referencia de MathMLben".
^ por Moritz Schubotz; André Greiner-Petter; Philipp Scharpf; Norman Meuschke; Howard Cohl; Bela Gipp (2018). "Mejorar la representación y conversión de fórmulas matemáticas considerando su contexto textual". Actas de la 18.ª Conferencia conjunta ACM/IEEE sobre bibliotecas digitales (PDF) . Vol. 39. págs. 233–242. arXiv : 1804.04956 . doi :10.1145/3197026.3197058. ISBN.9781450351782. Número de modelo : PMID 34584342. Número de modelo: S2CID 4872257. {{cite book}}: |journal=ignorado ( ayuda )
^ "repositorio de preimpresiones de arXiv".
^ "Biblioteca de documentos matemáticos zbMath".
^ André Greiner-Petter; Moritz Schubotz; Fabian Mueller; Corinna Breitinger; Howard S. Cohl; Akiko Aizawa; Bela Gipp (2020). "Descubrimiento de objetos matemáticos de interés: un estudio de notaciones matemáticas". Actas de la Conferencia Web 2020 (PDF) . págs. 1445–1456. arXiv : 2002.02712 . doi :10.1145/3366423.3380218. ISBN9781450370233.S2CID211066554 .
^ Akiko Aizawa; Michael Kohlhase; Iadh Ounis; Moritz Schubotz. "Descripción general de la tarea NTCIR-11 Math-2". Actas de la 11.ª Conferencia NTCIR sobre evaluación de tecnologías de acceso a la información .