La desambiguación de nombres de autores es el proceso de desambiguación y vinculación de registros que se aplica a los nombres de personas individuales. El proceso podría, por ejemplo, distinguir a personas con el nombre "John Smith".
Un editor puede aplicar el proceso a documentos académicos cuyo objetivo es encontrar todas las menciones del mismo autor y agruparlas. Los autores de documentos académicos suelen compartir nombres, lo que dificulta distinguir el trabajo de cada autor. Por lo tanto, la desambiguación del nombre del autor tiene como objetivo encontrar todas las publicaciones que pertenecen a un autor determinado y distinguirlas de las publicaciones de otros autores que comparten el mismo nombre.
Métodos
Se han llevado a cabo considerables investigaciones sobre la desambiguación de nombres. [1] [2] [3] [4] [5] Los enfoques típicos para la desambiguación de nombres de autores se basan en información para distinguir entre autores, incluyendo (pero no limitado a) información sobre los autores como: su representación de nombre, afiliaciones y direcciones de correo electrónico, e información sobre la publicación: como año de publicación, coautores y el tema del artículo. Esta información se puede utilizar para entrenar a un clasificador de aprendizaje automático para decidir si dos menciones de autor se refieren al mismo autor o no. [6] Mucha investigación considera la desambiguación de nombres como un problema de agrupamiento , es decir, la partición de documentos en grupos, donde cada uno representa a un autor. [2] [7] [8] Otras investigaciones lo tratan como un problema de clasificación. [9] Algunos trabajos construyen un gráfico de documentos y utilizan la topología del gráfico para aprender la similitud de los documentos. [8] [10] Recientemente, varias piezas de investigación [10] [11] apuntan a aprender representaciones de documentos de baja dimensión empleando métodos de incrustación de red. [12] [13]
Aplicaciones
Existen múltiples razones que hacen que los nombres de los autores sean ambiguos, entre ellas: las personas pueden publicar con múltiples nombres por una variedad de razones, incluida una transliteración diferente, errores ortográficos, cambio de nombre debido al matrimonio o el uso de apodos o segundos nombres e iniciales. [14]
Las motivaciones para desambiguar a los individuos incluyen la identificación de inventores a partir de patentes e investigadores de diferentes editoriales, instituciones de investigación y períodos de tiempo. [15] La desambiguación de nombres también es una piedra angular en los sistemas de búsqueda y minería académica centrados en el autor, como AMiner (anteriormente ArnetMiner). [16]
Problemas similares
La desambiguación de los nombres de los autores es solo uno de los problemas de vinculación de registros en el ámbito de los datos académicos. Otros problemas estrechamente relacionados y potencialmente beneficiosos para ambas partes incluyen: la desambiguación de la organización (afiliación), [17] así como la desambiguación de la sede de la conferencia o publicación, ya que los editores de datos a menudo usan nombres o alias diferentes para estas entidades.
Recursos
Scholia tiene un perfil para la desambiguación de autor (Q25052136).
A continuación se enumeran varios puntos de referencia conocidos para evaluar la desambiguación de nombres de autores, cada uno de los cuales proporciona publicaciones con algunos nombres ambiguos y sus verdades fundamentales.
Conjunto de datos de desambiguación de nombres de AMiner
Conjunto de datos de desambiguación de nombres de CiteSeerX
Conjunto de datos de desambiguación de nombres de autores de Semantic Scholar (S2AND) [18]
Códigos fuente
Barba
Desambiguación de nombres en AMiner [10]
Referencias
^ De Bonis, Michele; Manghi, Paolo; Falchi, Fabrizio (2023). "Métodos basados en gráficos para la desambiguación de nombres de autores: una encuesta". PeerJ Computer Science . 9 : e1536. doi : 10.7717/peerj-cs.1536 . PMC 10557506 . PMID 37810360.
^ ab Khabsa, Madian; Treeratpituk, Pucktada; Giles, C. Lee (2015). Actas de la 15.ª Conferencia conjunta ACM/IEEE-CE sobre bibliotecas digitales - JCDL '15 . págs. 37–46. doi :10.1145/2756406.2756915. ISBN9781450335942. Número de identificación del sujeto 14068285.
^ Mann, Gideon S.; Yarowsky, David (2003). "Desambiguación de nombres personales sin supervisión". Actas de la séptima conferencia sobre aprendizaje de lenguajes naturales en HLT-NAACL 2003 - . Vol. 4. págs. 33–40. doi :10.3115/1119176.1119181. S2CID 29759924.
^ Han, Hui; Giles, Lee; Zha, Hongyuan; Li, Cheng; Tsioutsiouliklis, Kostas (2004). "Dos enfoques de aprendizaje supervisado para la desambiguación de nombres en las citas de autores". Actas de la conferencia conjunta ACM/IEEE de 2004 sobre bibliotecas digitales - JCDL '04 . p. 296. doi :10.1145/996350.996419. ISBN1581138326.S2CID 1089260 .
^ Huang, Jian; Ertekin, Seyda; Giles, C. Lee (2006). Descubrimiento de conocimiento en bases de datos: PKDD 2006. Apuntes de clase en informática. Vol. 4213. págs. 536–544. doi :10.1007/11871637_53. ISBN978-3-540-45374-1. ISSN 0302-9743. S2CID 14132755.
^ Treeratpituk, Pucktada; Giles, C. Lee (2009). Desambiguación de autores en publicaciones académicas mediante bosques aleatorios (PDF) . Actas de la 9.ª Conferencia conjunta ACM/IEEE-CS sobre bibliotecas digitales. ACM . pp. 39–48. CiteSeerX 10.1.1.147.3500 . doi :10.1145/1555400.1555408.
^ Jie Tang; ACM Fong; Bo Wang; Jing Zhang (2012). "Un marco probabilístico unificado para la desambiguación de nombres en bibliotecas digitales". IEEE Transactions on Knowledge and Data Engineering . 24 (6). IEEE: 975–987. doi :10.1109/TKDE.2011.13. S2CID 1032074.
^ ab Xuezhi Wang; Jie Tang; Hong Cheng; Philip S. Yu (2011). ADANA: Desambiguación de nombres activos . Actas de la Conferencia internacional IEEE de 2011 sobre minería de datos . Vancouver: IEEE. págs. 794–803. doi :10.1109/ICDM.2011.19. ISBN.978-1-4577-2075-8.
^ Zeyd Boukhers; Nagaraj Bahubali Asundi (2022). "Whois? Desambiguación profunda de nombres de autores mediante datos bibliográficos". Vinculación de la teoría y la práctica de las bibliotecas digitales . Apuntes de clase en informática. Vol. 13541. Padua: Springer. págs. 201–215. arXiv : 2207.04772 . doi :10.1007/978-3-031-16802-4_16. ISBN978-3-031-16801-7.
^ abc Yutao Zhang; Fanjin Zhang; Peiran Yao; Jie Tang (2018). Desambiguación de nombres en AMiner: agrupamiento, mantenimiento y participación humana. Actas de la 24.ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos . Londres: ACM. págs. 1002–1011.
^ Baichuan Zhang; Mohammad Al Hasan (2017). Desambiguación de nombres en gráficos anónimos mediante la integración de redes. Actas de la Conferencia sobre Gestión de la Información y el Conocimiento de la ACM de 2017. Singapur: ACM. págs. 1239–1248.
^ Bryan Perozzi; Rami Al-Rfou; Steven Skiena (2014). Deepwalk: aprendizaje en línea de representaciones sociales. Actas de la 20.ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . Nueva York: ACM. págs. 701–710.
^ Jiezhong Qiu; Yuxiao Dong; Hao Ma; Jian Li; Kuansan Wang; Jie Tang (2018). Integración de redes como factorización de matrices: unificación de DeepWalk, LINE, PTE y node2vec. Actas de la undécima conferencia internacional de la ACM sobre búsqueda web y minería de datos . Marina Del Rey: ACM. págs. 459–467.
^ Morrison, Greg; Riccaboni, Massimo; Pammolli, Fabio (16 de mayo de 2017). "Desambiguación de inventores y cesionarios de patentes mediante datos de geolocalización de alta resolución". Scientific Data . 4 : 170064. Bibcode :2017NatSD...470064M. doi :10.1038/sdata.2017.64. PMC 5433392 . PMID 28509897.
^ Jie Tang; Jing Zhang; Limin Yao; Juanzi Li; Li Zhang; Zhong Su (2008). ArnetMiner: extracción y minería de redes sociales académicas. Actas de la 14.ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . Nueva York: ACM. págs. 990–998.
^ Zhang, Ziqi; Nuzzolese, Andrea; Gentile, Anna Lisa (2017). Deduplicación de entidades en ScholarlyData . Actas de la Conferencia de Web Semántica Extendida. Springer-Verlag . págs. 85–100. doi :10.1007/978-3-319-58068-5_6.
^ Subramanian, Shivashankar; King, Daniel; Downey, Doug; Feldman, Sergey (21 de marzo de 2021). "S2AND: un sistema de evaluación y referencia para la desambiguación de nombres de autores". arXiv : 2103.07534 [cs.DL].