stringtranslate.com

Desambiguación del nombre del autor

El nombre del autor " Li Li " podría referirse a varias personas, incluidas las siete enumeradas aquí.

La desambiguación del nombre del autor es un tipo de desambiguación y vinculación de registros que se aplica a los nombres de personas individuales. El proceso podría, por ejemplo, distinguir individuos con el nombre " John Smith ".

Un editor puede aplicar el proceso a documentos académicos donde el objetivo es encontrar todas las menciones del mismo autor y agruparlas. Los autores de documentos académicos suelen compartir nombres, lo que dificulta distinguir el trabajo de cada autor. Por lo tanto, la desambiguación del nombre del autor tiene como objetivo encontrar todas las publicaciones que pertenecen a un autor determinado y distinguirlas de las publicaciones de otros autores que comparten el mismo nombre.

Métodos

Se han realizado muchas investigaciones sobre la desambiguación de nombres. [1] [2] [3] [4] Los enfoques típicos para la desambiguación del nombre de los autores se basan en información para distinguir entre autores, incluida (pero no limitada a) información sobre los autores, como: la representación de su nombre, afiliaciones y direcciones de correo electrónico, y Información sobre la publicación: como año de publicación, coautores y tema del artículo. Esta información se puede utilizar para entrenar a un clasificador de aprendizaje automático para que decida si dos menciones de autor se refieren al mismo autor o no. [5] Muchas investigaciones consideran la desambiguación de nombres como un problema de agrupación , es decir, dividir documentos en grupos, donde cada uno representa a un autor. [1] [6] [7] Otras investigaciones lo tratan como un problema de clasificación. [8] Algunos trabajos construyen un gráfico de documento y utilizan la topología del gráfico para conocer la similitud de los documentos. [7] [9] Recientemente, varias investigaciones [9] [10] tienen como objetivo aprender representaciones de documentos de baja dimensión mediante el empleo de métodos de incrustación de red. [11] [12]

Aplicaciones

Algunas de las formas en que se ha indicado la autoría para una misma persona

Hay múltiples razones que hacen que los nombres de los autores sean ambiguos, entre las cuales: las personas pueden publicar con varios nombres por una variedad de razones que incluyen diferentes transliteraciones, errores ortográficos, cambios de nombre debido a matrimonio o el uso de apodos o segundos nombres e iniciales. [13]

Las motivaciones para eliminar la ambigüedad de las personas incluyen identificar inventores a partir de patentes e investigadores de diferentes editoriales, instituciones de investigación y períodos de tiempo. [14] La desambiguación de nombres también es una piedra angular en los sistemas de minería y búsqueda académica centrados en el autor, como AMiner (anteriormente ArnetMiner). [15]

Problemas similares

La desambiguación del nombre del autor es sólo un problema de vinculación de registros en el dominio de los datos académicos. Los problemas estrechamente relacionados y potencialmente mutuamente beneficiosos incluyen: la desambiguación de la organización (afiliación), [16] así como la desambiguación del lugar de la conferencia o publicación, ya que los editores de datos a menudo utilizan diferentes nombres o alias para estas entidades.

Recursos

A continuación se enumeran varios puntos de referencia conocidos para evaluar la desambiguación de los nombres de los autores, cada uno de los cuales proporciona a las publicaciones algunos nombres ambiguos y sus verdades fundamentales.

Códigos fuente

Referencias

  1. ^ ab Khabsa, Madian; Treeratpituk, Pucktada; Giles, C. Lee (2015). Actas de la 15ª ACM/IEEE-CE sobre la Conferencia Conjunta sobre Bibliotecas Digitales - JCDL '15 . págs. 37–46. doi :10.1145/2756406.2756915. ISBN 9781450335942. S2CID  14068285.
  2. ^ Mann, Gideon S.; Yarowsky, David (2003). "Desambiguación de nombres personales sin supervisión". Actas de la séptima conferencia sobre aprendizaje de lenguajes naturales en HLT-NAACL 2003 - . vol. 4. págs. 33–40. doi :10.3115/1119176.1119181. S2CID  29759924.
  3. ^ Han, Hui; Giles, Lee; Zha, Hongyuan; Li, Cheng; Tsioutsiouliklis, Kostas (2004). "Dos enfoques de aprendizaje supervisado para la desambiguación de nombres en citas de autores". Actas de la conferencia conjunta ACM/IEEE de 2004 sobre bibliotecas digitales - JCDL '04 . pag. 296. doi : 10.1145/996350.996419. ISBN 1581138326. S2CID  1089260.
  4. ^ Huang, Jian; Ertekin, Seyda; Giles, C. Lee (2006). Descubrimiento de conocimientos en bases de datos: PKDD 2006 . Apuntes de conferencias sobre informática. vol. 4213, págs. 536–544. doi :10.1007/11871637_53. ISBN 978-3-540-45374-1. ISSN  0302-9743. S2CID  14132755.
  5. ^ Treeratpituk, Pucktada; Giles, C. Lee (2009). Autores desambiguantes en publicaciones académicas utilizando bosques aleatorios (PDF) . Actas de la novena conferencia conjunta ACM/IEEE-CS sobre bibliotecas digitales. ACM . págs. 39–48. CiteSeerX 10.1.1.147.3500 . doi :10.1145/1555400.1555408. 
  6. ^ Jie Tang; ACM Fong; Bo Wang; Jing Zhang (2012). "Un marco probabilístico unificado para la desambiguación de nombres en bibliotecas digitales". Transacciones IEEE sobre conocimiento e ingeniería de datos . 24 (6). IEEE: 975–987. doi :10.1109/TKDE.2011.13. S2CID  1032074.
  7. ^ ab Xuezhi Wang; Jie Tang; Hong Cheng; Philip S. Yu (2011). ADANA: Desambiguación de nombres activos . Actas de la Conferencia Internacional IEEE 2011 sobre Minería de Datos . Vancouver: IEEE. págs. 794–803. doi :10.1109/ICDM.2011.19. ISBN 978-1-4577-2075-8.
  8. ^ Zeyd Boukhers; Nagaraj Bahubali Asundi (2022). "¿Whois? Desambiguación profunda del nombre del autor mediante datos bibliográficos". Vinculando teoría y práctica de las bibliotecas digitales . Apuntes de conferencias sobre informática. vol. 13541. Padua: Springer. págs. 201–215. arXiv : 2207.04772 . doi :10.1007/978-3-031-16802-4_16. ISBN 978-3-031-16801-7.
  9. ^ abc Yutao Zhang; Fanjin Zhang; Peiran Yao; Jie Tang (2018). Desambiguación de nombres en AMiner: agrupación, mantenimiento y humanos en el bucle. Actas de la 24ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . Londres: ACM. págs. 1002-1011.
  10. ^ Baichuan Zhang; Mohammad Al Hasan (2017). Desambiguación de nombres en gráficos anónimos mediante incrustación de red. Actas de la ACM de 2017 sobre la Conferencia sobre Gestión de la Información y el Conocimiento . Singapur: ACM. págs. 1239-1248.
  11. ^ Bryan Perozzi; Rami Al-Rfou; Steven Skiena (2014). Deepwalk: Aprendizaje online de representaciones sociales. Actas de la vigésima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos . Nueva York: ACM. págs. 701–710.
  12. ^ Jiezhong Qiu; Yuxiao Dong; Hao Ma; Jian Li; Kuansan Wang; Jie Tang (2018). Incrustación de red como factorización matricial: unificación de DeepWalk, LINE, PTE y node2vec. Actas de la Undécima Conferencia Internacional ACM sobre Búsqueda Web y Minería de Datos . Marina Del Rey: ACM. págs. 459–467.
  13. ^ Smalheiser, Neil R.; Torvik, Vetle I. (2009). "Desambiguación del nombre del autor". Revisión anual de ciencia y tecnología de la información . 43 : 1–43. doi :10.1002/aris.2009.1440430113.
  14. ^ Morrison, Greg; Riccaboni, Massimo; Pammolli, Fabio (16 de mayo de 2017). "Desambiguación de inventores y cesionarios de patentes utilizando datos de geolocalización de alta resolución". Datos científicos . 4 : 170064. Código Bib : 2017NatSD...470064M. doi :10.1038/sdata.2017.64. PMC 5433392 . PMID  28509897. 
  15. ^ Jie Tang; Jing Zhang; Limin Yao; Juanzi Li; Li Zhang; Zhong Su (2008). ArnetMiner: extracción y minado de redes sociales académicas. Actas de la 14ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . Nueva York: ACM. págs. 990–998.
  16. ^ Zhang, Ziqi; Nuzzolese, Andrea; Gentil, Anna Lisa (2017). Deduplicación de entidades en ScholarlyData . Actas de la Conferencia sobre Web Semántica Extendida. Springer-Verlag . págs. 85-100. doi :10.1007/978-3-319-58068-5_6.
  17. ^ Subramaniano, Shivashankar; Rey, Daniel; Downey, Doug; Feldman, Sergey (21 de marzo de 2021). "S2AND: un sistema de evaluación y referencia para la desambiguación del nombre del autor". arXiv : 2103.07534 [cs.DL].