Incrustación de palabras

En el procesamiento del lenguaje natural (PNL), la incrustación de una palabra es una representación de una palabra. La incrustación se utiliza en el análisis de texto. Normalmente, la representación es un vector de valor real que codifica el significado de la palabra de tal manera que se espera que las palabras que están más cerca en el espacio vectorial tengan un significado similar. ^[1] Las incrustaciones de palabras se pueden obtener utilizando el modelado del lenguaje y técnicas de aprendizaje de características , donde las palabras o frases del vocabulario se asignan a vectores de números reales .

Los métodos para generar este mapeo incluyen redes neuronales , ^[2] reducción de dimensionalidad en la matriz de coocurrencia de palabras , ^[3]^[4]^[5] modelos probabilísticos, ^[6] método de base de conocimiento explicable, ^[7] y representación explícita en términos del contexto en el que aparecen las palabras. ^[8]

Se ha demostrado que las incrustaciones de palabras y frases, cuando se utilizan como representación de entrada subyacente, mejoran el rendimiento en tareas de PNL como el análisis sintáctico ^[9] y el análisis de sentimientos . ^[10]

Desarrollo e historia del enfoque.

En semántica distribucional , durante algún tiempo se ha utilizado como representación del conocimiento un enfoque metodológico cuantitativo para comprender el significado en el lenguaje observado, incrustaciones de palabras o modelos de espacio de características semánticas. ^[11] Dichos modelos tienen como objetivo cuantificar y categorizar similitudes semánticas entre elementos lingüísticos en función de sus propiedades distributivas en grandes muestras de datos lingüísticos. La idea subyacente de que "una palabra se caracteriza por las compañías que mantiene" fue propuesta en un artículo de 1957 por John Rupert Firth , ^[12] pero también tiene raíces en el trabajo contemporáneo sobre sistemas de búsqueda ^[13] y en la psicología cognitiva. ^[14]

La noción de un espacio semántico con elementos léxicos (palabras o términos de varias palabras) representados como vectores o incrustaciones se basa en los desafíos computacionales de capturar características de distribución y usarlas en aplicaciones prácticas para medir la similitud entre palabras, frases o documentos completos. La primera generación de modelos de espacio semántico es el modelo de espacio vectorial para la recuperación de información. ^[15]^[16]^[17] Estos modelos de espacio vectorial para palabras y sus datos de distribución implementados en su forma más simple dan como resultado un espacio vectorial muy escaso de alta dimensionalidad (cf. maldición de la dimensionalidad ). La reducción del número de dimensiones utilizando métodos algebraicos lineales, como la descomposición de valores singulares , condujo a la introducción del análisis semántico latente a finales de la década de 1980 y al enfoque de indexación aleatoria para recopilar contextos de coocurrencia de palabras. ^[18]^[19]^[20]^[21] En 2000, Bengio et al. proporcionado en una serie de artículos titulados "Modelos de lenguaje probabilístico neuronal" para reducir la alta dimensionalidad de las representaciones de palabras en contextos "aprendiendo una representación distribuida de las palabras". ^[22]^[23]^[24]

Un estudio publicado en NeurIPS (NIPS) 2002 introdujo el uso de incrustaciones de palabras y documentos aplicando el método de kernel CCA a corpus bilingües (y multilingües), proporcionando también un ejemplo temprano de aprendizaje autosupervisado de incrustaciones de palabras ^[25]

Las incrustaciones de palabras vienen en dos estilos diferentes, uno en el que las palabras se expresan como vectores de palabras concurrentes y otro en el que las palabras se expresan como vectores de contextos lingüísticos en los que aparecen las palabras; Estos diferentes estilos se estudian en Lavelli et al., 2004. ^[26] Roweis y Saul publicaron en Science cómo utilizar la " incrustación localmente lineal " (LLE) para descubrir representaciones de estructuras de datos de alta dimensión. ^[27] La mayoría de las nuevas técnicas de incrustación de palabras después de 2005 se basan en una arquitectura de red neuronal en lugar de modelos más probabilísticos y algebraicos, después del trabajo fundamental realizado por Yoshua Bengio y sus colegas. ^[28]^[29]

El enfoque ha sido adoptado por muchos grupos de investigación después de que se lograron avances teóricos en 2010 sobre la calidad de los vectores y la velocidad de entrenamiento del modelo, así como después de que los avances en el hardware permitieron explorar de manera rentable un espacio de parámetros más amplio. En 2013, un equipo de Google dirigido por Tomas Mikolov creó word2vec , un conjunto de herramientas de incrustación de palabras que puede entrenar modelos de espacio vectorial más rápido que los enfoques anteriores. El enfoque word2vec se ha utilizado ampliamente en la experimentación y fue fundamental para aumentar el interés por las incrustaciones de palabras como tecnología, trasladando la línea de investigación de la investigación especializada a una experimentación más amplia y, finalmente, allanando el camino para la aplicación práctica. ^[30]

Polisemia y homonimia

Históricamente, una de las principales limitaciones de las incrustaciones estáticas de palabras o de los modelos de espacio vectorial de palabras es que las palabras con múltiples significados se combinan en una única representación (un único vector en el espacio semántico). En otras palabras, la polisemia y la homonimia no se manejan adecuadamente. Por ejemplo, en la oración "¡El palo que probé ayer estaba genial!", no está claro si el término palo está relacionado con el sentido de la palabra club sándwich , casa club , palo de golf o cualquier otro sentido que ese palo pueda tener. La necesidad de acomodar múltiples significados por palabra en diferentes vectores (incrustaciones de múltiples sentidos) es la motivación de varias contribuciones en PNL para dividir las incrustaciones de un solo sentido en otras de múltiples sentidos. ^[31]^[32]

La mayoría de los enfoques que producen incrustaciones de múltiples sentidos se pueden dividir en dos categorías principales para su representación del sentido de las palabras, es decir, no supervisadas y basadas en el conocimiento. ^[33] Basado en word2vec skip-gram, Multi-Sense Skip-Gram (MSSG) ^[34] realiza la discriminación e incrustación del sentido de las palabras simultáneamente, mejorando su tiempo de entrenamiento, mientras asume un número específico de sentidos para cada palabra. En el Skip-Gram multisentido no paramétrico (NP-MSSG) este número puede variar dependiendo de cada palabra. Combinando el conocimiento previo de bases de datos léxicas (p. ej., WordNet , ConceptNet , BabelNet ), incrustaciones de palabras y desambiguación del sentido de las palabras , la anotación de sentido más adecuada (MSSA) ^[35] etiqueta los sentidos de las palabras a través de un enfoque no supervisado y basado en el conocimiento, considerando el significado de una palabra. contexto en una ventana deslizante predefinida. Una vez que se elimina la ambigüedad de las palabras, se pueden utilizar en una técnica de incrustación de palabras estándar, de modo que se producen incrustaciones de múltiples sentidos. La arquitectura MSSA permite que el proceso de desambiguación y anotación se realice de forma recurrente y de forma automejorada. ^[36]

Se sabe que el uso de incrustaciones multisentido mejora el rendimiento en varias tareas de PNL, como el etiquetado de partes del discurso , la identificación de relaciones semánticas, la relación semántica , el reconocimiento de entidades nombradas y el análisis de sentimientos. ^[37]^[38]

A finales de la década de 2010, se desarrollaron incorporaciones contextualmente significativas como ELMo y BERT . ^[39] A diferencia de las incrustaciones de palabras estáticas, estas incrustaciones se realizan a nivel de token, en el sentido de que cada aparición de una palabra tiene su propia incrustación. Estas incrustaciones reflejan mejor la naturaleza multisentido de las palabras, porque las apariciones de una palabra en contextos similares están situadas en regiones similares del espacio de incrustación de BERT. ^[40]^[41]

Para secuencias biológicas: BioVectors

Asgari y Mofrad han propuesto incrustaciones de palabras para n- gramas en secuencias biológicas (por ejemplo, ADN, ARN y proteínas) para aplicaciones bioinformáticas . ^[42] Biovectores denominados (BioVec) para referirse a secuencias biológicas en general con vectores de proteínas (ProtVec) para proteínas (secuencias de aminoácidos) y vectores de genes (GeneVec) para secuencias de genes, esta representación puede usarse ampliamente en Aplicaciones del aprendizaje profundo en proteómica y genómica . Los resultados presentados por Asgari y Mofrad ^[42] sugieren que BioVectors puede caracterizar secuencias biológicas en términos de interpretaciones bioquímicas y biofísicas de los patrones subyacentes.

Diseño de juego

^{Rabii y Cook [43]} propusieron incrustaciones de palabras con aplicaciones en el diseño de juegos como una forma de descubrir juegos emergentes utilizando registros de datos de juego. El proceso requiere transcribir las acciones que suceden durante el juego dentro de un lenguaje formal y luego usar el texto resultante para crear incrustaciones de palabras. Los resultados presentados por Rabii y Cook ^[43] sugieren que los vectores resultantes pueden capturar conocimiento experto sobre juegos como el ajedrez , que no están establecidos explícitamente en las reglas del juego.

Incrustaciones de oraciones

La idea se ha extendido a la incrustación de frases enteras o incluso documentos, por ejemplo en forma del concepto de vectores de pensamiento . En 2015, algunos investigadores sugirieron "vectores de omisión de pensamiento" como un medio para mejorar la calidad de la traducción automática . ^{[44] Un enfoque más reciente y popular para representar oraciones es Sentence-BERT, o SentenceTransformers, que modifica}BERT previamente entrenado con el uso de estructuras de red siamesas y tripletes. ^[45]

Software

El software para entrenar y usar incrustaciones de palabras incluye Word2vec de Tomáš Mikolov , GloVe de la Universidad de Stanford , ^[46] GN-GloVe, ^[47] incrustaciones Flair, ^[37]ELMo de AllenNLP , ^[48]BERT , ^[49]fastText , Gensim , ^{[ 50]} Indra, ^[51] y Deeplearning4j . El análisis de componentes principales (PCA) y la incrustación de vecinos estocásticos distribuidos en T (t-SNE) se utilizan para reducir la dimensionalidad de los espacios vectoriales de palabras y visualizar incrustaciones y grupos de palabras . ^[52]

Ejemplos de aplicación

Por ejemplo, fastText también se utiliza para calcular incrustaciones de palabras para corpus de texto en Sketch Engine que están disponibles en línea. ^[53]

Implicaciones éticas

Las incrustaciones de palabras pueden contener los sesgos y estereotipos contenidos en el conjunto de datos entrenado, como Bolukbasi et al. señala en el artículo de 2016 “¿El hombre es un programador de computadoras como la mujer es una ama de casa? Debiasing Word Embeddings” que una incrustación de word2vec disponible públicamente (y popular) entrenada en textos de Google News (un corpus de datos de uso común), que consiste en texto escrito por periodistas profesionales, todavía muestra asociaciones de palabras desproporcionadas que reflejan prejuicios raciales y de género al extraer analogías de palabras. . ^[54] Por ejemplo, una de las analogías generadas utilizando la palabra incrustación antes mencionada es "el hombre es para el programador de computadoras lo que la mujer es para el ama de casa". ^[55] ^[56]

La investigación realizada por Jieyu Zhou et al. muestra que las aplicaciones de estas incrustaciones de palabras entrenadas sin una supervisión cuidadosa probablemente perpetúen el sesgo existente en la sociedad, que se introduce a través de datos de entrenamiento inalterados. Además, las incrustaciones de palabras pueden incluso amplificar estos sesgos. ^[57]^[58]

Ver también

Referencias

^ Jurafsky, Daniel; H. James, Martín (2000). Procesamiento del habla y el lenguaje: una introducción al procesamiento del lenguaje natural, la lingüística computacional y el reconocimiento del habla. Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 978-0-13-095069-7.
^ Mikolov, Tomás; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Decano, Jeffrey (2013). "Representaciones distribuidas de palabras y frases y su composicionalidad". arXiv : 1310.4546 [cs.CL].
^ Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings a través de Hellinger PCA". Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL) . vol. 2014. arXiv : 1312.5542 .
^ Levy, Omer; Goldberg, Yoav (2014). Incrustación de palabras neuronales como factorización matricial implícita (PDF) . NIPS.
^ Li, Yitán; Xu, Linli (2015). Revisión de la incrustación de palabras: una nueva perspectiva de aprendizaje de representaciones y factorización de matrices explícitas (PDF) . Conf. Internacional J. sobre Inteligencia Artificial (IJCAI).
^ Globerson, Amir (2007). "Incrustación euclidiana de datos de coocurrencia" (PDF) . Revista de investigación sobre aprendizaje automático .
^ Qureshi, M. Atif; Greene, Derek (4 de junio de 2018). "EVE: técnica de incrustación basada en vectores explicable utilizando Wikipedia". Revista de sistemas de información inteligentes . 53 : 137-165. arXiv : 1702.06891 . doi :10.1007/s10844-018-0511-x. ISSN 0925-9902. S2CID 10656055.
^ Levy, Omer; Goldberg, Yoav (2014). Regularidades lingüísticas en representaciones de palabras escasas y explícitas (PDF) . CONLL. págs. 171–180.
^ Socher, Richard; Bauer, Juan; Manning, Cristóbal; Ng, Andrés (2013). Análisis con gramáticas vectoriales compositivas (PDF) . Proc. Conferencia ACL. Archivado desde el original (PDF) el 11 de agosto de 2016 . Consultado el 14 de agosto de 2014 .
^ Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrés; Potts, Chris (2013). Modelos profundos recursivos para la composicionalidad semántica sobre un banco de árboles de sentimientos (PDF) . EMNLP.
^ Sahlgren, Magnus. "Una breve historia de las incrustaciones de palabras".
^ Firth, JR (1957). "Una sinopsis de la teoría lingüística 1930-1955". Estudios de análisis lingüístico : 1–32.Reimpreso en FR Palmer, ed. (1968). Artículos seleccionados de JR Firth 1952-1959 . Londres: Longman.
^ Luhn, HP (1953). "Un nuevo método de registro y búsqueda de información". Documentación americana . 4 : 14-16. doi :10.1002/asi.5090040104.
^ Osgood, CE; Suci, GJ; Tannenbaum, PH (1957). La medida del significado . Prensa de la Universidad de Illinois.
^ Salton, Gerard (1962). "Algunos experimentos en la generación de asociaciones de palabras y documentos". Actas de la conferencia informática conjunta de otoño del 4 al 6 de diciembre de 1962 sobre AFIPS '62 (otoño) . págs. 234-250. doi : 10.1145/1461518.1461544 . ISBN 9781450378796. S2CID 9937095.
^ Salton, Gerard; Wang, A; Yang, CS (1975). "Un modelo de espacio vectorial para indexación automática". Comunicaciones de la ACM . 18 (11): 613–620. doi :10.1145/361219.361220. hdl : 1813/6057 . S2CID 6473756.
^ Dubin, David (2004). "El artículo más influyente que Gerard Salton nunca escribió". Archivado desde el original el 18 de octubre de 2020 . Consultado el 18 de octubre de 2020 .
^ Kanerva, Pentti, Kristoferson, Jan y Holst, Anders (2000): Indexación aleatoria de muestras de texto para análisis semántico latente, Actas de la 22ª Conferencia Anual de la Sociedad de Ciencias Cognitivas, p. 1036. Mahwah, Nueva Jersey: Erlbaum, 2000.
^ Karlgren, Jussi; Sahlgren, Magnus (2001). Uesaka, Yoshinori; Kanerva, Pentti; Asoh, Hideki (eds.). "De las palabras al entendimiento". Fundamentos de la inteligencia del mundo real . Publicaciones CSLI: 294–308.
^ Sahlgren, Magnus (2005) Introducción a la indexación aleatoria, actas del taller de métodos y aplicaciones de indexación semántica en la séptima conferencia internacional sobre terminología e ingeniería del conocimiento, TKE 2005, 16 de agosto, Copenhague, Dinamarca
^ Sahlgren, Magnus, Holst, Anders y Pentti Kanerva (2008) Permutaciones como medio para codificar el orden en el espacio de palabras, en actas de la 30ª Conferencia Anual de la Sociedad de Ciencias Cognitivas: 1300-1305.
^ Bengio, Yoshua; Réjean, Ducharme; Pascal, Vicente (2000). "Un modelo de lenguaje probabilístico neuronal" (PDF) . NeurIPS .
^ Bengio, Yoshua ; Ducharme, Réjean; Vicente, Pascal; Jauvín, Christian (2003). "Un modelo de lenguaje probabilístico neuronal" (PDF) . Revista de investigación sobre aprendizaje automático . 3 : 1137-1155.
^ Bengio, Yoshua; Schwenk, Holger; Senécal, Jean-Sébastien; Morin, Federico; Gauvain, Jean-Luc (2006). "Un modelo de lenguaje probabilístico neuronal". Estudios en Borrosidad y Computación Blanda . vol. 194. Saltador. págs. 137–186. doi :10.1007/3-540-33486-6_6. ISBN 978-3-540-30609-2.
^ Vinkourov, Alexei; Cristianini, Nello; Shawe-Taylor, John (2002). Inferir una representación semántica de texto mediante análisis de correlación entre idiomas (PDF) . Avances en los sistemas de procesamiento de información neuronal. vol. 15.
^ Lavelli, Alberto; Sebastiani, Fabricio; Zanoli, Roberto (2004). Representaciones de términos distributivos: una comparación experimental . XIII Congreso Internacional ACM sobre Gestión de la Información y el Conocimiento. págs. 615–624. doi :10.1145/1031171.1031284.
^ Roweis, Sam T.; Saúl, Lawrence K. (2000). "Reducción de dimensionalidad no lineal mediante incrustación localmente lineal". Ciencia . 290 (5500): 2323–6. Código Bib : 2000 Ciencia... 290.2323R. CiteSeerX 10.1.1.111.3313 . doi : 10.1126/ciencia.290.5500.2323. PMID 11125150. S2CID 5987139.
^ Morin, Federico; Bengio, Yoshua (2005). "Modelo de lenguaje de red neuronal probabilística jerárquica" (PDF) . En Cowell, Robert G.; Ghahramani, Zoubin (eds.). Actas del Décimo Taller Internacional sobre Inteligencia Artificial y Estadística . Actas de investigación sobre aprendizaje automático. vol. R5. págs. 246-252.
^ Mnih, Andriy; Hinton, Geoffrey (2009). "Un modelo de lenguaje distribuido jerárquico escalable". Avances en los sistemas de procesamiento de información neuronal . 21 (NIPS 2008). Curran Associates, Inc.: 1081–1088.
^ "palabra2vec". Archivo de códigos de Google . Consultado el 23 de julio de 2021 .
^ Reisinger, José; Mooney, Raymond J. (2010). Modelos espaciales vectoriales multiprototipos de significado de palabras. vol. Tecnologías del lenguaje humano: Conferencia anual de 2010 del capítulo norteamericano de la Asociación de Lingüística Computacional. Los Ángeles, California: Asociación de Lingüística Computacional. págs. 109-117. ISBN 978-1-932432-65-7. Consultado el 25 de octubre de 2019 .
^ Huang, Eric. (2012). Mejorar las representaciones de palabras a través del contexto global y múltiples prototipos de palabras . OCLC 857900050.
^ Camacho-Collados, José; Pilehvar, Mohammad Taher (2018). "De la palabra a las incrustaciones de sentido: una encuesta sobre representaciones vectoriales de significado". arXiv : 1805.04032 [cs.CL].
^ Neelakantan, Arvind; Shankar, Jeevan; Passos, Alejandro; McCallum, Andrés (2014). "Estimación no paramétrica eficiente de múltiples incrustaciones por palabra en el espacio vectorial". Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional. págs. 1059-1069. arXiv : 1504.06654 . doi :10.3115/v1/d14-1113. S2CID 15251438.
^ Ruas, Terry; Grosky, William; Aizawa, Akiko (1 de diciembre de 2019). "Incrustaciones de múltiples sentidos a través de un proceso de desambiguación del sentido de las palabras". Sistemas Expertos con Aplicaciones . 136 : 288–303. arXiv : 2101.08700 . doi :10.1016/j.eswa.2019.06.026. hdl : 2027.42/145475 . ISSN 0957-4174. S2CID 52225306.
^ De acuerdo, Gennady; Petrov, Daniel; Keskinova, Simona (1 de marzo de 2019). "Word Sense Disambiguation Studio: un sistema flexible para la extracción de funciones WSD". Información . 10 (3): 97. doi : 10.3390/info10030097 . ISSN 2078-2489.
^ ab Akbik, Alan; Blythe, Duncan; Vollgraf, Roland (2018). "Incrustaciones de cadenas contextuales para etiquetado de secuencias". Actas de la 27ª Conferencia Internacional sobre Lingüística Computacional . Santa Fe, Nuevo México, EE.UU.: Asociación de Lingüística Computacional: 1638–1649.
^ Li, Jiwei; Jurafsky, Dan (2015). "¿Las incrustaciones multisentido mejoran la comprensión del lenguaje natural?". Actas de la Conferencia de 2015 sobre métodos empíricos en el procesamiento del lenguaje natural . Stroudsburg, PA, EE.UU.: Asociación de Lingüística Computacional. págs. 1722-1732. arXiv : 1506.01070 . doi :10.18653/v1/d15-1200. S2CID 6222768.
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (junio de 2019). "Actas de la Conferencia del Norte de 2019". Actas de la Conferencia de 2019 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Volumen 1 (artículos largos y cortos) . Asociación de Lingüística Computacional: 4171–4186. doi :10.18653/v1/N19-1423. S2CID 52967399.
^ Lucy, Li y David Bamman. "Caracterización de la variación del inglés en las comunidades de redes sociales con BERT". Transacciones de la Asociación de Lingüística Computacional 9 (2021): 538-556.
^ Reif, Emily, Ann Yuan, Martin Wattenberg, Fernanda B. Viegas, Andy Coenen, Adam Pearce y Been Kim. "Visualización y medición de la geometría de BERT". Avances en sistemas de procesamiento de información neuronal 32 (2019).
^ ab Asgari, Ehsaneddin; Mofrad, Mohammad RK (2015). "Representación distribuida continua de secuencias biológicas para genómica y proteómica profunda". MÁS UNO . 10 (11): e0141287. arXiv : 1503.05140 . Código Bib : 2015PLoSO..1041287A. doi : 10.1371/journal.pone.0141287 . PMC 4640716 . PMID 26555596.
^ ab Rabii, Younès; Cocinero, Michael (4 de octubre de 2021). "Revelar la dinámica del juego mediante incrustaciones de palabras de datos del juego". Actas de la Conferencia AAAI sobre inteligencia artificial y entretenimiento digital interactivo . 17 (1): 187–194. doi : 10.1609/aiide.v17i1.18907 . ISSN 2334-0924. S2CID 248175634.
^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard S.; Torralba, Antonio; Urtasún, Raquel; Fidler, Sanja (2015). "vectores de omisión de pensamiento". arXiv : 1506.06726 [cs.CL].
^ Reimers, Nils e Iryna Gurevych. "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". En Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la Novena Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (EMNLP-IJCNLP), págs. 2019.
^ "Guante".
^ Zhao, Jieyu; et al. (2018) (2018). "Aprendizaje de incrustaciones de palabras neutrales al género". arXiv : 1809.01496 [cs.CL].
^ "Elmo".
^ Pires, Telmo; Schlinger, Eva; Garrette, Dan (4 de junio de 2019). "¿Qué tan multilingüe es BERT multilingüe?". arXiv : 1906.01502 [cs.CL].
^ "Gensim".
^ "Indra". GitHub . 2018-10-25.
^ Gasemi, Mohammad; Marcos, Roger; Nemati, Shamim (2015). "Una visualización de la evolución del sentimiento clínico utilizando representaciones vectoriales de notas clínicas" (PDF) . 2015 Congreso de Computación en Cardiología (CinC) . vol. 2015. págs. 629–632. doi :10.1109/CIC.2015.7410989. ISBN 978-1-5090-0685-4. PMC 5070922 . PMID 27774487. {{cite book}}: |journal=ignorado ( ayuda )
^ "Visor de incrustaciones". Visor de incrustaciones . Computación léxica. Archivado desde el original el 8 de febrero de 2018 . Consultado el 7 de febrero de 2018 .
^ Bolukbasi, Tolga; Chang, Kai-Wei; Zou, James; Saligrama, Venkatesh; Kalai, Adán (2016). "¿El hombre es para el programador de computadoras lo que la mujer es para el ama de casa? Desestimular las incrustaciones de palabras". arXiv : 1607.06520 [cs.CL].
^ Bolukbasi, Tolga; Chang, Kai-Wei; Zou, James; Saligrama, Venkatesh; Kalai, Adán (21 de julio de 2016). "¿El hombre es para el programador de computadoras lo que la mujer es para el ama de casa? Desestimular las incrustaciones de palabras". arXiv : 1607.06520 [cs.CL].
^ Dieng, Adji B.; Ruiz, Francisco JR; Blei, David M. (2020). "Modelado de temas en espacios integrados". Transacciones de la Asociación de Lingüística Computacional . 8 : 439–453. arXiv : 1907.04907 . doi :10.1162/tacl_a_00325.
^ Zhao, Jieyu; Wang, Tianlu; Yatskar, Mark; Ordóñez, Vicente; Chang, Kai-Wei (2017). "A los hombres también les gusta ir de compras: reducir la amplificación del sesgo de género mediante restricciones a nivel de corpus". Actas de la Conferencia de 2017 sobre métodos empíricos en el procesamiento del lenguaje natural . págs. 2979–2989. doi :10.18653/v1/D17-1323.
^ Petreski, Davor; Hashim, Ibrahim C. (26 de mayo de 2022). "Las incrustaciones de palabras están sesgadas. Pero ¿qué sesgo reflejan?". IA y sociedad . 38 (2): 975–982. doi : 10.1007/s00146-022-01443-w . ISSN 1435-5655. S2CID 249112516.