Modelo de lenguaje

Un modelo de lenguaje es un modelo probabilístico de un lenguaje natural. ^[1] En 1980, se propuso el primer modelo estadístico significativo del lenguaje, y durante la década IBM realizó experimentos " al estilo Shannon ", en los que se identificaron fuentes potenciales para mejorar el modelado del lenguaje mediante la observación y el análisis del desempeño de sujetos humanos al predecir o corregir textos. ^[2]

Los modelos de lenguaje son útiles para una variedad de tareas, incluyendo el reconocimiento de voz ^[3] (ayudando a prevenir predicciones de secuencias de baja probabilidad (por ejemplo, sin sentido)), traducción automática , ^[4] generación de lenguaje natural (generando texto más parecido al humano), reconocimiento óptico de caracteres , reconocimiento de escritura a mano , ^[5] inducción gramatical , ^[6] y recuperación de información . ^[7]^[8]

Los modelos de lenguaje de gran tamaño , actualmente su forma más avanzada, son una combinación de conjuntos de datos más grandes (que frecuentemente utilizan palabras extraídas de Internet), redes neuronales de propagación hacia adelante y transformadores . Han reemplazado a los modelos basados en redes neuronales recurrentes , que anteriormente habían reemplazado a los modelos estadísticos puros, como el modelo de lenguaje de n -gramas de palabras .

Modelos estadísticos puros

Modelos basados en palabrasnorte-gramos

Un modelo de lenguaje de n -gramas de palabras es un modelo puramente estadístico del lenguaje. Ha sido reemplazado por modelos basados en redes neuronales recurrentes , que han sido reemplazados por modelos de lenguaje grandes . ^[9] Se basa en el supuesto de que la probabilidad de la siguiente palabra en una secuencia depende solo de una ventana de tamaño fijo de palabras anteriores. Si solo se consideró una palabra anterior, se llamó modelo de bigrama; si dos palabras, un modelo de trigrama; si n − 1 palabras, un modelo de n -gramas. ^[10] Se introdujeron tokens especiales para denotar el inicio y el final de una oración y . $\langle s\rangle$ $\langle /s\rangle$

Para evitar que se asigne una probabilidad cero a las palabras no vistas, la probabilidad de cada palabra es ligeramente inferior a su recuento de frecuencia en un corpus. Para calcularla, se utilizaron varios métodos, desde el simple suavizado de "suma de uno" (asignar un recuento de 1 a los n -gramas no vistos, como una prior no informativa ) hasta modelos más sofisticados, como el descuento de Good-Turing o los modelos de retroceso .

Exponencial

Los modelos de lenguaje de máxima entropía codifican la relación entre una palabra y el historial de n -gramas mediante funciones de características. La ecuación es

$P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))$

donde es la función de partición , es el vector de parámetros y es la función característica. En el caso más simple, la función característica es solo un indicador de la presencia de un determinado n -grama. Es útil utilizar una a priori o alguna forma de regularización. $Z(w_{1},\ldots ,w_{m-1})$ $a$ $f(w_{1},\ldots ,w_{m})$ $a$

El modelo log-bilineal es otro ejemplo de un modelo de lenguaje exponencial.

Modelo de salto de gramo

El modelo de lenguaje de gramas salteados es un intento de superar el problema de escasez de datos que enfrentaba el modelo anterior (es decir, el modelo de lenguaje de n -gramas de palabras). Las palabras representadas en un vector de incrustación ya no eran necesariamente consecutivas, sino que podían dejar espacios que se saltaban . ^[11]

Formalmente, un $k$ -skip- $n$ -grama es una subsecuencia de longitud $n$ donde los componentes ocurren a una distancia como máximo $k$ entre sí.

Por ejemplo, en el texto de entrada:

La lluvia en España cae principalmente en la llanura.

El conjunto de 1-salto-2-gramos incluye todos los bigramas (2-gramos) y, además, las subsecuencias

en , lluvia España , en cae , España principalmente , cae en , principalmente en , y en llano .

En el modelo de skip-gram, las relaciones semánticas entre palabras se representan mediante combinaciones lineales , lo que captura una forma de composicionalidad . Por ejemplo, en algunos de estos modelos, si $v$ es la función que asigna una palabra $w$ a su representación vectorial $n$ -d, entonces

$v(\mathrm {king} )-v(\mathrm {male} )+v(\mathrm {female} )\approx v(\mathrm {queen} )$

donde ≈ se hace preciso al estipular que su lado derecho debe ser el vecino más cercano del valor del lado izquierdo. ^[12]^[13]

Modelos neuronales

Red neuronal recurrente

Las representaciones o incrustaciones continuas de palabras se producen en modelos de lenguaje basados en redes neuronales recurrentes (conocidos también como modelos de lenguaje de espacio continuo ). ^[14] Estas incrustaciones de espacio continuo ayudan a aliviar la maldición de la dimensionalidad , que es la consecuencia del aumento exponencial del número de secuencias posibles de palabras con el tamaño del vocabulario, lo que provoca además un problema de escasez de datos. Las redes neuronales evitan este problema al representar las palabras como combinaciones no lineales de pesos en una red neuronal. ^[15]

Modelos de lenguaje de gran tamaño

Un modelo de lenguaje grande (LLM) es un modelo computacional capaz de generar lenguaje u otras tareas de procesamiento del lenguaje natural . Como modelos de lenguaje, los LLM adquieren estas capacidades al aprender relaciones estadísticas a partir de grandes cantidades de texto durante un proceso de entrenamiento autosupervisado y semisupervisado . ^[16]

Los LLM más grandes y capaces, a partir de agosto de 2024 , son redes neuronales artificiales construidas con una arquitectura basada en transformadores solo decodificadores , que permite un procesamiento y generación eficientes de datos de texto a gran escala. Los modelos modernos se pueden ajustar para tareas específicas o pueden guiarse por ingeniería rápida . ^[17] Estos modelos adquieren poder predictivo con respecto a la sintaxis, la semántica y las ontologías ^[18] inherentes a los corpus del lenguaje humano, pero también heredan imprecisiones y sesgos presentes en los datos con los que se entrenan. ^[19]

Aunque a veces se asemejan al desempeño humano, no está claro si son modelos cognitivos plausibles . Al menos en el caso de las redes neuronales recurrentes, se ha demostrado que a veces aprenden patrones que los humanos no aprenden, pero no logran aprender patrones que los humanos suelen aprender. ^[20]

Evaluación y puntos de referencia

La evaluación de la calidad de los modelos lingüísticos se realiza principalmente mediante la comparación con muestras de referencia creadas por humanos a partir de tareas típicas orientadas al lenguaje. Otras pruebas de calidad, menos establecidas, examinan el carácter intrínseco de un modelo lingüístico o comparan dos de esos modelos. Dado que los modelos lingüísticos suelen estar pensados para ser dinámicos y aprender de los datos que ven, algunos modelos propuestos investigan la tasa de aprendizaje, por ejemplo, mediante la inspección de las curvas de aprendizaje. ^[21]

Se han desarrollado varios conjuntos de datos para su uso en la evaluación de sistemas de procesamiento del lenguaje. ^[22] Estos incluyen:

Corpus de aceptabilidad lingüística ^[23]
Punto de referencia GLUE ^[24]
Corpus de paráfrasis de Microsoft Research ^[25]
Inferencia de lenguaje natural multigénero
Pregunta Inferencia de lenguaje natural
Pares de preguntas de Quora ^[26]
Reconocimiento de la implicación textual ^[27]
Punto de referencia de similitud textual semántica
Prueba de preguntas y respuestas de SQuAD ^[28]
Banco de sentimientos de Stanford ^[29]
Instituto Nacional de Literatura Winograd
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Comprensión masiva del lenguaje multitarea) , BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. ^[30] (Punto de referencia LLaMa)

Véase también

Referencias

^ Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing (3.ª ed.). Archivado desde el original el 22 de mayo de 2022. Consultado el 24 de mayo de 2022 .
^ Rosenfeld, Ronald (2000). "Dos décadas de modelado estadístico del lenguaje: ¿hacia dónde nos dirigimos a partir de ahora?". Actas del IEEE . 88 (8): 1270–1278. doi :10.1109/5.880083. S2CID 10959945.
^ Kuhn, Roland y Renato De Mori (1990). "Un modelo de lenguaje natural basado en caché para el reconocimiento de voz". Transacciones IEEE sobre análisis de patrones e inteligencia artificial 12.6: 570–583.
^ Andreas, Jacob, Andreas Vlachos y Stephen Clark (2013). "Análisis semántico como traducción automática" Archivado el 15 de agosto de 2020 en Wayback Machine . Actas de la 51.ª reunión anual de la Asociación de Lingüística Computacional (volumen 2: artículos breves).
^ Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwritingognition" Archivado el 11 de noviembre de 2020 en Wayback Machine . 14.ª Conferencia Internacional sobre Fronteras en el Reconocimiento de Escritura a Mano. IEEE.
^ Htut, Phu Mon, Kyunghyun Cho y Samuel R. Bowman (2018). "Inducción gramatical con modelos neuronales del lenguaje: una réplica inusual" Archivado el 14 de agosto de 2022 en Wayback Machine . arXiv :1808.10000.
^ Ponte, Jay M.; Croft, W. Bruce (1998). Un enfoque de modelado del lenguaje para la recuperación de información . Actas de la 21.ª Conferencia SIGIR de la ACM. Melbourne, Australia: ACM. págs. 275–281. doi :10.1145/290941.291008.
^ Hiemstra, Djoerd (1998). Un modelo probabilístico de recuperación de información motivado lingüísticamente . Actas de la 2.ª Conferencia Europea sobre Investigación y Tecnología Avanzada para Bibliotecas Digitales. LNCS, Springer. págs. 569–584. doi :10.1007/3-540-49653-X_34.
^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (1 de marzo de 2003). "Un modelo de lenguaje probabilístico neuronal". The Journal of Machine Learning Research . 3 : 1137–1155 – vía ACM Digital Library.
^ Jurafsky, Dan; Martin, James H. (7 de enero de 2023). "N-gram Language Models". Speech and Language Processing (PDF) (3.ª edición, borrador) . Consultado el 24 de mayo de 2022 .
^ David Guthrie; et al. (2006). "Una mirada más cercana al modelado de saltos de gramo" (PDF) . Archivado desde el original (PDF) el 17 de mayo de 2017. Consultado el 27 de abril de 2014 .
^ Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Estimación eficiente de representaciones de palabras en el espacio vectorial". arXiv : 1301.3781 [cs.CL].
^ Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado irst4=Greg S.; Dean, Jeff (2013). Representaciones distribuidas de palabras y frases y su composicionalidad (PDF) . Avances en sistemas de procesamiento de información neuronal . págs. 3111–3119. Archivado (PDF) desde el original el 29 de octubre de 2020 . Consultado el 22 de junio de 2015 .{{cite conference}}: CS1 maint: numeric names: authors list (link)
^ Karpathy, Andrej. «La eficacia irrazonable de las redes neuronales recurrentes». Archivado desde el original el 1 de noviembre de 2020. Consultado el 27 de enero de 2019 .
^ Bengio, Yoshua (2008). «Neural net language models» (Modelos de lenguaje de redes neuronales). Scholarpedia . Vol. 3. pág. 3881. Código Bibliográfico :2008SchpJ...3.3881B. doi : 10.4249/scholarpedia.3881 . Archivado desde el original el 26 de octubre de 2020 . Consultado el 28 de agosto de 2015 .
^ "Mejores modelos de lenguaje y sus implicaciones". OpenAI . 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020 . Consultado el 25 de agosto de 2019 .
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (diciembre de 2020). Lin, H. (eds.). "Los modelos de lenguaje son aprendices de pocos intentos" (PDF) . Avances en sistemas de procesamiento de información neuronal . 33. Curran Associates, Inc.: 1877–1901. Archivado (PDF) desde el original el 17 de noviembre de 2023. Consultado el 14 de marzo de 2023 .
^ Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (26 de mayo de 2024). NeOn-GPT: una gran cadena de procesos basada en modelos de lenguaje para el aprendizaje de ontologías (PDF) . Conferencia de Web Semántica Extendida 2024. Hersonissos, Grecia.
^ Manning, Christopher D. (2022). «Comprensión y razonamiento del lenguaje humano». Daedalus . 151 (2): 127–138. doi : 10.1162/daed_a_01905 . S2CID 248377870. Archivado desde el original el 17 de noviembre de 2023 . Consultado el 9 de marzo de 2023 .
^ Hornstein, Norbert; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (9 de enero de 2018). Estructuras sintácticas después de 60 años: el impacto de la revolución chomskiana en la lingüística. Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5Archivado del original el 16 de abril de 2023 . Consultado el 11 de diciembre de 2021 .
^ Karlgren, Jussi; Schutze, Hinrich (2015), "Evaluación de representaciones lingüísticas en el aprendizaje", Conferencia internacional del Foro de evaluación interlingüística , Notas de clase en informática, Springer International Publishing, págs. 254-260, doi :10.1007/978-3-319-64206-2_8, ISBN 9783319642055
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (10 de octubre de 2018). "BERT: preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805 [cs.CL].
^ "El corpus de aceptabilidad lingüística (CoLA)". nyu-mll.github.io . Archivado desde el original el 7 de diciembre de 2020 . Consultado el 25 de febrero de 2019 .
^ "GLUE Benchmark". gluebenchmark.com . Archivado desde el original el 4 de noviembre de 2020. Consultado el 25 de febrero de 2019 .
^ "Microsoft Research Paraphrase Corpus". Centro de descargas de Microsoft . Archivado desde el original el 25 de octubre de 2020. Consultado el 25 de febrero de 2019 .
^ Aghaebrahimian, Ahmad (2017), "Conjunto de datos de preguntas y respuestas de Quora", Texto, habla y diálogo , Lecture Notes in Computer Science, vol. 10415, Springer International Publishing, págs. 66–73, doi :10.1007/978-3-319-64206-2_8, ISBN 9783319642055
^ Sammons, VG Vinod Vydiswaran, Dan Roth, Mark; Vydiswaran, VG; Roth, Dan. "Recognizing Textual Entailment" (PDF) . Archivado desde el original (PDF) el 9 de agosto de 2017 . Consultado el 24 de febrero de 2019 .{{cite web}}: CS1 maint: multiple names: authors list (link)
^ "El conjunto de datos de preguntas y respuestas de Stanford". rajpurkar.github.io . Archivado desde el original el 30 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
^ "Modelos profundos recursivos para la composición semántica sobre un árbol de sentimientos". nlp.stanford.edu . Archivado desde el original el 27 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
^ Hendrycks, Dan (14 de marzo de 2023), Medición de la comprensión del lenguaje en multitarea masiva, archivado desde el original el 15 de marzo de 2023 , consultado el 15 de marzo de 2023

Lectura adicional

JM Ponte; WB Croft (1998). "Un enfoque de modelado del lenguaje para la recuperación de información". Investigación y desarrollo en recuperación de información . págs. 275–281. CiteSeerX 10.1.1.117.4237 .
F Song; WB Croft (1999). "Un modelo general de lenguaje para la recuperación de información". Investigación y desarrollo en recuperación de información . págs. 279–280. CiteSeerX 10.1.1.21.6467 .
Chen, Stanley; Joshua Goodman (1998). Un estudio empírico de técnicas de suavizado para el modelado del lenguaje (informe técnico). Universidad de Harvard. CiteSeerX 10.1.1.131.5458 .