modelo de lenguaje

Un modelo de lenguaje es un modelo probabilístico de un lenguaje natural. ^[1] En 1980, se propuso el primer modelo de lenguaje estadístico significativo, y durante la década IBM realizó experimentos ' estilo Shannon ', en los que se identificaron fuentes potenciales para mejorar el modelado del lenguaje mediante la observación y el análisis del desempeño de sujetos humanos en la predicción o corrigiendo texto. ^[2]

Los modelos de lenguaje son útiles para una variedad de tareas, incluido el reconocimiento de voz ^[3] (que ayuda a prevenir predicciones de secuencias de baja probabilidad (por ejemplo, sin sentido), traducción automática , ^[4] generación de lenguaje natural (generando texto más parecido al humano), óptico reconocimiento de caracteres , reconocimiento de escritura a mano , ^[5] inducción gramatical , ^[6] y recuperación de información . ^[7]^[8]

Los modelos de lenguaje grande , actualmente su forma más avanzada, son una combinación de conjuntos de datos más grandes (que frecuentemente utilizan palabras extraídas de la Internet pública), redes neuronales de avance y transformadores . Han reemplazado a los modelos recurrentes basados en redes neuronales , que anteriormente habían reemplazado a los modelos estadísticos puros, como el modelo de lenguaje de palabras y n -gramas .

Modelos estadísticos puros

Modelos basados en palabras.norte-gramos

Un modelo de lenguaje de n -gramas de palabras es un modelo de lenguaje puramente estadístico. Ha sido reemplazado por modelos basados en redes neuronales recurrentes , que han sido reemplazados por modelos de lenguaje grandes . ^[9] Se basa en la suposición de que la probabilidad de la siguiente palabra en una secuencia depende sólo de una ventana de tamaño fijo de palabras anteriores. Si sólo se consideraba una palabra anterior, se denominaba modelo de bigrama; si son dos palabras, un modelo de trigrama; si n − 1 palabras, un modelo de n -gramas. ^[10] Se introdujeron fichas especiales para indicar el inicio y el final de una oración y . $\langle s\rangle$ $\langle /s\rangle$

Para evitar que se asigne una probabilidad cero a palabras no vistas, la probabilidad de cada palabra es ligeramente menor que su recuento de frecuencia en un corpus. Para calcularlo, se utilizaron varios métodos, desde el simple suavizado "añadir uno" (asignar una cuenta de 1 a n -gramas invisibles, como un previo no informativo ) hasta modelos más sofisticados, como los modelos de descuento o retroceso de Good-Turing. .

Exponencial

Los modelos de lenguaje de máxima entropía codifican la relación entre una palabra y el historial de n -gramas mediante funciones de características. La ecuación es

$P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1} )}}\exp(a^{T}f(w_{1},\ldots,w_{m}))$

donde está la función de partición , es el vector de parámetros y es la función de característica. En el caso más simple, la función característica es solo un indicador de la presencia de un determinado n -grama. Es útil utilizar una previa o alguna forma de regularización. $Z(w_{1},\ldots,w_{m-1})$ $a$ $f(w_{1},\ldots,w_{m})$ $a$

El modelo logbilineal es otro ejemplo de modelo de lenguaje exponencial.

Modelo de salto de gramo

El modelo de lenguaje Skip-gram es un intento de superar el problema de escasez de datos que enfrentó el modelo anterior (es decir, el modelo de lenguaje Word n -gram). Las palabras representadas en un vector de incrustación ya no eran necesariamente consecutivas, pero podían dejar espacios que se omitían . ^[11]

Formalmente, un $k$ -skip- $n$ -gram es una subsecuencia de longitud $n$ donde los componentes ocurren a una distancia máxima $k$ entre sí.

Por ejemplo, en el texto de entrada:

La lluvia en España cae principalmente en la llanura.

el conjunto de 1-saltar-2-gramos incluye todos los bigramas (2 gramos), y además las subsecuencias

en , lluvia España , en caídas , España principalmente , cae en , principalmente en , y en llano .

En el modelo skip-gram, las relaciones semánticas entre palabras se representan mediante combinaciones lineales , capturando una forma de composicionalidad . Por ejemplo, en algunos de estos modelos, si $v$ es la función que asigna una palabra $w$ a su representación vectorial $n -d, entonces$

$v(\mathrm {rey} )-v(\mathrm {masculino} )+v(\mathrm {femenino} )\approx v(\mathrm {reina} )$

donde ≈ se precisa estipulando que su lado derecho debe ser el vecino más cercano del valor del lado izquierdo. ^[12]^[13]

Modelos neuronales

Red neuronal recurrente

Las representaciones continuas o incrustaciones de palabras se producen en modelos de lenguaje basados en redes neuronales recurrentes (conocidos también como modelos de lenguaje espacial continuo ). ^[14] Estas incrustaciones de espacio continuo ayudan a aliviar la maldición de la dimensionalidad , que es la consecuencia de que el número de secuencias posibles de palabras aumenta exponencialmente con el tamaño del vocabulario, lo que provoca además un problema de escasez de datos. Las redes neuronales evitan este problema representando palabras como combinaciones no lineales de pesos en una red neuronal. ^[15]

Grandes modelos de lenguaje

Un modelo de lenguaje grande (LLM) es un modelo computacional que se destaca por su capacidad para lograr la generación de lenguaje de propósito general y otras tareas de procesamiento del lenguaje natural, como la clasificación . Basados en modelos de lenguaje, los LLM adquieren estas habilidades aprendiendo relaciones estadísticas de grandes cantidades de texto durante un proceso de capacitación autosupervisado y semisupervisado computacionalmente intensivo . ^[16] Los LLM se pueden utilizar para la generación de texto, una forma de IA generativa , tomando un texto de entrada y prediciendo repetidamente el siguiente token o palabra. ^[17]

Los LLM son redes neuronales artificiales que utilizan la arquitectura transformadora , inventada en 2017. Los LLM más grandes y capaces, a partir de junio de 2024 ^[update], están construidos con una arquitectura basada en transformador solo decodificador, que permite el procesamiento y la generación eficiente de texto a gran escala. datos.

Históricamente, hasta 2020, el ajuste fino era el método principal utilizado para adaptar un modelo a tareas específicas. Sin embargo, modelos más grandes como GPT-3 han demostrado la capacidad de lograr resultados similares mediante ingeniería de indicaciones , que implica la elaboración de indicaciones de entrada específicas para guiar las respuestas del modelo. ^[18] Estos modelos adquieren conocimientos sobre sintaxis, semántica y ontologías ^[19] inherentes a los corpus del lenguaje humano, pero también heredan imprecisiones y sesgos presentes en los datos en los que se entrenan. ^[20]

Algunos LLM notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3.5 , GPT-4 y GPT-4o ; utilizados en ChatGPT y Microsoft Copilot ), Gemini de Google (el último de los cuales se utiliza actualmente en el chatbot de del mismo nombre ), la familia de modelos LLaMA de Meta , los modelos Claude de Anthropic y los modelos Mistral AI .

Aunque en ocasiones coinciden con el desempeño humano, no está claro si son modelos cognitivos plausibles . Al menos en el caso de las redes neuronales recurrentes, se ha demostrado que a veces aprenden patrones que los humanos no aprenden, pero no aprenden patrones que los humanos suelen aprender. ^[21]

Evaluación y puntos de referencia

La evaluación de la calidad de los modelos de lenguaje se realiza principalmente en comparación con puntos de referencia de muestra creados por humanos a partir de tareas típicas orientadas al lenguaje. Otras pruebas de calidad, menos establecidas, examinan el carácter intrínseco de un modelo de lenguaje o comparan dos de esos modelos. Dado que los modelos de lenguaje suelen pretender ser dinámicos y aprender de los datos que ven, algunos modelos propuestos investigan la tasa de aprendizaje, por ejemplo, mediante la inspección de las curvas de aprendizaje. ^[22]

Se han desarrollado varios conjuntos de datos para su uso en la evaluación de sistemas de procesamiento del lenguaje. ^[23] Estos incluyen:

Corpus de aceptabilidad lingüística ^[24]
Punto de referencia de PEGAMENTO ^[25]
Corpus de paráfrasis de investigación de Microsoft ^[26]
Inferencia de lenguaje natural multigénero
Cuestionar la inferencia del lenguaje natural
Pares de preguntas de Quora ^[27]
Reconocer la vinculación textual ^[28]
Punto de referencia de similitud textual semántica
Prueba de respuesta a preguntas SQuaD ^[29]
Banco de árboles de sentimiento de Stanford ^[30]
Winograd NLI
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Comprensión masiva del lenguaje multitarea) , BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. ^[31] (Punto de referencia LLaMa)

Ver también

Referencias

^ Jurafsky, Dan; Martín, James H. (2021). "Modelos de lenguaje N-gram". Procesamiento del habla y el lenguaje (3ª ed.). Archivado desde el original el 22 de mayo de 2022 . Consultado el 24 de mayo de 2022 .
^ Rosenfeld, Ronald (2000). "Dos décadas de modelado de lenguaje estadístico: ¿hacia dónde vamos a partir de ahora?". Actas del IEEE . 88 (8): 1270–1278. doi : 10.1109/5.880083. S2CID 10959945.
^ Kuhn, Roland y Renato De Mori (1990). "Un modelo de lenguaje natural basado en caché para el reconocimiento de voz". Transacciones IEEE sobre análisis de patrones e inteligencia artificial 12.6: 570–583.
^ Andreas, Jacob, Andreas Vlachos y Stephen Clark (2013). "Análisis semántico como traducción automática" Archivado el 15 de agosto de 2020 en Wayback Machine . Actas de la 51ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 2: Artículos breves).
^ Pham, Vu y otros (2014). "El abandono mejora las redes neuronales recurrentes para el reconocimiento de escritura a mano" Archivado el 11 de noviembre de 2020 en Wayback Machine . XIV Congreso Internacional sobre Fronteras en el Reconocimiento de Escritura a Mano. IEEE.
^ Htut, Phu Mon, Kyunghyun Cho y Samuel R. Bowman (2018). "Inducción gramatical con modelos de lenguaje neuronal: una replicación inusual" Archivado el 14 de agosto de 2022 en Wayback Machine . arXiv : 1808.10000.
^ Ponte, Jay M.; Croft, W. Bruce (1998). "Un enfoque de modelado de lenguaje para la recuperación de información" . Actas de la 21ª Conferencia ACM SIGIR. Melbourne, Australia: ACM. págs. 275–281. doi :10.1145/290941.291008.
^ Hiemstra, Djoerd (1998). "Un modelo probabilístico de recuperación de información motivado lingüísticamente" . Actas de la segunda conferencia europea sobre investigación y tecnología avanzada para bibliotecas digitales. LNCS, Springer. págs. 569–584. doi :10.1007/3-540-49653-X_34.
^ Bengio, Yoshua; Ducharme, Réjean; Vicente, Pascal; Janvin, Christian (1 de marzo de 2003). "Un modelo de lenguaje probabilístico neuronal". La revista de investigación sobre aprendizaje automático . 3 : 1137–1155 - vía Biblioteca digital ACM.
^ Jurafsky, Dan; Martín, James H. (7 de enero de 2023). "Modelos de lenguaje N-gram". Procesamiento del habla y el lenguaje (PDF) (borrador de la tercera edición) . Consultado el 24 de mayo de 2022 .
^ David Guthrie; et al. (2006). "Una mirada más cercana al modelado de salto de gramo" (PDF) . Archivado desde el original (PDF) el 17 de mayo de 2017 . Consultado el 27 de abril de 2014 .
^ Mikolov, Tomás; Chen, Kai; Corrado, Greg; Decano, Jeffrey (2013). "Estimación eficiente de representaciones de palabras en el espacio vectorial". arXiv : 1301.3781 [cs.CL].
^ Mikolov, Tomás; Sutskever, Ilya; Chen, Kai; Corrado primero4=Greg S.; Decano, Jeff (2013). Representaciones distribuidas de palabras y frases y su composicionalidad (PDF) . Avances en los sistemas de procesamiento de información neuronal . págs. 3111–3119. Archivado (PDF) desde el original el 29 de octubre de 2020 . Consultado el 22 de junio de 2015 .{{cite conference}}: CS1 maint: numeric names: authors list (link)
^ Karpatía, Andrej. "La eficacia irrazonable de las redes neuronales recurrentes". Archivado desde el original el 1 de noviembre de 2020 . Consultado el 27 de enero de 2019 .
^ Bengio, Yoshua (2008). "Modelos de lenguaje de redes neuronales". Scholarpedia . vol. 3. pág. 3881. Código bibliográfico : 2008SchpJ...3.3881B. doi : 10.4249/scholarpedia.3881 . Archivado desde el original el 26 de octubre de 2020 . Consultado el 28 de agosto de 2015 .
^ "Mejores modelos de lenguaje y sus implicaciones". AbiertoAI . 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020 . Consultado el 25 de agosto de 2019 .
^ Bowman, Samuel R. (2023). "Ocho cosas que hay que saber sobre los modelos de lenguajes grandes". arXiv : 2304.00612 [cs.CL].
^ Marrón, Tom B.; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Satry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Niño, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Invierno, Clemens; Hesse, Cristóbal; Chen, Marcos; Sigler, Eric; Litwin, Mateusz; Gris, Scott; Ajedrez, Benjamín; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Darío (diciembre de 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcán, MF; Lin, H. (eds.). "Los modelos de lenguaje aprenden con pocas posibilidades" (PDF) . Avances en los sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 1877–1901.
^ Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (26 de mayo de 2024). NeOn-GPT: un gran canal impulsado por modelos de lenguaje para el aprendizaje de ontologías (PDF) . Conferencia sobre web semántica ampliada 2024. Hersonissos, Grecia.
^ Manning, Christopher D. (2022). "Comprensión y razonamiento del lenguaje humano". Dédalo . 151 (2): 127-138. doi : 10.1162/daed_a_01905 . S2CID 248377870.
^ Hornstein, Norberto; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (9 de enero de 2018). Estructuras sintácticas después de 60 años: el impacto de la revolución chomskyana en la lingüística. Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5. Archivado desde el original el 16 de abril de 2023 . Consultado el 11 de diciembre de 2021 .
^ Karlgren, Jussi; Schutze, Hinrich (2015), "Evaluación de representaciones lingüísticas del aprendizaje", Conferencia internacional del Foro de evaluación entre idiomas , Apuntes de conferencias sobre informática, Springer International Publishing, págs. 254–260, doi :10.1007/978-3-319- 64206-2_8, ISBN 9783319642055
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (10 de octubre de 2018). "BERT: formación previa de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805 [cs.CL].
^ "El corpus de aceptabilidad lingüística (CoLA)". nyu-mll.github.io . Archivado desde el original el 7 de diciembre de 2020 . Consultado el 25 de febrero de 2019 .
^ "Pegamento de referencia". pegamentobenchmark.com . Archivado desde el original el 4 de noviembre de 2020 . Consultado el 25 de febrero de 2019 .
^ "Corpus de paráfrasis de investigación de Microsoft". Centro de descarga de Microsoft . Archivado desde el original el 25 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
^ Aghaebrahimian, Ahmad (2017), "Conjunto de datos de respuestas a preguntas de Quora", Texto, discurso y diálogo , Apuntes de conferencias sobre informática, vol. 10415, Springer International Publishing, págs. 66–73, doi :10.1007/978-3-319-64206-2_8, ISBN 9783319642055
^ Sammons, VGVinod Vydiswaran, Dan Roth, Mark; Vydiswaran, VG; Roth, Dan. "Reconocimiento de la vinculación textual" (PDF) . Archivado desde el original (PDF) el 9 de agosto de 2017 . Consultado el 24 de febrero de 2019 .{{cite web}}: CS1 maint: multiple names: authors list (link)
^ "El conjunto de datos de respuesta a preguntas de Stanford". rajpurkar.github.io . Archivado desde el original el 30 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
^ "Modelos profundos recursivos para la composicionalidad semántica sobre un banco de árboles de sentimientos". nlp.stanford.edu . Archivado desde el original el 27 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
^ Hendrycks, Dan (14 de marzo de 2023), Medición de la comprensión masiva del lenguaje multitarea, archivado desde el original el 15 de marzo de 2023 , recuperado 15 de marzo 2023

Otras lecturas

JM Ponte; WB Croft (1998). "Un enfoque de modelado del lenguaje para la recuperación de información". Investigación y Desarrollo en Recuperación de Información . págs. 275–281. CiteSeerX 10.1.1.117.4237 .
Canción F; WB Croft (1999). "Un modelo de lenguaje general para la recuperación de información". Investigación y Desarrollo en Recuperación de Información . págs. 279–280. CiteSeerX 10.1.1.21.6467 .
Chen, Stanley; Josué Goodman (1998). Un estudio empírico de técnicas de suavizado para el modelado del lenguaje (informe técnico). Universidad Harvard. CiteSeerX 10.1.1.131.5458 .