stringtranslate.com

modelo de lenguaje

Un modelo de lenguaje es un modelo probabilístico de un lenguaje natural. [1] En 1980, se propuso el primer modelo de lenguaje estadístico significativo, y durante la década IBM realizó experimentos 'estilo Shannon', en los que se identificaron fuentes potenciales para mejorar el modelado del lenguaje mediante la observación y el análisis del desempeño de sujetos humanos en la predicción o corrigiendo texto. [2]

Los modelos de lenguaje son útiles para una variedad de tareas, incluido el reconocimiento de voz [3] (que ayuda a prevenir predicciones de secuencias de baja probabilidad (por ejemplo, sin sentido), traducción automática , [4] generación de lenguaje natural (generando texto más parecido al humano), óptico reconocimiento de caracteres , reconocimiento de escritura a mano , [5] inducción gramatical , [6] y recuperación de información . [7] [8]

Los modelos de lenguaje grande , actualmente su forma más avanzada, son una combinación de conjuntos de datos más grandes (que frecuentemente utilizan palabras extraídas de la Internet pública), redes neuronales de avance y transformadores . Han reemplazado a los modelos recurrentes basados ​​en redes neuronales , que anteriormente habían reemplazado a los modelos estadísticos puros, como el modelo de lenguaje de palabras y n -gramas .

Modelos estadísticos puros

Modelos basados ​​en palabras n -gramas

Un modelo de lenguaje de n -gramas de palabras es un modelo de lenguaje puramente estadístico. Ha sido reemplazado por modelos recurrentes basados ​​en redes neuronales, que han sido reemplazados por grandes modelos de lenguaje . [9] Se basa en la suposición de que la probabilidad de la siguiente palabra en una secuencia depende sólo de una ventana de tamaño fijo de palabras anteriores. Si sólo se consideraba una palabra anterior, se denominaba modelo de bigrama; si son dos palabras, un modelo de trigrama; si n  − 1 palabras, un modelo de n -gramas. [10] Se introdujeron fichas especiales para indicar el inicio y el final de una oración y .

Para evitar que se asigne una probabilidad cero a palabras invisibles, la probabilidad de cada palabra es ligeramente menor que su recuento de frecuencia en un corpus. Para calcularlo, se utilizaron varios métodos, desde el simple suavizado "añadir uno" (asignar una cuenta de 1 a n -gramas no vistos, como un previo poco informativo ) hasta modelos más sofisticados, como los modelos de descuento o retroceso de Good-Turing. .

Exponencial

Los modelos de lenguaje de máxima entropía codifican la relación entre una palabra y el historial de n -gramas mediante funciones de características. La ecuación es

donde está la función de partición , es el vector de parámetros y es la función de característica. En el caso más simple, la función característica es solo un indicador de la presencia de un determinado n -grama. Es útil utilizar una previa o alguna forma de regularización.

El modelo logbilineal es otro ejemplo de modelo de lenguaje exponencial.

Modelo de salto de gramo

El modelo de lenguaje Skip-gram es un intento de superar el problema de escasez de datos que enfrentó el modelo anterior (es decir, el modelo de lenguaje de n -gramas). Las palabras representadas en un vector de incrustación ya no eran necesariamente consecutivas, pero podían dejar espacios que se omitían . [11]

Formalmente, un k -skip- n -gram es una subsecuencia de longitud n donde los componentes ocurren a una distancia máxima k entre sí.

Por ejemplo, en el texto de entrada:

La lluvia en España cae principalmente en la llanura.

el conjunto de 1-saltar-2-gramos incluye todos los bigramas (2 gramos), y además las subsecuencias

en , lluvia España , en caídas , España principalmente , cae en , principalmente en , y en llano .

En el modelo skip-gram, las relaciones semánticas entre palabras se representan mediante combinaciones lineales , capturando una forma de composicionalidad . Por ejemplo, en algunos de estos modelos, si v es la función que asigna una palabra w a su representación vectorial n -d, entonces

donde ≈ se precisa estipulando que su lado derecho debe ser el vecino más cercano del valor del lado izquierdo. [12] [13]

Modelos neuronales

Red neuronal recurrente

Las representaciones continuas o incrustaciones de palabras se producen en modelos de lenguaje basados ​​en redes neuronales recurrentes (conocidos también como modelos de lenguaje espacial continuo ). [14] Estas incrustaciones de espacio continuo ayudan a aliviar la maldición de la dimensionalidad , que es la consecuencia de que el número de posibles secuencias de palabras aumenta exponencialmente con el tamaño del vocabulario, lo que provoca además un problema de escasez de datos. Las redes neuronales evitan este problema representando palabras como combinaciones no lineales de pesos en una red neuronal. [15]

Grandes modelos de lenguaje

Un modelo de lenguaje grande (LLM) es un modelo de lenguaje que se destaca por su capacidad para lograr la generación y comprensión del lenguaje de propósito general. Los LLM adquieren estas habilidades aprendiendo relaciones estadísticas a partir de documentos de texto durante un proceso de capacitación autosupervisado y semisupervisado computacionalmente intensivo . [16] Los LLM son redes neuronales artificiales , las más grandes y con mayor capacidad están construidas con una arquitectura basada en transformador solo decodificador . Algunas implementaciones recientes se basan en otras arquitecturas, como variantes de redes neuronales recurrentes y Mamba (un modelo de espacio de estados ). [17] [18] [19]

Los LLM se pueden utilizar para la generación de texto, una forma de IA generativa , tomando un texto de entrada y prediciendo repetidamente el siguiente token o palabra. [20] Hasta 2020, el ajuste fino era la única forma de adaptar un modelo para poder realizar tareas específicas. Sin embargo , los modelos de mayor tamaño, como el GPT-3 , pueden diseñarse rápidamente para lograr resultados similares. [21] Se cree que adquieren conocimientos sobre sintaxis, semántica y "ontología" inherentes a los corpus del lenguaje humano, pero también sobre imprecisiones y sesgos presentes en los corpus. [22]

Algunos LLM notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3.5 y GPT-4 , utilizados en ChatGPT y Microsoft Copilot ), PaLM y Gemini de Google (el último de los cuales se utiliza actualmente en el chatbot del mismo nombre ), la familia LLaMA de modelos de código abierto de Meta y los modelos Claude de Anthropic .

Aunque a veces coinciden con el desempeño humano, no está claro que sean modelos cognitivos plausibles . Al menos en el caso de las redes neuronales recurrentes, se ha demostrado que a veces aprenden patrones que los humanos no aprenden, pero no aprenden patrones que los humanos normalmente aprenden. [23]

Evaluación y puntos de referencia

La evaluación de la calidad de los modelos de lenguaje se realiza principalmente en comparación con puntos de referencia de muestra creados por humanos a partir de tareas típicas orientadas al lenguaje. Otras pruebas de calidad, menos establecidas, examinan el carácter intrínseco de un modelo de lenguaje o comparan dos de esos modelos. Dado que los modelos de lenguaje suelen pretender ser dinámicos y aprender de los datos que ven, algunos modelos propuestos investigan la tasa de aprendizaje, por ejemplo, mediante la inspección de las curvas de aprendizaje. [24]

Se han desarrollado varios conjuntos de datos para evaluar los sistemas de procesamiento del lenguaje. [25] Estos incluyen:

Ver también

Referencias

  1. ^ Jurafsky, Dan; Martín, James H. (2021). "Modelos de lenguaje N-gram". Procesamiento del habla y el lenguaje (3ª ed.). Archivado desde el original el 22 de mayo de 2022 . Consultado el 24 de mayo de 2022 .
  2. ^ Rosenfeld, Ronald (2000). "Dos décadas de modelado de lenguaje estadístico: ¿hacia dónde vamos a partir de ahora?". Actas del IEEE . 88 (8): 1270-1278. doi : 10.1109/5.880083. S2CID  10959945.
  3. ^ Kuhn, Roland y Renato De Mori (1990). "Un modelo de lenguaje natural basado en caché para el reconocimiento de voz". Transacciones IEEE sobre análisis de patrones e inteligencia artificial 12.6: 570–583.
  4. ^ Andreas, Jacob, Andreas Vlachos y Stephen Clark (2013). "Análisis semántico como traducción automática" Archivado el 15 de agosto de 2020 en Wayback Machine . Actas de la 51ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 2: Artículos breves).
  5. ^ Pham, Vu y otros (2014). "El abandono mejora las redes neuronales recurrentes para el reconocimiento de escritura a mano" Archivado el 11 de noviembre de 2020 en Wayback Machine . XIV Conferencia Internacional sobre Fronteras en el Reconocimiento de Escritura a Mano. IEEE.
  6. ^ Htut, Phu Mon, Kyunghyun Cho y Samuel R. Bowman (2018). "Inducción gramatical con modelos de lenguaje neuronal: una replicación inusual" Archivado el 14 de agosto de 2022 en Wayback Machine . arXiv : 1808.10000.
  7. ^ Ponte, Jay M.; Croft, W. Bruce (1998). "Un enfoque de modelado de lenguaje para la recuperación de información ". Actas de la 21ª Conferencia ACM SIGIR. Melbourne, Australia: ACM. págs. 275–281. doi :10.1145/290941.291008.
  8. ^ Hiemstra, Djoerd (1998). "Un modelo probabilístico de recuperación de información motivado lingüísticamente ". Actas de la segunda conferencia europea sobre investigación y tecnología avanzada para bibliotecas digitales. LNCS, Springer. págs. 569–584. doi :10.1007/3-540-49653-X_34.
  9. ^ Bengio, Yoshua; Ducharme, Réjean; Vicente, Pascal; Janvin, Christian (1 de marzo de 2003). "Un modelo de lenguaje probabilístico neuronal". La revista de investigación sobre aprendizaje automático . 3 : 1137–1155 - vía Biblioteca digital ACM.
  10. ^ Jurafsky, Dan; Martín, James H. (7 de enero de 2023). "Modelos de lenguaje N-gram". Procesamiento del habla y el lenguaje (PDF) (borrador de la tercera edición) . Consultado el 24 de mayo de 2022 .
  11. ^ David Guthrie; et al. (2006). "Una mirada más cercana al modelado de salto de gram" (PDF) . Archivado desde el original (PDF) el 17 de mayo de 2017 . Consultado el 27 de abril de 2014 .
  12. ^ Mikolov, Tomás; Chen, Kai; Corrado, Greg; Decano, Jeffrey (2013). "Estimación eficiente de representaciones de palabras en el espacio vectorial". arXiv : 1301.3781 [cs.CL].
  13. ^ Mikolov, Tomás; Sutskever, Ilya; Chen, Kai; Corrado primero4=Greg S.; Decano, Jeff (2013). Representaciones distribuidas de palabras y frases y su composicionalidad (PDF) . Avances en los sistemas de procesamiento de información neuronal . págs. 3111–3119. Archivado (PDF) desde el original el 29 de octubre de 2020 . Consultado el 22 de junio de 2015 .{{cite conference}}: CS1 maint: numeric names: authors list (link)
  14. ^ Karpatía, Andrej. "La eficacia irrazonable de las redes neuronales recurrentes". Archivado desde el original el 1 de noviembre de 2020 . Consultado el 27 de enero de 2019 .
  15. ^ Bengio, Yoshua (2008). "Modelos de lenguaje de redes neuronales". Scholarpedia . vol. 3. pág. 3881. Código bibliográfico : 2008SchpJ...3.3881B. doi : 10.4249/scholarpedia.3881 . Archivado desde el original el 26 de octubre de 2020 . Consultado el 28 de agosto de 2015 .
  16. ^ "Mejores modelos de lenguaje y sus implicaciones". AbiertoAI . 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020 . Consultado el 25 de agosto de 2019 .
  17. ^ Peng, Bo; et al. (2023). "RWKV: Reinventar RNNS para la era de los transformadores". arXiv : 2305.13048 [cs.CL].
  18. ^ Merritt, Rick (25 de marzo de 2022). "¿Qué es un modelo de transformador?". Blog de NVIDIA . Consultado el 25 de julio de 2023 .
  19. ^ Gu, Alberto; Dao, Tri (1 de diciembre de 2023), Mamba: modelado de secuencias de tiempo lineal con espacios de estados selectivos , arXiv : 2312.00752
  20. ^ Bowman, Samuel R. (2023). "Ocho cosas que hay que saber sobre los modelos de lenguajes grandes". arXiv : 2304.00612 [cs.CL].
  21. ^ Marrón, Tom B.; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Satry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Niño, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Invierno, Clemens; Hesse, Cristóbal; Chen, Marcos; Sigler, Eric; Litwin, Mateusz; Gris, Scott; Ajedrez, Benjamín; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Darío (diciembre de 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcán, MF; Lin, H. (eds.). "Los modelos de lenguaje aprenden con pocas posibilidades" (PDF) . Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 33 : 1877–1901.
  22. ^ Manning, Christopher D. (2022). "Comprensión y razonamiento del lenguaje humano". Dédalo . 151 (2): 127-138. doi : 10.1162/daed_a_01905 . S2CID  248377870.
  23. ^ Hornstein, Norberto; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (9 de enero de 2018). Estructuras sintácticas después de 60 años: el impacto de la revolución chomskyana en la lingüística. Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5. Archivado desde el original el 16 de abril de 2023 . Consultado el 11 de diciembre de 2021 .
  24. ^ Karlgren, Jussi; Schutze, Hinrich (2015), "Evaluación de representaciones lingüísticas del aprendizaje", Conferencia internacional del Foro de evaluación entre idiomas , Apuntes de conferencias sobre informática, Springer International Publishing, págs. 254–260, doi :10.1007/978-3-319- 64206-2_8, ISBN 9783319642055
  25. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (10 de octubre de 2018). "BERT: formación previa de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805 [cs.CL].
  26. ^ "El corpus de aceptabilidad lingüística (CoLA)". nyu-mll.github.io . Archivado desde el original el 7 de diciembre de 2020 . Consultado el 25 de febrero de 2019 .
  27. ^ "Pegamento de referencia". pegamentobenchmark.com . Archivado desde el original el 4 de noviembre de 2020 . Consultado el 25 de febrero de 2019 .
  28. ^ "Corpus de paráfrasis de investigación de Microsoft". Centro de descarga de Microsoft . Archivado desde el original el 25 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
  29. ^ Aghaebrahimian, Ahmad (2017), "Conjunto de datos de respuestas a preguntas de Quora", Texto, discurso y diálogo , Apuntes de conferencias sobre informática, vol. 10415, Springer International Publishing, págs. 66–73, doi :10.1007/978-3-319-64206-2_8, ISBN 9783319642055
  30. ^ Sammons, VGVinod Vydiswaran, Dan Roth, Mark; Vydiswaran, VG; Roth, Dan. "Reconocimiento de la vinculación textual" (PDF) . Archivado desde el original (PDF) el 9 de agosto de 2017 . Consultado el 24 de febrero de 2019 .{{cite web}}: CS1 maint: multiple names: authors list (link)
  31. ^ "El conjunto de datos de respuesta a preguntas de Stanford". rajpurkar.github.io . Archivado desde el original el 30 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
  32. ^ "Modelos profundos recursivos para la composicionalidad semántica sobre un banco de árboles de sentimientos". nlp.stanford.edu . Archivado desde el original el 27 de octubre de 2020 . Consultado el 25 de febrero de 2019 .
  33. ^ Hendrycks, Dan (14 de marzo de 2023), Medición de la comprensión masiva del lenguaje multitarea, archivado desde el original el 15 de marzo de 2023 , recuperado 15 de marzo de 2023

Otras lecturas