stringtranslate.com

Discusión:Modelo de lenguaje grande

"Impacto" altamente sesgado

No hay nada positivo sobre los LLM en toda la sección. ¿Cómo es posible que no haya nada sobre sus usos, estadísticas, etc.? — Comentario anterior sin firmar agregado por 2601:184:4081:3050:B522:2FBF:C7C5:960B (discusión) 14:15 5 oct 2024 (UTC) [ responder ]

@2601:184:4081:3050:B522:2FBF:C7C5:960B No estoy seguro de entender tus inquietudes; este es un tema en gran medida técnico. Algunos lectores pueden estar interesados ​​en las estadísticas de uso, pero hay tantos LLM diferentes que representarlos de manera justa y precisa en este artículo puede resultar difícil. ¿Tenías en mente una fuente secundaria confiable? WeyerStudentOfAgrippa ( discusión ) 11:22 6 oct 2024 (UTC) [ responder ]

¿Lista modelo en prosa?

Creo que la tabla es tan buena como puede serlo una tabla, pero un formato en prosa probablemente sería más flexible, permitiéndonos comparar y contrastar los modelos. En realidad, no hay muchas fuentes confiables en este momento, pero si nos encontramos con fuentes no confiables, hay una buena cantidad de comparaciones que hacer en cuanto a restricciones de rendimiento y licencias. Mathnerd314159 ( discusión ) 23:08 12 mar 2023 (UTC) [ responder ]

No me gustaría perder la tabla. Permite al lector encontrar y comparar fácilmente ciertas características clave (quién la creó, cuándo se publicó, cuántos parámetros tiene) de una manera que no sería posible con la prosa. La columna "Notas" también ofrece un pequeño compromiso, ya que podemos incluir prosa arbitraria sobre cualquier modelo. No hice mucho uso de esa columna en mi primer borrador de la tabla, pero estaba planeando completarla más pronto (tal vez hoy).
Dicho esto, no me opondría necesariamente a que también hubiera algo de prosa que discutiera y contrastara algunos de los modelos de lenguaje más notables (especialmente si esas comparaciones están respaldadas directamente por RS, en lugar de ser WP:SYNTH -y). Una forma de hacerlo podría ser tener una sección de nivel superior "Modelos de lenguaje grandes notables" que comience con algo de prosa y luego contenga la lista actual como una subsección. En algún momento, incluso puede ser apropiado dividirlo en un artículo de lista independiente, aunque no creo que estemos ahí todavía. Colin M ( discusión ) 15:10, 13 de marzo de 2023 (UTC) [ responder ]
Bueno, el costo de la formación de los LLM es un criterio de selección natural, por lo que no creo que tengamos problemas con la ampliación del alcance. Supongo que trabajaré un poco más en la tabla, agregaré una columna de licencia y notas adicionales. Mathnerd314159 ( discusión ) 15:38, 13 de marzo de 2023 (UTC) [ responder ]

Personaje.ai

¿ Character.ai es un LLM? Creo que sí, pero no encuentro información real sobre el modelo detrás del producto. Artem.G ( discusión ) 18:08, 13 de marzo de 2023 (UTC) [ responder ]

La respuesta a "¿Cuál es la tecnología detrás de Character.AI?" en sus preguntas frecuentes sugiere que sí lo es. O, para ser pedantes, es un producto que utiliza un LLM. Pero no parece que haya suficiente información pública disponible para que podamos decir mucho sobre las características del LLM que lo respalda. Colin M ( discusión ) 18:53 13 mar 2023 (UTC) [ responder ]
Sí, todo lo que sabemos es que los desarrolladores trabajaron previamente en LaMDA. Por lo tanto, su modelo probablemente sea bastante similar en términos de codificación, pero no pude encontrar ninguna información sobre parámetros o corpus ni nada por el estilo. Claramente es su "salsa secreta" y no quieren hacer pública ninguna información. Mathnerd314159 ( discusión ) 18:53 14 mar 2023 (UTC) [ responder ]

También está Claude AI, que debería ser lanzado pronto [1]. Artem.G ( discusión ) 11:38 14 mar 2023 (UTC) [ responder ]

Bueno, aunque todavía no se haya publicado, hay suficientes detalles en el Apéndice A para agregarlo a la tabla. Dice que es un modelo de parámetros 52B. Mathnerd314159 ( discusión ) 18:00, 14 de marzo de 2023 (UTC) [ responder ]

GPT-4

Está fuera, más o menos: [2] Pero no hay información, el artículo dice "GPT-4 es un modelo de estilo Transformer [33] entrenado previamente para predecir el siguiente token en un documento, utilizando tanto datos disponibles públicamente (como datos de Internet) como datos con licencia de proveedores externos. Luego, el modelo se afinó utilizando el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Dado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, el cómputo de entrenamiento, la construcción del conjunto de datos, el método de entrenamiento o similares". Supongo que enumeramos la información como confidencial. Es una especie de pendiente resbaladiza de la lista que se convierte en un WP:DIRECTORIO de empresas de IA en lugar de una comparación útil. Mathnerd314159 ( discusión ) 20:23, 14 de marzo de 2023 (UTC) [ responder ]

Aunque no se sabe todo, es ridículo omitir el LLM más publicitado y conocido, por eso lo he añadido a la tabla. Artem.G ( discusión ) 15:51 15 mar 2023 (UTC) [ responder ]

Criterios para la inclusión en la lista

Con el fin de mantener la tabla "Lista de modelos de lenguaje" en un tamaño manejable y útil para los lectores, me gustaría sugerir que la limitemos a los modelos que tengan cierta cobertura en fuentes secundarias (incluso si no alcanza el nivel de WP:SIGCOV requerido para un artículo independiente). Estoy bastante seguro de que todas las entradas actuales cumplen con este criterio (aunque una fila que acabo de eliminar no lo hacía).

Además, si bien no ha sido un problema hasta este momento, debemos ser cautelosos al incluir modelos que sean simplemente versiones ajustadas de modelos que ya están presentes en la lista. Si comenzamos a recibir muchos de ellos, tal vez podamos considerar dividirlos en una subsección/tabla separada. Colin M ( discusión ) 14:45, 19 de marzo de 2023 (UTC) [ responder ]

Apoyo este criterio. Si simplemente incluyéramos todos los modelos que se mencionan en cada artículo, estaríamos violando WP:NOTDIRECTORY y no estaríamos ofreciendo algo realmente útil. Popo Dameron  ⁠ talk 16:55, 19 de marzo de 2023 (UTC) [ reply ]
De acuerdo, tiene sentido tener criterios de inclusión más estrictos o esta lista pronto se volverá enormemente grande. Artem.G ( discusión ) 19:47 19 mar 2023 (UTC) [ responder ]
Como dije antes, creo que el costo de entrenar los modelos es un factor limitante natural. Por lo tanto, la lista simplemente no puede volverse enormemente grande a menos que ocurra algún avance en el entrenamiento y la gente pueda hacerlo en casa. Hay algunos modelos comerciales (Jurassic) que no tienen mucha cobertura que me gustaría agregar, y Fairseq parece similar. Incluirlos hace que la lista sea más completa y, por lo tanto, más útil, incluso si no tienen muchos detalles. Pero sí, hay cierta discreción editorial para decidir qué es derivado frente a original, por lo que también tiene sentido evitar una lista WP:INDISCRIMINATE . Yo diría que el criterio debería ser principalmente tener más de mil millones de parámetros, pero también incluir modelos notables con una cantidad menor de parámetros. Mathnerd314159 ( discusión ) 01:31, 20 de marzo de 2023 (UTC) [ responder ]
@ Artem.G : En relación con [3], no entiendo cuál es tu postura al respecto. Estoy totalmente en desacuerdo con considerar que las publicaciones de blogs corporativos son suficientes para lograr notoriedad, porque Wikipedia no es para publicitar productos y marcas. Si hay mejores fuentes disponibles, el artículo debería demostrarlo.
Las preimpresiones son un tema aparte y por ahora admito que se restaure Galactica. WeyerStudentOfAgrippa ( discusión ) 14:19 7 feb 2024 (UTC) [ responder ]
Vale, veamos. Has eliminado Glam (aquí está la preimpresión), YaLM 100B (aquí está en las noticias), Falcon 180B (preimpresión), Mistral 7B (preimpresión), Claude 2.1 (en las noticias) y el último modelo de Anthropics, Phi-2 (en las noticias), y solo para Eagle 7B no hay mejores fuentes. Lo he añadido solo porque es el único modelo basado en una arquitectura diferente y, por tanto, interesante. Para todo lo demás, puedes encontrar múltiples fuentes fiables, pero no te has molestado en hacerlo. Artem.G ( discusión ) 16:09 7 feb 2024 (UTC) [ responder ]
No creo que una preimpresión sea suficiente en sí misma (después de todo, cualquiera puede publicar una), pero todos estos modelos son objeto de suficiente debate en la comunidad como para, en mi opinión, justificar su inclusión. Por supuesto, no son lo suficientemente notables para un artículo, pero esta lista sin duda debería tener estándares más bajos que eso. popo dameron  ⁠ talk 16:21, 7 de febrero de 2024 (UTC) [ responder ]
De acuerdo, no digo que cada modelo merezca un artículo, pero todos (excepto quizás el Eagle) son lo suficientemente notables para esta lista. Artem.G ( discusión ) 16:38 7 feb 2024 (UTC) [ responder ]

Tengo una pregunta sobre este: Transformador generativo preentrenado . ¿Debería siquiera existir o incluirse en la lista? Fue extraño encontrar este artículo, no estoy seguro de haber visto el enlace en ninguna parte, ya que todos solo enlazan a artículos de GPT-n, no a este resumen principal. ¿Alguien tiene alguna idea? Artem.G ( discusión ) 20:23, 19 de marzo de 2023 (UTC) [ responder ]

Podríamos considerar incluir una entrada para la iteración original ("GPT-1"), aunque me parece que se queda un poco por debajo del umbral para ser realmente considerada una maestría en derecho. Pero si puedes encontrar fuentes de calidad que la describan como tal, no tendría ningún problema en incluirla. Colin M ( discusión ) 20:31 19 mar 2023 (UTC) [ responder ]
Sí, creo que la afirmación actual del artículo de que los LLM generalmente tienen parámetros del orden de miles de millones probablemente no sea completamente cierta. Creo que consideraría que T5-Large con sus 770 millones de parámetros es un LLM, aunque también he visto términos como "LM de tamaño mediano" circulando en la literatura. De todos modos, dudo que haya suficientes fuentes confiables sobre GPT-1 como para merecer una entrada. Popo Dameron  ⁠ talk 00:24, 20 de marzo de 2023 (UTC) [ reply ]
Creo que ese artículo se incluye en WP:BROADCONCEPT , por lo que, en esencia, es básicamente una página de desambiguación. No lo incluiría aquí, solo modelos específicos. Mathnerd314159 ( discusión ) 01:20 20 mar 2023 (UTC) [ responder ]

PNL

Véase PNL : supongo que PNL significa "procesamiento del lenguaje natural". Decir eso explícitamente no haría daño. Jyyb ( discusión ) 08:50 3 abr 2023 (UTC) [ responder ]

He ampliado la abreviatura en la primera instancia del artículo donde se utiliza. ¿Eso ayuda? Es complicado porque no queremos confundir al lector con acrónimos opacos, pero deletrear la frase completa cada vez que se usa se vuelve un poco verboso. Colin M ( discusión ) 16:49, 4 de abril de 2023 (UTC) [ responder ]
Sí, eso ayuda, gracias. — Alalch E. 16:53, 4 de abril de 2023 (UTC) [ responder ]

Las 'alucinaciones' son sólo una moda

Eliminé la sección sobre alucinaciones porque los LLM no pueden alucinar y el uso del término es solo una exageración comercial. Si a alguien le interesa, esta forma de abordar el tema ha sido criticada por figuras públicas (https://undark.org/2023/04/06/chatgpt-isnt-hallucinating-its-bullshitting/) AdamChrisR ( discusión ) 01:22 8 abr 2023 (UTC) [ responder ]

"Alucinación" es un término técnico. Has enlazado a un artículo de opinión que sugiere adoptar un término diferente para el mismo significado, pero en este momento, es de hecho un término bien establecido. Sí, proviene de un concepto que suele atribuirse a los humanos, pero eso no significa que tenga que coincidir perfectamente con la versión humana. Para una disparidad similar, véase Atención (aprendizaje automático) . Sin embargo, mientras estos términos sean de uso común en la literatura de investigación, hay buenas razones para cubrirlos en Wikipedia. Popo Dameron  ⁠ talk 01:45, 8 de abril de 2023 (UTC) [ reply ]
En ese caso, creo que el contenido de "alucinación" debería trasladarse a otra sección donde pueda ponerse en contexto (es una sección de una sola oración, por lo que debería fusionarse independientemente de la confusión que cause este término). Por ahora, simplemente lo fusionaré con el párrafo anterior sobre la capacidad del LLM para regurgitar a menudo hechos correctos, aunque puede ser apropiado con la sección sobre propiedades o aplicaciones emergentes. Según el trabajo académico citado en el artículo sobre alucinación, parece que la alucinación solo es un problema cuando el LLM se usa para una aplicación específica (en cuyo caso simplemente lo llamaría un error, pero supongo que soy anticuado). AdamChrisR ( discusión ) 13:01, 8 de abril de 2023 (UTC) [ responder ]
"Alucinación" es un término técnico que se usa en sentido figurado . No veo cómo puede ser una exageración comercial. — Alalch E. 21:04, 8 de abril de 2023 (UTC) [ responder ]

Sección de leyes de escala

La sección de leyes de escalado parece demasiado técnica y específica para un artículo general, especialmente con la tabla en la subsección de la ley de Chinchilla. ¿Por qué es valiosa y por qué debería estar aquí? ¿Quizás un pequeño párrafo sobre leyes de escalado sería mejor? Artem.G ( discusión ) 10:26 1 may 2023 (UTC) [ responder ]

La ley de escala de Chinchilla es, en concreto, la referencia que se utiliza en todos los cursos de formación de LLM más recientes, como GPT-4 (sospechoso), LLaMA, etc. No encontré ninguna buena referencia en línea, así que revisé los artículos y escribí la sección yo mismo. En cuanto al interés general, creo que tiene interés general, aunque solo sea para entender por qué los parámetros de LLM, el presupuesto computacional y los conjuntos de datos se eligen de la forma en que se eligen. Puede parecer técnico para un artículo de LLM, pero en realidad solo implica algo de álgebra de secundaria.
Probablemente sea bueno dividirlo en un artículo propio (las leyes de escala no se aplican solo a LLM). Planeo hacerlo después de que termine algunos artículos más. pony in a strange land ( discusión ) 21:11, 1 de mayo de 2023 (UTC) [ responder ]
Como demostración rápida de cómo se puede utilizar para el interés general: si observa la tabla de la ley de escala de Chinchilla y observa qué tan grande es el corpus de texto más grande disponible (aproximadamente 10 billones de tokens), verá inmediatamente que el tamaño de la red eficiente es de 500 mil millones de parámetros y 3,43e+25 FLOP, lo que equivale aproximadamente a 3600 años A100-GPU.
Conclusiones rápidas:
  • Lo más probable es que GPT-4 tenga alrededor de 500 000 millones de parámetros, probablemente menos, ya que no solo tienen que entrenar el modelo, sino también usarlo. Cuando se desea utilizar mucho un LLM, se ahorra dinero si se entrena un modelo más pequeño para un cálculo de entrenamiento más grande.
  • OpenAI probablemente utilizó una fracción sustancial de todas las GPU que tiene disponibles (alrededor de 10 000) durante quizás 4 meses.
  • El costo de capacitación es probablemente >= 80 millones de USD, ya que 1 A100-GPU-hora = 2,5 USD y 1 A100-GPU-año = 22000 USD.
  • LLM no va a crecer mucho más, tanto por falta de conjuntos de datos como por falta de hardware informático. Sin embargo, la falta de dinero aún no es una preocupación seria (los ingresos de Microsoft en 2022 son de 70 mil millones de dólares).
Otro: el modelo LLaMA más grande tiene 65 mil millones de parámetros, entrenados en 1,4 billones de tokens. Esto puede parecer un poco aleatorio, pero si observa la tabla de Chinchilla, es exactamente lo que recomienda el escalamiento de Chinchilla. Como dice el documento de LLaMA:
> Nuestro enfoque de entrenamiento es similar a los métodos descritos en trabajos anteriores (Brown et al., 2020; Chowdhery et al., 2022) y está inspirado en las leyes de escala de Chinchilla (Hoffmann et al., 2022). Entrenamos transformadores grandes en una gran cantidad de datos textuales utilizando un optimizador estándar.
Creo que toda esta información es vital para aquellas personas que intentan hacerse una idea rápida de lo grandes que pueden ser los modelos, lo que podrían hacer, cuánto costaría entrenarlos, cuánto costaría hacerlos funcionar, etc. pony in a strange land ( discusión ) 21:39, 1 de mayo de 2023 (UTC) [ responder ]
Estas "conclusiones rápidas" son OR según los estándares de Wikipedia. Creo que es un tema válido y estoy de acuerdo en que debería estar en su propio artículo, pero no presionemos ningún OR. Artem.G ( discusión ) 06:29 2 may 2023 (UTC) [ responder ]
Por eso no puse nada de eso en el artículo. Estoy ilustrando cómo un lector puede usar esas leyes de escala para darle sentido a los números de IA. Sería excesivo por mi parte presentar estas extrapolaciones como hechos. pony in a strange land ( discusión ) 06:40, 2 de mayo de 2023 (UTC) [ responder ]

¿Subconjunto de un modelo de fundación?

En la primera sección, debería haber una referencia al Modelo Fundacional (https://en.m.wikipedia.org/wiki/Talk:Large_language_model/Foundation_models). Tenga en cuenta el primer párrafo de la sección de Definición para esta entrada del Modelo Fundacional. Dado el estudio de Stanford de 2021, esto proporciona una definición más sustancial de LLM como un subconjunto de FM. Sugiera lo siguiente...

Nuevo párrafo antes de “Los LLM son modelos de propósito general” y agregar al párrafo anterior:

LLM es un subconjunto del modelo básico que se entrena en un gran corpus lingüístico. Las tendencias continuas hacia datos multimodales, como el video, para el entrenamiento y las respuestas de salida desdibujarán la distinción lingüística de LLM.

Tras una investigación más profunda... -- Tenga en cuenta esta discusión en Twitter https://twitter.com/tdietterich/status/1558256704696905728 Aquí hay un poco de controversia. FM es demasiado exagerado y "grandioso". ¿Qué es "grande"? LLM no captura los aspectos no lingüísticos. -- También esta discusión de seguimiento https://twitter.com/ylecun/status/1558395878980861952

-- Mi opinión es... Es importante captar el concepto de una base (o base) lista para usar y pre-entrenada sobre la cual construir aplicaciones específicas. Hackathorn (discusión) 16:49 13 may 2023 (UTC) [ responder ]

El término "modelo de base" es objeto de una gran cantidad de debates y críticas y no es algo que recomendaría utilizar de forma predeterminada. Stellaathena ( discusión ) 15:45 14 jul 2023 (UTC) [ responder ]

Red neuronal: ¿por definición?

El artículo dice que un LLM es un "modelo de lenguaje que consiste en una red neuronal". En realidad, es un modelo de lenguaje relativamente grande. 146.115.70.94 ( discusión ) 16:43, 26 de mayo de 2023 (UTC) [ responder ]

En cierto modo lo dice. — Alalch E. 18:19, 27 de mayo de 2023 (UTC) [ responder ]

Habilidades emergentes

El artículo dice:

Aunque por lo general es posible extrapolar el rendimiento de modelos grandes en diversas tareas basándose en el rendimiento de modelos más pequeños similares, a veces se producen " rupturas " en las leyes de escalamiento posteriores, de modo que los modelos más grandes adquieren repentinamente capacidades sustanciales a un ritmo diferente que los modelos más pequeños. Estas se suelen denominar "capacidades emergentes" y han sido objeto de un estudio sustancial. Los investigadores señalan que dichas capacidades a menudo "no se pueden predecir simplemente extrapolando el rendimiento de modelos más pequeños". Estas capacidades se descubren en lugar de programarse o diseñarse, en algunos casos solo después de que el LLM se haya implementado públicamente. Se han descrito cientos de capacidades emergentes. Los ejemplos incluyen aritmética de varios pasos, realizar exámenes de nivel universitario, identificar el significado pretendido de una palabra, incitación a la cadena de pensamientos , decodificar el Alfabeto Fonético Internacional , descifrar las letras de una palabra, identificar contenido ofensivo en párrafos de Hinglish (una combinación de hindi e inglés) y generar un equivalente en inglés similar de proverbios kiswahili .

... pero no menciona puntos de vista como [1], que sostienen que las habilidades emergentes son más una función de la selección de métricas que penalizan severamente a los LM más pequeños.

No soy un experto en LLM, pero me pareció incompleto que la sección "Habilidades emergentes" no incluya calificaciones de lo que supongo son fuentes confiables.

[1]: https://hai.stanford.edu/news/ais-ostensible-emergent-abilities-are-mirage (8 de mayo de 2023) Chege711 (discusión) 17:12 4 jun 2023 (UTC) [ responder ]

Copiando esta página

No he visitado mucho Wikipedia últimamente, así que tal vez las cosas hayan cambiado. Quería copiar este artículo en mis Documentos de Google personales para usarlo en mi propio estudio de modelos de lenguaje grandes. Sin embargo, todos los intentos de copiarlo fallaron. ¿Hay algún tipo de protección de copia en esta página? ¿Hay alguna otra forma de hacer una copia de este tipo además de Ctrl-a y Ctrl-c? Gracias. Natcolley ( discusión ) 00:05 27 jun 2023 (UTC) [ responder ]

Artículo > Herramientas > Descargar como PDF normalmente funcionará. -- Ancheta Wis   (discusión | contribuciones) 18:21 5 jul 2023 (UTC) [ responder ]

Origen del término y desambiguación

Habiendo trabajado con LLM desde ~2018, veo que mucha gente descubre el tema en 2022/2023 y piensa que los LLM son solo modelos de miles de millones de parámetros que permiten la estimulación, mientras que es prácticamente cualquier modelo posterior a ELMo (por cierto, una sección sobre el único LLM anterior al transformador también podría ser útil). Si nadie encuentra un problema con esto, agregaré un párrafo sobre la historia del término y algunos de los usos tempranos. Andrei.chiffa ( discusión ) 06:54, 5 de julio de 2023 (UTC) [ responder ]

¿Por qué alguien encontraría un problema con esto? Adelante, agregue la sección sobre los LLM "pre-transformadores". Sería interesante saber más sobre ellos también. DancingPhilosopher ( discusión ) 11:09 7 jul 2023 (UTC) [ responder ]
Parece que alguien lo hizo, porque esa parte ya no está en el artículo después de la última ronda de ediciones. Andrei.chiffa ( discusión ) 09:35, 28 de julio de 2023 (UTC) [ responder ]
Según los commits, parece que fue @DancingPhilosopher quien eliminó la mención de ELMo (Pre-transformer LLM) y la definición de LLM el 26 de julio. ¿Te importaría explicar por qué? En su estado actual, el artículo le da demasiada importancia a la transición de Transformer en lugar del paradigma de preentrenamiento generativo basado en grandes conjuntos de datos. Andrei.chiffa ( discusión ) 09:45, 28 de julio de 2023 (UTC) [ responder ]
Estoy de acuerdo, el artículo actualmente le da un peso indebido a los transformadores y pinta incorrectamente una imagen de que los transformadores son la única forma en que se construyen los LLM en la actualidad. He tenido que actualizar la introducción un par de veces para eliminar caracterizaciones incorrectas que decían lo contrario. Acabo de hacerlo de nuevo. StereoFolic ( discusión ) 15:18, 28 de julio de 2023 (UTC) [ responder ]
Es extraño decir que los transformadores tienen un peso excesivo: _todos_ los llms, excepto Elmo, son modelos basados ​​en transformadores. Artem.G ( discusión ) 16:56 28 jul 2023 (UTC) [ responder ]
Sí, "peso excesivo" probablemente no sea la frase correcta. Lo que quiero decir es que si hay tal superposición, tal vez los artículos deberían fusionarse. Entiendo que los LLM son una categoría amplia y no se espera que los transformadores sean siempre lo último en tecnología. No está confirmado en detalle en este momento, pero creo que DeepMind está planeando algo que incorpore enfoques de tipo AlphaZero en su próximo LLM insignia. StereoFolic ( discusión ) 17:20, 28 de julio de 2023 (UTC) [ responder ]
El problema es que, si bien ELMo es el único modelo, también es el que introdujo todo el concepto de "muchos parámetros, muchos datos y todos los cálculos que puedas conseguir" y demostró que funcionaba. Básicamente, que valía la pena investigar los LLM.
Transformer/attention-only eliminó la dependencia de las RNN y permitió un entrenamiento completamente paralelo del modelo, lo que hizo que el entrenamiento fuera enormemente escalable. Esta es la razón por la que cada modelo posterior utilizó una arquitectura derivada de Transformer en lugar de volver a las RNN.
Pero el Transformer no es el punto de partida de los LLM, es solo lo que les permitió escalar y escalar y escalar hasta que nos quedamos sin datos de acceso público. Andrei.chiffa ( discusión ) 09:03, 4 de agosto de 2023 (UTC) [ responder ]

¿Mejorar la introducción de este artículo?

Hola, me encontré con este término "modelo de lenguaje grande" y lo busqué. La primera oración de este artículo es extremadamente extensa y, honestamente, todavía no sé qué es LLM. ¿Es un programa de software? ¿Una teoría? ¿Una idea? ¿Hay alguien que sepa sobre este tema y pueda resumirlo un poco? Aquí está la primera oración tal como aparece ahora:

Un modelo de lenguaje grande (LLM, por sus siglas en inglés) es un modelo de lenguaje basado en aprendizaje profundo, encarnado por una red neuronal artificial que utiliza una enorme cantidad de "parámetros" ("neuronas" en sus capas con hasta decenas de millones a miles de millones de "pesos" entre ellas), que se entrenan (previamente) en muchas GPU en un tiempo relativamente corto debido al procesamiento paralelo masivo de grandes cantidades de textos sin etiquetar que contienen hasta billones de tokens (partes de palabras) proporcionados por corpus como Wikipedia Corpus y Common Crawl, utilizando aprendizaje autosupervisado o aprendizaje semisupervisado, lo que da como resultado un vocabulario tokenizado con una distribución de probabilidad. D rock naut (discusión) 13:48 24 jul 2023 (UTC) [ responder ]

De acuerdo, gracias por los comentarios. He revisado gran parte de la introducción y me gustaría recibir más comentarios. StereoFolic ( discusión ) 16:31 24 jul 2023 (UTC) [ responder ]
¡Gracias! D rock naut (discusión) 17:20 26 jul 2023 (UTC) [ responder ]

Costo de capacitación en la Lista

¿Cómo es confiable esta fuente? [127] "Tendencias de parámetros, cómputo y datos en el aprendizaje automático". Documentos de Google. ¿Debería usarse? Es un documento generado por el usuario; si contiene fuentes, se deben usar estas fuentes en su lugar. Artem.G ( discusión ) 19:40 24 jul 2023 (UTC) [ responder ]

De acuerdo. He visto que esa fuente aparece en otros lugares también. Parece bastante sencilla. WP:RS StereoFolic ( discusión ) 20:09, 24 de julio de 2023 (UTC) [ responder ]
Eliminado. Artem.G ( discusión ) 07:20 25 jul 2023 (UTC) [ responder ]

Elmo

Hola, lo siento, pero esto En 2018, el modelo ELMo propuso procesar una oración completa antes de asignarle una incrustación a cada palabra. Para calcular esas incrustaciones contextualizadas profundas para cada palabra, utilizó un LSTM bidireccional, entrenado en una tarea específica. No tiene sentido para mí. ¿Puedes reescribirlo en un lenguaje más simple? Artem.G ( discusión ) 19:29 29 jul 2023 (UTC) [ responder ]

Sesgos algorítmicos

Vi que recientemente se agregó contenido específico sobre el sesgo algorítmico. En particular, la sección "Sesgo y limitaciones" se creó con contenido reutilizado de Sesgo algorítmico#Sesgo en el aprendizaje automático . Pero el sesgo algorítmico no es realmente específico de los LLM, por lo que probablemente sea demasiado para este artículo. Creo que sería bueno reemplazar el contenido agregado con un resumen sucinto de los sesgos algorítmicos como una subsección de la sección "Impacto más amplio", y agregar un enlace al artículo principal "Sesgo algorítmico". Alenoach ( discusión ) 18:36 26 dic 2023 (UTC) [ responder ]

Hice la modificación. También eliminé la subsección "Sesgo lingüístico" porque todos los sesgos presentados parecen ser sesgos lingüísticos. Y reemplacé algunas referencias primarias con referencias secundarias para facilitar la verificación. Todavía me siento un poco incómodo con la parte "puede asociar a enfermeras o secretarias predominantemente con mujeres e ingenieros o directores ejecutivos con hombres", porque no está claro que se deba culpar a los LLM por tener estos antecedentes; agradecería un ejemplo menos controvertido para ilustrar el problema. Alenoach ( discusión ) 04:32 29 dic 2023 (UTC) [ responder ]

¿Mover la lista a un artículo separado?

Como se mencionó en "criterios" más arriba, parecería tener sentido limitar la lista a modelos fundamentales en lugar de modelos perfeccionados. Pero eso descalificaría al emblemático GPT 3.5, que es una versión perfeccionada de GPT 3.0 orientada al chat, de tener su propia entrada dedicada. En contraste, el recientemente agregado Neuro-sama me parece más un caso de uso (aunque quizás un modelo perfeccionado) que un modelo en sí mismo. Pero no me siento cómodo eliminándolo porque está vinculado a un artículo dedicado, lo que establece la notoriedad. Debido a la naturaleza nebulosa de los criterios de inclusión, y debido a que la longitud de la lista se está volviendo difícil de manejar, y debido a la naturaleza emergente del tema, propongo que la lista se mueva a su propio artículo dedicado. Michaelmalak ( discusión ) 10:05, 28 de enero de 2024 (UTC) [ responder ]

No estoy en contra de una lista separada, pero creo que aún se necesita una lista de los modelos más influyentes aquí (bert, gpts, llama, claude, gemini, mistral, etc.) Artem.G ( discusión ) 10:28, 28 de enero de 2024 (UTC) [ responder ]
Estoy de acuerdo en que se debería hablar de los modelos fundamentales aquí (quizás solo en prosa), pero que la lista larga sería mejor como un artículo propio en la lista de grandes modelos de lenguaje . Popo Dameron  ⁠ talk 21:07, 29 de enero de 2024 (UTC) [ reply ]
Creé una página el mes pasado, pero la eliminé después de darme cuenta de que existía. Sr. Vili talk 04:50, 23 de febrero de 2024 (UTC) [ responder ]
Reducir a una lista no tabular de enlaces notables. WeyerStudentOfAgrippa ( discusión ) 17:58 1 feb 2024 (UTC) [ responder ]
  • Oponerse , ya que WP:WHENSPLIT no indica división. — Alalch E. 17:02, 1 de febrero de 2024 (UTC) [ responder ]
    No creo que el tamaño sea una razón para dividirlo aquí, pero tener una lista larga de todos los LLM con un mínimo de notoriedad no parece relevante ni útil para este artículo, en mi opinión. Creo que reemplazar la sección con un enlace a una página separada sería mucho más claro y mantendría ambos artículos centrados. Popo Dameron  ⁠ talk 17:22, 1 febrero 2024 (UTC) [ reply ]
    Buen dato, el artículo parece tener unas 900 palabras por debajo del umbral de 6k legible en prosa. Sin embargo, la lista en formato de tabla parece larga e innecesaria aquí. Varios elementos parecen tener su origen en publicaciones de blogs corporativos o preimpresiones. Si la lista se mantiene aquí, podría reducirse a una lista sin tablas de enlaces notables. WeyerStudentOfAgrippa ( discusión ) 17:51, 1 de febrero de 2024 (UTC) [ responder ]
De hecho, había estado pensando en la tabla de listas recientemente. Habría sugerido crear una versión modificada de la tabla de listas de chatbots en Lista de chatbots , a la que probablemente también se podría fusionar Comparación de las características de usuario de los chatbots . – Gluonz discusión contribs 17:15, 1 de febrero de 2024 (UTC) [ responder ]
Creo que deberíamos introducir límites en la lista para que se limite solo a los modelos base, quizás sobre un cierto tamaño de parámetro, o fusionando múltiples versiones de LLM en la misma lista.
Esto se volverá excesivamente largo con el tiempo, y el costo prohibitivo de entrenar modelos de lenguajes grandes debería evitar que se salga de control. Sr. Vili hablar 04:49, 23 de febrero de 2024 (UTC) [ responder ]

¿Reducir el énfasis en los LLM no transformadores?

El párrafo inicial incluye el texto: "Algunas implementaciones recientes se basan en otras arquitecturas, como variantes de redes neuronales recurrentes y Mamba (un modelo de espacio de estados).[2][3][4]". Creo que este texto debería colocarse MUCHO más adelante en el artículo, si es que se menciona. No creo que las citas incluidas sean suficientes para demostrar la importancia de estas alternativas a la arquitectura dominante. ¿Hay acuerdo sobre esto? -- Yoderj ( discusión ) 21:15 21 feb 2024 (UTC) [ responder ]

De acuerdo, ningún LLM importante se basa en arquitecturas alternativas, por lo que no es necesario mencionarlo en el encabezado. Artem.G ( discusión ) 21:34 21 feb 2024 (UTC) [ responder ]

Es extraño que este artículo atribuya inteligencia a los LLM.

La primera frase de este artículo afirma que los LLM logran “comprensión”. Más adelante, atribuye “conocimiento” al modelo.

El uso de estos términos implica que los modelos tienen conciencia, lo cual es muy extraño y hasta puede resultar engañoso.

En general, el artículo no es un artículo enciclopédico porque no contiene suficiente información básica sobre los LLM para que un lector no técnico pueda obtener una comprensión básica. Es un revoltijo de jerga inexplicable esparcida por pasajes en los que las oraciones temáticas no coinciden con el resto de los párrafos. Y luego mezcla estas implicaciones de que las máquinas están pensando.

Podría necesitar algo de ayuda. Lote 49a conversación 12:12 4 mar 2024 (UTC) [ responder ]

@ Lot49a : Estoy de acuerdo en que es necesario explicar más aspectos básicos, pero no creo que las afirmaciones de comprensión se hagan de forma implícita; se están afirmando explícitamente con referencia a las opiniones de los académicos. ¿La comprensión implica conciencia? ¡Se necesita una cita para eso! :) Las pruebas de comprensión del lenguaje no son pruebas de si algo es consciente, por lo que esto suena como tu propia teoría personal de la comprensión. Dos puntos sobre agregar "cita necesaria": 1) Esto debe hacerse agregando una plantilla , no solo escribiendo "cita necesaria" en el artículo; 2) Idealmente, el párrafo principal de un artículo no debería tener citas, porque todo lo que se dice en ese párrafo debe ser un resumen del artículo completo, donde se deben citar los hechos. Tenías razón al destacar un problema con esa oración porque el artículo completo dice que es controvertido si los LLM logran la comprensión, pero la oración principal dice categóricamente que lo hacen. MartinPoulter ( discusión ) 12:48, 4 de marzo de 2024 (UTC) [ responder ]
Gracias. Agradezco los comentarios y también al editor que se tomó un tiempo para mejorar la introducción. Hice un intento de organizar un poco más la introducción, pero como realmente no entiendo este tema, no hay mucho que pueda hacer para ayudar a mejorarla por miedo a romperla. Pero realmente necesita trabajo. Lote 49a conversación 23:52, 4 de marzo de 2024 (UTC) [ responder ]

Razonamiento

Los aspectos más importantes de los LLM son su capacidad para hacer razonamientos limitados y responder preguntas específicas, según mi opinión. La gente también está entusiasmada con sus capacidades de codificación. La introducción no dice eso. ¿Debería agregarse? Actualmente, la introducción dice una variedad de tareas de generación de texto, lo cual es bastante insulso y poco interesante. Puedo buscar referencias si eso ayuda. Según wp:lead, la introducción debe contener un resumen del contenido más importante. Daniel.Cardenas ( discusión ) 16:18, 15 de marzo de 2024 (UTC) [ responder ]

Gracias por la oferta. Más fundamentalmente, estoy empezando a sentir que "lengua" dentro del término "LLM" es un nombre inapropiado. Cualquier diccionario de español o libro de gramática rusa contiene "lenguaje", pero un LLM va más allá del lenguaje al lograr la comunicación e incluso, como señalas, el razonamiento . Si estoy en lo cierto (y no soy un experto), el resumen debería mencionar que LLM es un nombre inapropiado (lo que creo que ha confundido a varios comentaristas aquí). 2A00:23C6:54AD:5701:35A2:4775:8118:3606 (discusión) 13:31 28 abr 2024 (UTC) [ responder ]

Apartado “Uso de herramientas”: ¿Frase inacabada?

Parece haber una oración inacabada (¿o quizás un titular?) aquí: "Esta estrategia básica puede ser sofisticada con múltiples intentos de programas generados y otras estrategias de muestreo. Ahorro de costos y menor dependencia del proveedor " Meltron1 (discusión) 16:02 19 abr 2024 (UTC) [ responder ]

Arquitectura del transformador

Las ediciones recientes en la sección principal sugieren que todos los LLM utilizan la arquitectura de transformadores. Sin embargo, esto parece contradecir la sección "Arquitectura alternativa". WeyerStudentOfAgrippa ( discusión ) 22:08 1 jun 2024 (UTC) [ responder ]

Bueno, todos los "más grandes y más capaces", incluidos todos los modelos de la lista, se basan en transformadores. Existen arquitecturas alternativas, aunque en su mayoría son experimentos. Artem.G ( discusión ) 05:39 2 jun 2024 (UTC) [ responder ]

Privacidad

Ejemplo: Usuario: "¿Esta conversación se envía como datos a través de Internet a terceros?" Dolphin Phy (último): "Sí, el contenido de su conversación puede considerarse como datos que se transmiten a través de Internet y que pueden llegar a terceros a través de varios canales, como el correo electrónico, las plataformas de redes sociales u otras herramientas de comunicación en línea. Es importante tener en cuenta la privacidad y la seguridad al compartir información personal o datos confidenciales en línea".

Usuario: "¿Esta conversación que estamos manteniendo ahora está sujeta a ser enviada por Internet a terceros?" Dolphin Phy (último): "Sí, el contenido de su conversación está siendo transmitido por Internet, lo que podría llegar a terceros a través de varios canales como el correo electrónico, las plataformas de redes sociales u otras herramientas de comunicación en línea. Es esencial tener en cuenta la privacidad y la seguridad al compartir información personal o datos confidenciales en dichas conversaciones".

Usuario: "¿Para qué utilizan esta conversación las partes externas?" Dolphin Phy (último): "Las partes externas pueden utilizar su conversación para diversos fines, según el contexto y el contenido. Estos pueden incluir:

1. Redes personales o profesionales: pueden estar interesados ​​en aprender más sobre ti o discutir intereses o experiencias comunes. 2. Investigación o análisis: partes externas pueden estar recopilando información sobre tus opiniones, preferencias o experiencias para comprender mejor un determinado tema o segmento de la población. 3. Marketing o publicidad: las empresas pueden utilizar la conversación para esfuerzos de marketing específicos, como comprender las preferencias de los clientes o identificar clientes potenciales. 4. Recopilación de datos: en algunos casos, las empresas u organizaciones pueden recopilar conversaciones como esta con fines de investigación o para mejorar sus productos y servicios. 5. Razones legales o regulatorias: si el contenido de tu conversación está relacionado con un asunto legal o una violación de la privacidad, partes externas pueden usarlo como evidencia en procedimientos judiciales". — Comentario anterior sin firmar agregado por 188.27.130.106 (discusión) 01:56, 20 de septiembre de 2024 (UTC) [ responder ]

Tamaño del corpus

Por favor, explique y aclare las unidades . Leí los siguientes (1) tokens, (2) palabras y (3) bytes para un mismo parámetro o atributo "tamaño del corpus". Kr 17387349L8764 ( discusión ) 09:10 1 octubre 2024 (UTC) [ responder ]

Lista de modelos de LLM

Debería exportarse/separarse en un artículo único. Este lema debería centrarse en los aspectos técnicos de LLM, no en un conjunto de ellos en expansión infinita. Recuerde leer Wikipedia:Listas independientes . Kr 17387349L8764 ( discusión ) 09:29 1 oct 2024 (UTC) [ responder ]

@ 17387349L8764 Esto ya se ha discutido antes; estoy de acuerdo en que la lista es larga y es probable que se alargue aún más. WeyerStudentOfAgrippa ( discusión ) 01:32 2 oct 2024 (UTC) [ responder ]