[5] Aunque entrenados en tareas simples como predecir la siguiente palabra en una oración, se encuentran modelos de lenguaje neuronal con suficiente entrenamiento y contaje de parámetros para capturar gran parte de la sintaxis y la semántica del lenguaje humano.Los LLMs están pre-entrenados en grandes conjuntos de corpus textuales.Cada una de estas cuatro variables se puede definir con precisión mediante un número real y, empíricamente, se encuentra que dichos números están relacionados por leyes estadísticas simples, llamadas "leyes de escala".Estas se conocen como "habilidades emergentes" y han sido objeto de un estudio sustancial.Los investigadores señalan que tales habilidades "no se pueden predecir simplemente extrapolando el rendimiento de modelos más pequeños".Un tokenizador es una función biyectiva que mapea entre textos y listas de enteros.Las palabras o frases comunes como "dónde está" se pueden codificar en un token, en lugar de 10 caracteres.La serie OpenAI GPT utiliza un tokenizador donde 1 token se asigna a alrededor de 4 caracteres, o alrededor de 0,75 palabras, en texto común en inglés.Algunos tokenizadores son capaces de manejar texto arbitrario (generalmente al operar directamente en Unicode), pero otros no.Otro token especial que se usa comúnmente es [PAD] (a menudo 1), para "relleno".Esto generalmente se implementa de la siguiente manera: En el proceso, el vectors o f t m a x ( y )entradas, todas no negativas, y suman 1, podemos interpretarlo como una distribución de probabilidad sobreConsiderar que la función softmax se define matemáticamente sin parámetros para variar.[13] Por lo general, los LLM están capacitados para minimizar una función de pérdida específica: la probabilidad logarítmica negativa promedio por token (también llamada pérdida de entropía cruzada).si un modelo autorregresivo, dado "Me gusta comer", predice una distribución de probabilidadSin embargo, la pérdida de regularización generalmente no se usa durante las pruebas y la evaluación.[16]Se estima que para entrenar solo una vez a GPT-3, con 175 mil millones de parámetros, se necesitan $4,6 millones, para lo cual una sola RTX 8000, tardaría 665 años en terminar.[17] Para los LLMs basados en transformers, cuesta 6 FLOP por parámetro entrenar en un token.Esto llega a tal punto que entrenar un modelo tan solo una vez, genera las mismas emisiones de carbono que un pasajero en un vuelo de Nueva York a San Francisco.Todo esto contribuye a un gran consumo energético, y genera grandes cantidades de calor.Para reducir estos costes, una solución posible es utilizar modelos más pequeños.Este es suficientemente ligero como para correr en un ordenador de escritorio.De esta manera, no se requiere una inversión tan grande para el entrenamiento inicial, y puede aprender a medida que se utiliza.Alternativamente, los pesos originales pueden recibir pequeñas actualizaciones (posiblemente con capas anteriores congeladas).En la práctica se han aplicado diversas técnicas para la puesta punto de instrucciones.Matemáticamente, la perplejidad se define como el exponencial de la probabilidad logarítmica negativa promedio por token:[28] Una tarea de respuesta a una pregunta se considera un "libro abierto" si el mensaje del modelo incluye texto del que se puede derivar la respuesta esperada (por ejemplo, la pregunta anterior podría ir acompañada de algún texto que incluya la oración "Los Shraks han avanzado a la Copa Stanley finales una vez, perdiendo ante los Pittsburgh Penguins en 2016").[28] De lo contrario, la tarea se considera "libro cerrado" y el modelo debe basarse en el conocimiento retenido durante el entrenamiento.[34] BERT selecciona b) como la finalización más probable, aunque la respuesta correcta es d).