En estadística , la regresión logística multinomial es un método de clasificación que generaliza la regresión logística a problemas multiclase , es decir, con más de dos posibles resultados discretos. [1] Es decir, es un modelo que se utiliza para predecir las probabilidades de los diferentes resultados posibles de una variable dependiente distribuida categóricamente , dado un conjunto de variables independientes (que pueden ser de valor real, de valor binario, de valor categórico, etc.).
La regresión logística multinomial se conoce por una variedad de otros nombres, incluidos LR politómico , [2] [3] LR multiclase , regresión softmax , logit multinomial ( mlogit ), el clasificador de máxima entropía ( MaxEnt ) y el modelo de máxima entropía condicional . [4]
La regresión logística multinomial se utiliza cuando la variable dependiente en cuestión es nominal (equivalentemente categórica , es decir, que pertenece a cualquiera de un conjunto de categorías que no se pueden ordenar de ninguna manera significativa) y para la cual existen más de dos categorías. Algunos ejemplos serían:
Todos estos son problemas de clasificación estadística . Todos ellos tienen en común una variable dependiente que se debe predecir y que proviene de uno de un conjunto limitado de elementos que no se pueden ordenar de manera significativa, así como un conjunto de variables independientes (también conocidas como características, explicadores, etc.), que se utilizan para predecir la variable dependiente. La regresión logística multinomial es una solución particular para los problemas de clasificación que utilizan una combinación lineal de las características observadas y algunos parámetros específicos del problema para estimar la probabilidad de cada valor particular de la variable dependiente. Los mejores valores de los parámetros para un problema determinado se determinan generalmente a partir de algunos datos de entrenamiento (por ejemplo, algunas personas de las que se conocen tanto los resultados de las pruebas de diagnóstico como los tipos de sangre, o algunos ejemplos de palabras conocidas que se pronuncian).
El modelo logístico multinomial supone que los datos son específicos de cada caso, es decir, cada variable independiente tiene un único valor para cada caso. Al igual que con otros tipos de regresión, no es necesario que las variables independientes sean estadísticamente independientes entre sí (a diferencia, por ejemplo, de un clasificador bayesiano ingenuo ); sin embargo, se supone que la colinealidad es relativamente baja, ya que resulta difícil diferenciar entre el impacto de varias variables si este no es el caso. [5]
Si se utiliza el logit multinomial para modelar las elecciones, se basa en el supuesto de independencia de alternativas irrelevantes (IIA), que no siempre es deseable. Este supuesto establece que las probabilidades de preferir una clase sobre otra no dependen de la presencia o ausencia de otras alternativas "irrelevantes". Por ejemplo, las probabilidades relativas de tomar un automóvil o un autobús para ir al trabajo no cambian si se agrega una bicicleta como una posibilidad adicional. Esto permite modelar la elección de K alternativas como un conjunto de K − 1 opciones binarias independientes, en las que se elige una alternativa como "pivote" y se comparan las otras K − 1 con ella, una a la vez. La hipótesis IIA es una hipótesis central en la teoría de la elección racional; sin embargo, numerosos estudios en psicología muestran que los individuos a menudo violan este supuesto al tomar decisiones. Un ejemplo de un caso problemático surge si las opciones incluyen un automóvil y un autobús azul. Supongamos que la razón de probabilidades entre los dos es 1:1. Ahora bien, si se introduce la opción de un autobús rojo, una persona puede ser indiferente entre un autobús rojo y uno azul y, por lo tanto, puede mostrar una razón de probabilidades coche:autobús azul:autobús rojo de 1:0,5:0,5, manteniendo así una razón de 1:1 de coche:cualquier autobús mientras adopta una razón cambiada de coche:autobús azul de 1:0,5. Aquí la opción del autobús rojo no era de hecho irrelevante, porque un autobús rojo era un sustituto perfecto de un autobús azul.
Si se utiliza el logit multinomial para modelar las opciones, en algunas situaciones puede imponer demasiadas restricciones a las preferencias relativas entre las diferentes alternativas. Es especialmente importante tenerlo en cuenta si el análisis pretende predecir cómo cambiarían las opciones si desapareciera una alternativa (por ejemplo, si un candidato político se retira de una contienda con tres candidatos). En esos casos se pueden utilizar otros modelos, como el logit anidado o el probit multinomial , ya que permiten la violación del IIA. [6]
Existen múltiples formas equivalentes de describir el modelo matemático que subyace a la regresión logística multinomial. Esto puede dificultar la comparación de diferentes tratamientos del tema en diferentes textos. El artículo sobre regresión logística presenta varias formulaciones equivalentes de regresión logística simple, y muchas de ellas tienen análogos en el modelo logit multinomial.
La idea detrás de todos ellos, como en muchas otras técnicas de clasificación estadística , es construir una función predictora lineal que construye una puntuación a partir de un conjunto de pesos que se combinan linealmente con las variables explicativas (características) de una observación dada utilizando un producto escalar :
donde X i es el vector de variables explicativas que describen la observación i , β k es un vector de pesos (o coeficientes de regresión ) correspondientes al resultado k , y score( X i , k ) es el puntaje asociado con la asignación de la observación i a la categoría k . En la teoría de elección discreta , donde las observaciones representan personas y los resultados representan elecciones, el puntaje se considera la utilidad asociada con la persona i que elige el resultado k . El resultado predicho es el que tiene el puntaje más alto.
La diferencia entre el modelo logit multinomial y otros numerosos métodos, modelos, algoritmos, etc. con la misma configuración básica (el algoritmo del perceptrón , las máquinas de vectores de soporte , el análisis discriminante lineal , etc.) es el procedimiento para determinar (entrenar) los pesos/coeficientes óptimos y la forma en que se interpreta la puntuación. En particular, en el modelo logit multinomial, la puntuación se puede convertir directamente en un valor de probabilidad, que indica la probabilidad de que la observación i elija el resultado k dadas las características medidas de la observación. Esto proporciona una forma basada en principios de incorporar la predicción de un modelo logit multinomial particular en un procedimiento más amplio que puede implicar múltiples predicciones de este tipo, cada una con una posibilidad de error. Sin estos medios de combinar predicciones, los errores tienden a multiplicarse. Por ejemplo, imaginemos un gran modelo predictivo que se divide en una serie de submodelos, donde la predicción de un submodelo dado se utiliza como entrada de otro submodelo, y esa predicción se utiliza a su vez como entrada de un tercer submodelo, etc. Si cada submodelo tiene una precisión del 90% en sus predicciones, y hay cinco submodelos en serie, entonces el modelo general tiene solo un 0,9 5 = 59% de precisión. Si cada submodelo tiene un 80% de precisión, entonces la precisión general cae a un 0,8 5 = 33% de precisión. Este problema se conoce como propagación de errores y es un problema grave en los modelos predictivos del mundo real, que suelen estar compuestos de numerosas partes. Predecir las probabilidades de cada resultado posible, en lugar de simplemente hacer una única predicción óptima, es un medio para aliviar este problema. [ cita requerida ]
La configuración básica es la misma que en la regresión logística , con la única diferencia de que las variables dependientes son categóricas en lugar de binarias , es decir, hay K resultados posibles en lugar de solo dos. La siguiente descripción está algo abreviada; para obtener más detalles, consulte el artículo sobre regresión logística .
En concreto, se supone que tenemos una serie de N puntos de datos observados. Cada punto de datos i (que va de 1 a N ) consta de un conjunto de M variables explicativas x 1, i ... x M, i (también conocidas como variables independientes , variables predictoras, características, etc.) y un resultado categórico asociado Y i (también conocido como variable dependiente , variable de respuesta), que puede adoptar uno de los K valores posibles. Estos valores posibles representan categorías lógicamente separadas (por ejemplo, diferentes partidos políticos, tipos de sangre, etc.) y a menudo se describen matemáticamente asignando arbitrariamente a cada una un número de 1 a K . Las variables explicativas y el resultado representan propiedades observadas de los puntos de datos y, a menudo, se piensa que se originan en las observaciones de N "experimentos", aunque un "experimento" puede consistir en nada más que la recopilación de datos. El objetivo de la regresión logística multinomial es construir un modelo que explique la relación entre las variables explicativas y el resultado, de modo que el resultado de un nuevo "experimento" pueda predecirse correctamente para un nuevo punto de datos para el que se dispone de las variables explicativas, pero no del resultado. En el proceso, el modelo intenta explicar el efecto relativo de las distintas variables explicativas sobre el resultado.
Algunos ejemplos:
Al igual que en otras formas de regresión lineal, la regresión logística multinomial utiliza una función predictora lineal para predecir la probabilidad de que la observación i tenga el resultado k , de la siguiente forma:
donde es un coeficiente de regresión asociado con la variable explicativa m y el resultado k . Como se explica en el artículo de regresión logística , los coeficientes de regresión y las variables explicativas normalmente se agrupan en vectores de tamaño M + 1, de modo que la función predictora se puede escribir de forma más compacta:
donde es el conjunto de coeficientes de regresión asociados con el resultado k , y (un vector de fila) es el conjunto de variables explicativas asociadas con la observación i , antepuestas por un 1 en la entrada 0.
Para llegar al modelo logit multinomial, se puede imaginar, para K resultados posibles, ejecutar K modelos de regresión logística binaria independientes, en los que se elige un resultado como "pivote" y luego se hace una regresión por separado de los otros K − 1 resultados contra el resultado pivote. Si se elige el resultado K (el último resultado) como pivote, las K − 1 ecuaciones de regresión son:
Esta fórmula también se conoce como transformación de razón logarítmica aditiva, que se utiliza habitualmente en el análisis de datos compositivos. En otras aplicaciones se la denomina “riesgo relativo”. [7]
Si exponenciamos ambos lados y resolvemos las probabilidades, obtenemos:
Utilizando el hecho de que todas las K probabilidades deben sumar uno, encontramos:
Podemos usar esto para encontrar las otras probabilidades:
El hecho de que ejecutemos regresiones múltiples revela por qué el modelo se basa en el supuesto de independencia de alternativas irrelevantes descrito anteriormente.
Los parámetros desconocidos en cada vector β k se estiman típicamente de manera conjunta mediante una estimación a posteriori máxima (MAP), que es una extensión de la máxima verosimilitud que utiliza la regularización de los pesos para evitar soluciones patológicas (normalmente una función de regularización al cuadrado, que equivale a colocar una distribución previa gaussiana de media cero en los pesos, pero también son posibles otras distribuciones). La solución se encuentra típicamente utilizando un procedimiento iterativo como el escalamiento iterativo generalizado [8] , los mínimos cuadrados reponderados iterativamente (IRLS), [9] mediante algoritmos de optimización basados en gradientes como L-BFGS [ 4] o mediante algoritmos especializados de descenso de coordenadas [10] .
La formulación de la regresión logística binaria como un modelo log-lineal se puede extender directamente a la regresión multidireccional. Es decir, modelamos el logaritmo de la probabilidad de ver un resultado dado utilizando el predictor lineal, así como un factor de normalización adicional , el logaritmo de la función de partición :
Al igual que en el caso binario, necesitamos un término adicional para garantizar que todo el conjunto de probabilidades forme una distribución de probabilidad , es decir, que todas sumen uno:
La razón por la que necesitamos añadir un término para garantizar la normalización, en lugar de multiplicar como es habitual, es porque hemos tomado el logaritmo de las probabilidades. Al exponenciar ambos lados, el término aditivo se convierte en un factor multiplicativo, de modo que la probabilidad es simplemente la medida de Gibbs :
La cantidad Z se denomina función de partición de la distribución. Podemos calcular el valor de la función de partición aplicando la restricción anterior que exige que todas las probabilidades sumen 1:
Por lo tanto
Obsérvese que este factor es "constante" en el sentido de que no es una función de Y i , que es la variable sobre la que se define la distribución de probabilidad. Sin embargo, definitivamente no es constante con respecto a las variables explicativas o, fundamentalmente, con respecto a los coeficientes de regresión desconocidos β k , que necesitaremos determinar mediante algún tipo de procedimiento de optimización .
Las ecuaciones resultantes para las probabilidades son
La siguiente función:
Se denomina función softmax . La razón es que el efecto de exponenciar los valores es exagerar las diferencias entre ellos. Como resultado, devolverá un valor cercano a 0 siempre que sea significativamente menor que el máximo de todos los valores, y devolverá un valor cercano a 1 cuando se aplique al valor máximo, a menos que esté extremadamente cerca del siguiente valor más grande. Por lo tanto, la función softmax se puede utilizar para construir un promedio ponderado que se comporte como una función suave (que se puede diferenciar convenientemente , etc.) y que se aproxime a la función indicadora.
Por lo tanto, podemos escribir las ecuaciones de probabilidad como
La función softmax sirve entonces como equivalente de la función logística en la regresión logística binaria.
Nótese que no todos los vectores de coeficientes son identificables de forma única . Esto se debe al hecho de que todas las probabilidades deben sumar 1, lo que hace que una de ellas esté completamente determinada una vez que se conocen todas las demás. Como resultado, solo hay probabilidades especificables por separado y, por lo tanto, vectores de coeficientes identificables por separado. Una forma de ver esto es notar que si agregamos un vector constante a todos los vectores de coeficientes, las ecuaciones son idénticas:
Como resultado, es convencional establecer (o alternativamente, uno de los otros vectores de coeficientes). Básicamente, establecemos la constante de modo que uno de los vectores se convierta en , y todos los demás vectores se transformen en la diferencia entre esos vectores y el vector que elegimos. Esto es equivalente a "pivotar" en torno a una de las K opciones y examinar cuánto mejores o peores son todas las otras K − 1 opciones, en relación con la opción en torno a la cual estamos pivotando. Matemáticamente, transformamos los coeficientes de la siguiente manera:
Esto nos lleva a las siguientes ecuaciones:
Aparte de los símbolos primos en los coeficientes de regresión, esto es exactamente lo mismo que la forma del modelo descrito anteriormente, en términos de K − 1 regresiones bidireccionales independientes.
También es posible formular la regresión logística multinomial como un modelo de variable latente, siguiendo el modelo de variable latente de dos vías descrito para la regresión logística binaria. Esta formulación es común en la teoría de modelos de elección discreta y facilita la comparación de la regresión logística multinomial con el modelo probit multinomial relacionado , así como su extensión a modelos más complejos.
Imaginemos que, para cada punto de datos i y resultado posible k = 1,2,..., K , hay una variable latente continua Y i,k * (es decir, una variable aleatoria no observada ) que se distribuye de la siguiente manera:
donde es una distribución de valor extremo tipo 1 estándar .
Esta variable latente puede considerarse como la utilidad asociada con el punto de datos i que elige el resultado k , donde hay cierta aleatoriedad en la cantidad real de utilidad obtenida, que explica otros factores no modelados que intervienen en la elección. El valor de la variable real se determina entonces de manera no aleatoria a partir de estas variables latentes (es decir, la aleatoriedad se ha trasladado de los resultados observados a las variables latentes), donde el resultado k se elige si y solo si la utilidad asociada (el valor de ) es mayor que las utilidades de todas las demás opciones, es decir, si la utilidad asociada con el resultado k es el máximo de todas las utilidades. Dado que las variables latentes son continuas , la probabilidad de que dos tengan exactamente el mismo valor es 0, por lo que ignoramos el escenario. Es decir:
O equivalentemente:
Veamos más de cerca la primera ecuación, que podemos escribir de la siguiente manera:
Hay algunas cosas que debemos tener en cuenta aquí:
En realidad, encontrar los valores de las probabilidades anteriores es algo difícil y es un problema de cálculo de una estadística de orden particular (la primera, es decir, la máxima) de un conjunto de valores. Sin embargo, se puede demostrar que las expresiones resultantes son las mismas que en las formulaciones anteriores, es decir, que las dos son equivalentes.
Al utilizar la regresión logística multinomial, se elige una categoría de la variable dependiente como categoría de referencia. Se determinan razones de probabilidades independientes para todas las variables independientes para cada categoría de la variable dependiente, con excepción de la categoría de referencia, que se omite del análisis. El coeficiente beta exponencial representa el cambio en las probabilidades de que la variable dependiente se encuentre en una categoría particular en comparación con la categoría de referencia, asociado con un cambio de una unidad de la variable independiente correspondiente.
Los valores observados de las variables explicadas se consideran realizaciones de variables aleatorias distribuidas categóricamente y estocásticamente independientes .
La función de verosimilitud para este modelo está definida por
donde el índice denota las observaciones 1 a n y el índice denota las clases 1 a K. es el delta de Kronecker .
La función de verosimilitud logarítmica negativa es, por tanto, la conocida entropía cruzada:
En el procesamiento del lenguaje natural , los clasificadores LR multinomiales se utilizan comúnmente como una alternativa a los clasificadores Bayes ingenuos porque no suponen la independencia estadística de las variables aleatorias (comúnmente conocidas como características ) que sirven como predictores. Sin embargo, el aprendizaje en un modelo de este tipo es más lento que para un clasificador Bayes ingenuo y, por lo tanto, puede no ser apropiado dada una gran cantidad de clases para aprender. En particular, el aprendizaje en un clasificador Bayes ingenuo es una simple cuestión de contar el número de coocurrencias de características y clases, mientras que en un clasificador de entropía máxima los pesos, que normalmente se maximizan utilizando la estimación máxima a posteriori (MAP), deben aprenderse utilizando un procedimiento iterativo; consulte #Estimación de los coeficientes.