stringtranslate.com

Regresión logística multinomial

En estadística , la regresión logística multinomial es un método de clasificación que generaliza la regresión logística a problemas multiclase , es decir, con más de dos resultados discretos posibles. [1] Es decir, es un modelo que se utiliza para predecir las probabilidades de los diferentes resultados posibles de una variable dependiente categóricamente distribuida , dado un conjunto de variables independientes (que pueden ser de valor real, de valor binario, de valor categórico). , etc.).

La regresión logística multinomial se conoce con una variedad de otros nombres, incluido LR politómico , [2] [3] LR multiclase , regresión softmax , logit multinomial ( mlogit ), clasificador de máxima entropía ( MaxEnt ) y modelo condicional de máxima entropía . [4]

Fondo

La regresión logística multinomial se utiliza cuando la variable dependiente en cuestión es nominal (equivalentemente categórica , lo que significa que cae en cualquiera de un conjunto de categorías que no se pueden ordenar de ninguna manera significativa) y para la cual hay más de dos categorías. Algunos ejemplos serían:

Todos estos son problemas de clasificación estadística . Todos tienen en común una variable dependiente a predecir que proviene de un conjunto limitado de elementos que no se pueden ordenar de manera significativa, así como un conjunto de variables independientes (también conocidas como características, explicadores, etc.), que se utilizan para predecir la variable dependiente. La regresión logística multinomial es una solución particular a los problemas de clasificación que utilizan una combinación lineal de las características observadas y algunos parámetros específicos del problema para estimar la probabilidad de cada valor particular de la variable dependiente. Los mejores valores de los parámetros para un problema determinado generalmente se determinan a partir de algunos datos de entrenamiento (por ejemplo, algunas personas de las que se conocen tanto los resultados de las pruebas de diagnóstico como los tipos de sangre, o algunos ejemplos de palabras conocidas que se pronuncian).

Suposiciones

El modelo logístico multinomial supone que los datos son específicos de cada caso; es decir, cada variable independiente tiene un valor único para cada caso. Como ocurre con otros tipos de regresión, no es necesario que las variables independientes sean estadísticamente independientes entre sí (a diferencia, por ejemplo, de un clasificador ingenuo de Bayes ); sin embargo, se supone que la colinealidad es relativamente baja, ya que resulta difícil diferenciar entre el impacto de varias variables si este no es el caso. [5]

Si se utiliza el logit multinomial para modelar elecciones, se basa en el supuesto de independencia de alternativas irrelevantes (IIA), lo que no siempre es deseable. Este supuesto establece que las probabilidades de preferir una clase sobre otra no dependen de la presencia o ausencia de otras alternativas "irrelevantes". Por ejemplo, las probabilidades relativas de ir al trabajo en coche o autobús no cambian si se añade una bicicleta como posibilidad adicional. Esto permite modelar la elección de K alternativas como un conjunto de K -1 elecciones binarias independientes, en el que una alternativa se elige como "pivote" y la otra K -1 se compara con ella, una a la vez. La hipótesis IIA es una hipótesis central en la teoría de la elección racional; sin embargo, numerosos estudios en psicología muestran que los individuos a menudo violan esta suposición al tomar decisiones. Un ejemplo de caso problemático surge si las opciones incluyen un automóvil y un autobús azul. Supongamos que la razón de probabilidades entre los dos es 1: 1. Ahora bien, si se introduce la opción de un autobús rojo, una persona puede ser indiferente entre un autobús rojo y uno azul y, por lo tanto, puede exhibir una razón de probabilidades de automóvil: autobús azul: autobús rojo. de 1: 0,5: 0,5, manteniendo así una proporción 1: 1 de automóvil: cualquier autobús, mientras se adopta una proporción modificada de automóvil: autobús azul de 1: 0,5. En este caso, la opción del autobús rojo no era irrelevante, porque un autobús rojo era un sustituto perfecto de un autobús azul.

Si se utiliza el logit multinomial para modelar opciones, en algunas situaciones puede imponer demasiadas restricciones a las preferencias relativas entre las diferentes alternativas. Es especialmente importante tener en cuenta si el análisis pretende predecir cómo cambiarían las opciones si una alternativa desapareciera (por ejemplo, si un candidato político se retira de una carrera de tres candidatos). En tales casos, se pueden utilizar otros modelos, como el logit anidado o el probit multinomial , ya que permiten la violación del IIA. [6]

Modelo

Introducción

Existen múltiples formas equivalentes de describir el modelo matemático subyacente a la regresión logística multinomial. Esto puede dificultar la comparación de diferentes tratamientos del tema en diferentes textos. El artículo sobre regresión logística presenta varias formulaciones equivalentes de regresión logística simple, y muchas de ellas tienen análogos en el modelo logit multinomial.

La idea detrás de todas ellas, como en muchas otras técnicas de clasificación estadística , es construir una función predictora lineal que construya una puntuación a partir de un conjunto de ponderaciones que se combinan linealmente con las variables explicativas (características) de una observación determinada utilizando un producto escalar. :

donde X i es el vector de variables explicativas que describen la observación i , β k es un vector de ponderaciones (o coeficientes de regresión ) correspondientes al resultado k y puntuación ( X i , k ) es la puntuación asociada con la asignación de la observación i a la categoría k . En la teoría de la elección discreta , donde las observaciones representan personas y los resultados representan elecciones, la puntuación se considera la utilidad asociada con la elección de la persona i del resultado k . El resultado previsto es el que tenga la puntuación más alta.

La diferencia entre el modelo logit multinomial y muchos otros métodos, modelos, algoritmos, etc. con la misma configuración básica (el algoritmo perceptrón , máquinas de vectores de soporte , análisis discriminante lineal , etc.) es el procedimiento para determinar (entrenar) los pesos óptimos. /coeficientes y la forma en que se interpreta la puntuación. En particular, en el modelo logit multinomial, la puntuación se puede convertir directamente en un valor de probabilidad, que indica la probabilidad de que la observación i elija el resultado k dadas las características medidas de la observación. Esto proporciona una forma basada en principios de incorporar la predicción de un modelo logit multinomial particular en un procedimiento más amplio que puede involucrar múltiples predicciones de este tipo, cada una con una posibilidad de error. Sin esos medios para combinar predicciones, los errores tienden a multiplicarse. Por ejemplo, imagine un modelo predictivo grande que se divide en una serie de submodelos donde la predicción de un submodelo determinado se usa como entrada de otro submodelo y esa predicción se usa a su vez como entrada en un tercer submodelo, etc. Si cada submodelo tiene un 90% de precisión en sus predicciones y hay cinco submodelos en serie, entonces el modelo general tiene sólo 0,9 5 = 59% de precisión. Si cada submodelo tiene una precisión del 80%, entonces la precisión general cae a 0,8· 5 = 33% de precisión. Este problema se conoce como propagación de errores y es un problema grave en los modelos predictivos del mundo real, que suelen estar compuestos de numerosas partes. Predecir las probabilidades de cada resultado posible, en lugar de simplemente hacer una única predicción óptima, es una forma de aliviar este problema. [ cita necesaria ]

Configuración

La configuración básica es la misma que en la regresión logística , la única diferencia es que las variables dependientes son categóricas en lugar de binarias , es decir, hay K resultados posibles en lugar de solo dos. La siguiente descripción es algo abreviada; para más detalles, consulte el artículo sobre regresión logística .

Puntos de datos

Específicamente, se supone que tenemos una serie de N puntos de datos observados. Cada punto de datos i (que va de 1 a N ) consta de un conjunto de M variables explicativas x 1,i ... x M,i (también conocidas como variables independientes , variables predictoras, características, etc.) y una categoría categórica asociada. resultado Y i (también conocido como variable dependiente , variable de respuesta), que puede tomar uno de K valores posibles. Estos posibles valores representan categorías lógicamente separadas (por ejemplo, diferentes partidos políticos, tipos de sangre, etc.) y, a menudo, se describen matemáticamente asignando arbitrariamente a cada uno un número del 1 al K. Las variables explicativas y el resultado representan propiedades observadas de los puntos de datos y, a menudo, se piensa que se originan en las observaciones de N "experimentos", aunque un "experimento" puede consistir en nada más que recopilar datos. El objetivo de la regresión logística multinomial es construir un modelo que explique la relación entre las variables explicativas y el resultado, de modo que el resultado de un nuevo "experimento" pueda predecirse correctamente para un nuevo punto de datos para el cual las variables explicativas, pero no el resultado, están disponibles. En el proceso, el modelo intenta explicar el efecto relativo de diferentes variables explicativas sobre el resultado.

Algunos ejemplos:

predictor lineal

Como en otras formas de regresión lineal, la regresión logística multinomial utiliza una función predictora lineal para predecir la probabilidad de que la observación i tenga un resultado k , de la siguiente forma:

donde es un coeficiente de regresión asociado con la m -ésima variable explicativa y el k- ésimo resultado. Como se explica en el artículo sobre regresión logística , los coeficientes de regresión y las variables explicativas normalmente se agrupan en vectores de tamaño M+1 , de modo que la función predictora se puede escribir de manera más compacta:

donde es el conjunto de coeficientes de regresión asociados con el resultado k y (un vector de fila) es el conjunto de variables explicativas asociadas con la observación i .

Como un conjunto de regresiones binarias independientes

Para llegar al modelo logit multinomial, se puede imaginar, para K resultados posibles, ejecutar K -1 modelos de regresión logística binaria independientes, en los que un resultado se elige como "pivote" y luego los otros K -1 resultados se retroceden por separado. el resultado del pivote. Si se elige el resultado K (el último resultado) como pivote, las ecuaciones de regresión K -1 son:

.

Esta formulación también se conoce como transformación de relación logarítmica aditiva, comúnmente utilizada en el análisis de datos compositivos. En otras aplicaciones se lo denomina “riesgo relativo”. [7]

Si exponenciamos ambos lados y resolvemos las probabilidades, obtenemos:

Utilizando el hecho de que todas las K de probabilidades deben sumar uno, encontramos:

.

Podemos usar esto para encontrar las otras probabilidades:

.

El hecho de que ejecutemos regresiones múltiples revela por qué el modelo se basa en el supuesto de independencia de alternativas irrelevantes descrito anteriormente.

Estimando los coeficientes

Los parámetros desconocidos en cada vector β k generalmente se estiman conjuntamente mediante la estimación máxima a posteriori (MAP), que es una extensión de la máxima verosimilitud que utiliza la regularización de los pesos para evitar soluciones patológicas (generalmente una función de regularización al cuadrado, que equivale a colocar una distribución previa gaussiana de media cero en los pesos, pero también son posibles otras distribuciones). La solución generalmente se encuentra utilizando un procedimiento iterativo como el escalado iterativo generalizado , [8] mínimos cuadrados reponderados iterativamente (IRLS), [9] mediante algoritmos de optimización basados ​​en gradientes como L-BFGS , [4] o mediante coordenadas especializadas. algoritmos de descenso . [10]

Como modelo log-lineal

La formulación de la regresión logística binaria como un modelo log-lineal puede extenderse directamente a la regresión multidireccional. Es decir, modelamos el logaritmo de la probabilidad de ver una salida determinada utilizando el predictor lineal así como un factor de normalización adicional , el logaritmo de la función de partición :

.

Como en el caso binario, necesitamos un término adicional para asegurar que todo el conjunto de probabilidades forme una distribución de probabilidad , es decir, que todas sumen uno:

La razón por la que necesitamos agregar un término para asegurar la normalización, en lugar de multiplicar como es habitual, es porque hemos tomado el logaritmo de las probabilidades. Exponenciar ambos lados convierte el término aditivo en un factor multiplicativo, de modo que la probabilidad es solo la medida de Gibbs :

.

La cantidad Z se llama función de partición de la distribución. Podemos calcular el valor de la función de partición aplicando la restricción anterior que requiere que todas las probabilidades sumen 1:

Por lo tanto:

Tenga en cuenta que este factor es "constante" en el sentido de que no es función de Yi , que es la variable sobre la cual se define la distribución de probabilidad . Sin embargo, definitivamente no es constante con respecto a las variables explicativas, o fundamentalmente, con respecto a los coeficientes de regresión desconocidos β k , que necesitaremos determinar mediante algún tipo de procedimiento de optimización .

Las ecuaciones resultantes para las probabilidades son

.

O en general:

La siguiente función:

se conoce como función softmax . La razón es que el efecto de exponenciar los valores es exagerar las diferencias entre ellos. Como resultado, devolverá un valor cercano a 0 siempre que sea significativamente menor que el máximo de todos los valores y devolverá un valor cercano a 1 cuando se aplique al valor máximo, a menos que esté extremadamente cerca del siguiente valor más grande. Por lo tanto, la función softmax se puede utilizar para construir un promedio ponderado que se comporte como una función suave (que puede diferenciarse convenientemente , etc.) y que se aproxima a la función indicadora.

Por tanto, podemos escribir las ecuaciones de probabilidad como

Por tanto, la función softmax sirve como equivalente de la función logística en la regresión logística binaria.

Tenga en cuenta que no todos los vectores de coeficientes son identificables de forma única . Esto se debe al hecho de que todas las probabilidades deben sumar 1, haciendo que una de ellas esté completamente determinada una vez que se conocen todas las demás. Como resultado, sólo hay probabilidades especificables por separado y, por tanto, vectores de coeficientes identificables por separado. Una forma de ver esto es notar que si sumamos un vector constante a todos los vectores de coeficientes, las ecuaciones son idénticas:

Como resultado, es convencional establecer (o alternativamente, uno de los otros vectores de coeficientes). Básicamente, establecemos la constante para que uno de los vectores se convierta en 0 y todos los demás vectores se transformen en la diferencia entre esos vectores y el vector que elegimos. Esto equivale a "girar" alrededor de una de las K opciones y examinar qué tan mejores o peores son todas las otras opciones K -1, en relación con la elección alrededor de la cual estamos girando. Matemáticamente, transformamos los coeficientes de la siguiente manera:

Esto lleva a las siguientes ecuaciones:

Aparte de los símbolos primos en los coeficientes de regresión, esto es exactamente igual a la forma del modelo descrito anteriormente, en términos de K -1 regresiones bidireccionales independientes.

Como modelo de variable latente

También es posible formular la regresión logística multinomial como un modelo de variable latente, siguiendo el modelo de variable latente bidireccional descrito para la regresión logística binaria. Esta formulación es común en la teoría de los modelos de elección discreta y facilita la comparación de la regresión logística multinomial con el modelo probit multinomial relacionado , así como su extensión a modelos más complejos.

Imagine que, para cada punto de datos i y posible resultado k=1,2,...,K , hay una variable latente continua Y i,k * (es decir, una variable aleatoria no observada ) que se distribuye de la siguiente manera:

donde es decir, una distribución de valor extremo estándar tipo 1 .

Esta variable latente puede considerarse como la utilidad asociada con el punto de datos i al elegir el resultado k , donde hay cierta aleatoriedad en la cantidad real de utilidad obtenida, lo que explica otros factores no modelados que intervienen en la elección. Luego, el valor de la variable real se determina de forma no aleatoria a partir de estas variables latentes (es decir, la aleatoriedad se ha trasladado de los resultados observados a las variables latentes), donde el resultado k se elige si y sólo si la utilidad asociada (la El valor de ) es mayor que las utilidades de todas las demás opciones, es decir, si la utilidad asociada con el resultado k es la máxima de todas las utilidades. Dado que las variables latentes son continuas , la probabilidad de que dos tengan exactamente el mismo valor es 0, por lo que ignoramos el escenario. Eso es:

O equivalente:

Miremos más de cerca la primera ecuación, que podemos escribir de la siguiente manera:

Hay algunas cosas que debes tener en cuenta aquí:

  1. En general, si y entonces . Es decir, la diferencia de dos variables independientes distribuidas de valores extremos idénticamente distribuidas sigue la distribución logística , donde el primer parámetro no es importante. Esto es comprensible ya que el primer parámetro es un parámetro de ubicación , es decir, desplaza la media en una cantidad fija, y si dos valores se desplazan en la misma cantidad, su diferencia sigue siendo la misma. Esto significa que todos los enunciados relacionales que subyacen a la probabilidad de una elección determinada implican la distribución logística, lo que hace que la elección inicial de la distribución de valores extremos, que parecía bastante arbitraria, sea algo más comprensible.
  2. El segundo parámetro en una distribución logística o de valores extremos es un parámetro de escala , tal que si entonces . Esto significa que el efecto de usar una variable de error con un parámetro de escala arbitrario en lugar de la escala 1 se puede compensar simplemente multiplicando todos los vectores de regresión por la misma escala. Junto con el punto anterior, esto muestra que el uso de una distribución estándar de valores extremos (ubicación 0, escala 1) para las variables de error no implica pérdida de generalidad respecto al uso de una distribución arbitraria de valores extremos. De hecho, el modelo no es identificable (no hay un conjunto único de coeficientes óptimos) si se utiliza la distribución más general.
  3. Debido a que sólo se utilizan diferencias de vectores de coeficientes de regresión, agregar una constante arbitraria a todos los vectores de coeficientes no tiene ningún efecto en el modelo. Esto significa que, al igual que en el modelo log-lineal, sólo K -1 de los vectores de coeficientes son identificables y el último puede establecerse en un valor arbitrario (por ejemplo, 0).

En realidad, encontrar los valores de las probabilidades anteriores es algo difícil y es un problema de calcular una estadística de orden particular (la primera, es decir, la máxima) de un conjunto de valores. Sin embargo, se puede demostrar que las expresiones resultantes son las mismas que en las formulaciones anteriores, es decir, las dos son equivalentes.

Estimación de la intersección

Cuando se utiliza la regresión logística multinomial, se elige una categoría de la variable dependiente como categoría de referencia. Se determinan odds ratios separados para todas las variables independientes para cada categoría de la variable dependiente con excepción de la categoría de referencia, que se omite del análisis. El coeficiente beta exponencial representa el cambio en las probabilidades de que la variable dependiente esté en una categoría particular frente a la categoría de referencia, asociado con un cambio de una unidad de la variable independiente correspondiente.


función de probabilidad

Los valores observados de las variables explicadas se consideran realizaciones de variables aleatorias estocásticamente independientes y categóricamente distribuidas .

La función de verosimilitud de este modelo está definida por:

donde el índice denota las observaciones 1 an y el índice denota las clases 1 a K. es el delta de Kronecker.

La función de probabilidad logarítmica negativa es, por tanto, la conocida entropía cruzada:

Aplicación en el procesamiento del lenguaje natural.

En el procesamiento del lenguaje natural , los clasificadores LR multinomiales se utilizan comúnmente como una alternativa a los clasificadores ingenuos de Bayes porque no asumen independencia estadística de las variables aleatorias (comúnmente conocidas como características ) que sirven como predictores. Sin embargo, el aprendizaje en un modelo de este tipo es más lento que para un clasificador Bayes ingenuo y, por lo tanto, puede no ser apropiado dado un gran número de clases para aprender. En particular, aprender en un clasificador Naive Bayes es una simple cuestión de contar el número de co-ocurrencias de características y clases, mientras que en un clasificador de máxima entropía las ponderaciones, que normalmente se maximizan utilizando la estimación máxima a posteriori (MAP), deben aprenderse mediante un procedimiento iterativo; ver #Estimación de los coeficientes.

Ver también

Referencias

  1. ^ Greene, William H. (2012). Análisis econométrico (Séptima ed.). Boston: Educación Pearson. págs. 803–806. ISBN 978-0-273-75356-8.
  2. ^ Engel, J. (1988). "Regresión logística politómica". Statistica Neerlandica . 42 (4): 233–252. doi :10.1111/j.1467-9574.1988.tb01238.x.
  3. ^ Menard, Scott (2002). Análisis de Regresión Logística Aplicada . SABIO. pag. 91.ISBN 9780761922087.
  4. ^ ab Malouf, Robert (2002). Una comparación de algoritmos para la estimación de parámetros de máxima entropía (PDF) . Sexta Conf. sobre Aprendizaje de Lenguajes Naturales (CoNLL). págs. 49–55.
  5. ^ Belsley, David (1991). Diagnóstico de condicionamiento: colinealidad y datos débiles en regresión . Nueva York: Wiley. ISBN 9780471528890.
  6. ^ Baltas, G.; Doyle, P. (2001). "Modelos de utilidad aleatorios en la investigación de mercados: una encuesta". Revista de investigación empresarial . 51 (2): 115-125. doi :10.1016/S0148-2963(99)00058-2.
  7. ^ Manual de Stata "mlogit - Regresión logística multinomial (politómica)"
  8. ^ Darroch, JN y Ratcliff, D. (1972). "Escalado iterativo generalizado para modelos log-lineales". Los anales de la estadística matemática . 43 (5): 1470-1480. doi : 10.1214/aoms/1177692379 .
  9. ^ Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador. págs. 206-209.
  10. ^ Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "Métodos de descenso de coordenadas duales para modelos de regresión logística y máxima entropía" (PDF) . Aprendizaje automático . 85 (1–2): 41–75. doi : 10.1007/s10994-010-5221-8 .