stringtranslate.com

Función predictora lineal

En estadística y en aprendizaje automático , una función predictora lineal es una función lineal ( combinación lineal ) de un conjunto de coeficientes y variables explicativas ( variables independientes ), cuyo valor se utiliza para predecir el resultado de una variable dependiente . [1] Este tipo de función generalmente viene en regresión lineal , donde los coeficientes se denominan coeficientes de regresión . Sin embargo, también ocurren en varios tipos de clasificadores lineales (por ejemplo, regresión logística , [2] perceptrones , [3] máquinas de vectores de soporte , [4] y análisis discriminante lineal [5] ), así como en varios otros modelos, como análisis de componentes principales [6] y análisis factorial . En muchos de estos modelos, los coeficientes se denominan "pesos".

Definición

La forma básica de una función predictiva lineal para el punto de datos i (que consta de p variables explicativas ), para i = 1, ..., n , es

donde , para k = 1, ..., p , es el valor de la k -ésima variable explicativa para el punto de datos i , y son los coeficientes (coeficientes de regresión, ponderaciones, etc.) que indican el efecto relativo de una variable explicativa particular sobre el resultado .

Notaciones

Es común escribir la función predictora en una forma más compacta de la siguiente manera:

Notación vectorial

Esto hace posible escribir la función predictora lineal de la siguiente manera:

usando la notación para un producto escalar entre dos vectores.

Notación matricial

Una forma equivalente usando notación matricial es la siguiente:

donde y se supone que son vectores de columna (p+1) -por-1 , es la transposición de matriz de (también lo es un vector de fila 1 por (p+1) ), e indica la multiplicación de matrices entre los vectores de 1 por - (p+1) vector de fila y el vector de columna (p+1) -por-1, lo que produce una matriz de 1 por 1 que se considera escalar .

Regresión lineal

Un ejemplo del uso de una función predictora lineal es la regresión lineal , donde cada punto de datos está asociado con un resultado continuo y i , y la relación se escribe

donde es un término de perturbación o variable de error : una variable aleatoria no observada que agrega ruido a la relación lineal entre la variable dependiente y la función predictora.

Apilado

En algunos modelos (regresión lineal estándar, en particular), las ecuaciones para cada uno de los puntos de datos i = 1, ..., n se apilan juntas y se escriben en forma vectorial como

dónde

La matriz X se conoce como matriz de diseño y codifica toda la información conocida sobre las variables independientes . Las variables son variables aleatorias , que en la regresión lineal estándar se distribuyen según una distribución normal estándar ; expresan la influencia de cualquier factor desconocido en el resultado.

Esto permite encontrar coeficientes óptimos mediante el método de mínimos cuadrados utilizando operaciones matriciales simples. En particular, los coeficientes óptimos estimados por mínimos cuadrados se pueden escribir de la siguiente manera:

La matriz se conoce como pseudoinversa de Moore -Penrose de X. El uso de la matriz inversa en esta fórmula requiere que X sea de rango completo , es decir, no existe una multicolinealidad perfecta entre diferentes variables explicativas (es decir, ninguna variable explicativa puede predecirse perfectamente a partir de las demás). En tales casos, se puede utilizar la descomposición en valores singulares para calcular el pseudoinverso.

Preprocesamiento de variables explicativas

Cuando se utiliza un conjunto fijo de funciones no lineales para transformar los valores de un punto de datos, estas funciones se conocen como funciones básicas . Un ejemplo es la regresión polinómica , que utiliza una función predictiva lineal para ajustar una relación polinómica de grado arbitrario (hasta un orden determinado) entre dos conjuntos de puntos de datos (es decir, una única variable explicativa de valor real y una variable dependiente de valor real relacionada). , agregando múltiples variables explicativas correspondientes a varias potencias de la variable explicativa existente. Matemáticamente, el formulario se ve así:

En este caso, para cada punto de datos i , se crea un conjunto de variables explicativas de la siguiente manera:

y luego se ejecuta la regresión lineal estándar. Las funciones base en este ejemplo serían

Este ejemplo muestra que una función predictora lineal en realidad puede ser mucho más poderosa de lo que parece: en realidad solo necesita ser lineal en los coeficientes . El modelo puede ajustar todo tipo de funciones no lineales de las variables explicativas.

No hay una necesidad particular de que las entradas de las funciones base sean univariadas o unidimensionales (o sus salidas, de hecho, aunque en tal caso, un valor de salida K -dimensional es probable que se trate como K salida escalar separada). funciones básicas). Un ejemplo de esto son las funciones de base radial (RBF), que calculan alguna versión transformada de la distancia a algún punto fijo:

Un ejemplo es el RBF gaussiano , que tiene la misma forma funcional que la distribución normal :

que cae rápidamente a medida que aumenta la distancia desde c .

Un posible uso de RBF es crear uno para cada punto de datos observado. Esto significa que el resultado de un RBF aplicado a un nuevo punto de datos será cercano a 0 a menos que el nuevo punto esté cerca del punto alrededor del cual se aplicó el RBF. Es decir, la aplicación de las funciones de base radial seleccionará el punto más cercano y dominará su coeficiente de regresión. El resultado será una forma de interpolación del vecino más cercano , donde las predicciones se realizan simplemente usando la predicción del punto de datos observado más cercano, posiblemente interpolando entre múltiples puntos de datos cercanos cuando todos están a distancias similares. Este tipo de método de predicción del vecino más cercano a menudo se considera diametralmente opuesto al tipo de predicción utilizado en la regresión lineal estándar: pero, de hecho, las transformaciones que se pueden aplicar a las variables explicativas en una función predictiva lineal son tan poderosas que incluso el método de predicción más cercano. El método vecino se puede implementar como un tipo de regresión lineal.

Incluso es posible ajustar algunas funciones que parecen no lineales en los coeficientes transformando los coeficientes en nuevos coeficientes que sí parecen lineales. Por ejemplo, una función de la forma de coeficientes podría transformarse en la función lineal apropiada aplicando las sustituciones que conducen a cuál es lineal. Se podrían aplicar la regresión lineal y técnicas similares y, a menudo, aún se encontrarán los coeficientes óptimos, pero sus estimaciones de error y demás serán incorrectas.

Las variables explicativas pueden ser de cualquier tipo : de valor real , binarias , categóricas , etc. La principal distinción es entre variables continuas (por ejemplo, ingresos, edad, presión arterial , etc.) y variables discretas (por ejemplo, sexo, raza, partido político, etc.). Las variables discretas que hacen referencia a más de dos opciones posibles normalmente se codifican utilizando variables ficticias (o variables indicadoras ), es decir, se crean variables explicativas separadas que toman el valor 0 o 1 para cada valor posible de la variable discreta, donde un 1 significa "la variable tiene el valor dado" y un 0 que significa "la variable no tiene el valor dado". Por ejemplo, una variable discreta de cuatro factores del tipo de sangre con los valores posibles "A, B, AB, O" se convertiría en variables ficticias separadas de dos factores, "es-A, es-B, es-AB, es -O", donde solo uno de ellos tiene el valor 1 y todos los demás tienen el valor 0. Esto permite hacer coincidir coeficientes de regresión separados para cada valor posible de la variable discreta.

Tenga en cuenta que, para K categorías, no todas las K variables ficticias son independientes entre sí. Por ejemplo, en el ejemplo anterior del tipo de sangre, sólo tres de las cuatro variables ficticias son independientes, en el sentido de que una vez que se conocen los valores de tres de las variables, la cuarta se determina automáticamente. Por lo tanto, en realidad sólo es necesario codificar tres de las cuatro posibilidades como variables ficticias y, de hecho, si se codifican las cuatro posibilidades, el modelo general se vuelve no identificable . Esto causa problemas para varios métodos, como la solución simple de forma cerrada utilizada en la regresión lineal. La solución es evitar estos casos eliminando una de las variables ficticias y/o introducir una restricción de regularización (lo que requiere un método más potente, típicamente iterativo, para encontrar los coeficientes óptimos). [7]

Ver también

Referencias

  1. ^ Makhoul, J. (1975). "Predicción lineal: una revisión del tutorial". Actas del IEEE . 63 (4): 561–580. Código Bib : 1975IEEEP..63..561M. doi :10.1109/PROC.1975.9792. ISSN  0018-9219.
  2. ^ David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge . pag. 26.ISBN _ 9780521743853. Una ecuación de regresión simple tiene en el lado derecho una ordenada en el origen y una variable explicativa con un coeficiente de pendiente. Una ecuación de regresión múltiple tiene dos o más variables explicativas en el lado derecho, cada una con su propio coeficiente de pendiente.
  3. ^ Rosenblatt, Frank (1957), El perceptrón: un autómata que percibe y reconoce. Informe 85-460-1, Laboratorio Aeronáutico de Cornell.
  4. ^ Cortés, Corinna ; Vapnik, Vladimir N. (1995). "Redes de vectores de soporte" (PDF) . Aprendizaje automático . 20 (3): 273–297. CiteSeerX 10.1.1.15.9362 . doi :10.1007/BF00994018. 
  5. ^ McLachlan, GJ (2004). Análisis discriminante y reconocimiento de patrones estadísticos . Wiley Interciencia. ISBN 978-0-471-69115-0. SEÑOR  1190469.
  6. ^ Jolliffe IT Análisis de componentes principales , Serie: Springer Series in Statistics, 2ª ed., Springer, NY, 2002, XXIX, 487 p. 28 ilus. ISBN 978-0-387-95442-4 
  7. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Saltador. ISBN 978-0-387-84884-6.