En estadística y en aprendizaje automático , una función predictora lineal es una función lineal ( combinación lineal ) de un conjunto de coeficientes y variables explicativas ( variables independientes ), cuyo valor se utiliza para predecir el resultado de una variable dependiente . [1] Este tipo de función suele aparecer en regresión lineal , donde los coeficientes se denominan coeficientes de regresión . Sin embargo, también aparecen en varios tipos de clasificadores lineales (por ejemplo, regresión logística , [2] perceptrones , [3] máquinas de vectores de soporte , [4] y análisis discriminante lineal [5] ), así como en varios otros modelos, como el análisis de componentes principales [6] y el análisis factorial . En muchos de estos modelos, los coeficientes se denominan "pesos".
La forma básica de una función predictora lineal para el punto de datos i (que consta de p variables explicativas ), para i = 1, ..., n , es
donde , para k = 1, ..., p , es el valor de la k -ésima variable explicativa para el punto de datos i , y son los coeficientes (coeficientes de regresión, pesos, etc.) que indican el efecto relativo de una variable explicativa particular sobre el resultado .
Es común escribir la función predictora en una forma más compacta de la siguiente manera:
Esto permite escribir la función predictora lineal de la siguiente manera:
utilizando la notación de un producto escalar entre dos vectores.
Una forma equivalente utilizando notación matricial es la siguiente:
donde se supone que y son vectores columna de (p+1) por 1 , es la transposición matricial de (por lo que es un vector fila de 1 por (p+1) ), y indica la multiplicación matricial entre el vector fila de 1 por (p+1) y el vector columna de (p+1) por 1, lo que produce una matriz de 1 por 1 que se toma como un escalar .
Un ejemplo del uso de una función predictora lineal es la regresión lineal , donde cada punto de datos está asociado con un resultado continuo y i , y la relación se escribe
donde es un término de perturbación o variable de error : una variable aleatoria no observada que agrega ruido a la relación lineal entre la variable dependiente y la función predictora.
En algunos modelos (regresión lineal estándar, en particular), las ecuaciones para cada uno de los puntos de datos i = 1, ..., n se apilan juntas y se escriben en forma vectorial como
dónde
La matriz X se conoce como matriz de diseño y codifica toda la información conocida sobre las variables independientes . Las variables son variables aleatorias , que en la regresión lineal estándar se distribuyen de acuerdo con una distribución normal estándar ; expresan la influencia de cualquier factor desconocido en el resultado.
Esto permite encontrar coeficientes óptimos mediante el método de mínimos cuadrados utilizando operaciones matriciales sencillas. En particular, los coeficientes óptimos estimados por mínimos cuadrados se pueden escribir de la siguiente manera:
La matriz se conoce como pseudoinversa de Moore-Penrose de X. El uso de la matriz inversa en esta fórmula requiere que X sea de rango completo , es decir, no existe una multicolinealidad perfecta entre las diferentes variables explicativas (es decir, ninguna variable explicativa puede predecirse perfectamente a partir de las demás). En tales casos, se puede utilizar la descomposición en valores singulares para calcular la pseudoinversa.
Cuando se utiliza un conjunto fijo de funciones no lineales para transformar el valor de un punto de datos, estas funciones se conocen como funciones base . Un ejemplo es la regresión polinómica , que utiliza una función predictora lineal para ajustar una relación polinómica de grado arbitrario (hasta un orden determinado) entre dos conjuntos de puntos de datos (es decir, una única variable explicativa de valor real y una variable dependiente de valor real relacionada), añadiendo múltiples variables explicativas correspondientes a varias potencias de la variable explicativa existente. Matemáticamente, la forma se ve así:
En este caso, para cada punto de datos i , se crea un conjunto de variables explicativas de la siguiente manera:
y luego se ejecuta la regresión lineal estándar . Las funciones base en este ejemplo serían
Este ejemplo muestra que una función predictora lineal puede ser mucho más poderosa de lo que parece a primera vista: solo necesita ser lineal en los coeficientes . El modelo puede ajustar todo tipo de funciones no lineales de las variables explicativas.
No existe una necesidad particular de que las entradas de las funciones base sean univariadas o unidimensionales (ni sus salidas, en realidad, aunque en tal caso, es probable que un valor de salida K -dimensional se trate como K funciones base de salida escalar independientes). Un ejemplo de esto son las funciones base radiales (RBF), que calculan alguna versión transformada de la distancia a algún punto fijo:
Un ejemplo es la RBF gaussiana , que tiene la misma forma funcional que la distribución normal :
que disminuye rápidamente a medida que aumenta la distancia desde c .
Un posible uso de las funciones de base radial es crear una para cada punto de datos observado. Esto significa que el resultado de una función de base radial aplicada a un nuevo punto de datos será cercano a 0 a menos que el nuevo punto esté cerca del punto alrededor del cual se aplicó la función de base radial. Es decir, la aplicación de las funciones de base radiales seleccionará el punto más cercano y su coeficiente de regresión dominará. El resultado será una forma de interpolación del vecino más cercano , donde las predicciones se realizan simplemente utilizando la predicción del punto de datos observado más cercano, posiblemente interpolando entre múltiples puntos de datos cercanos cuando todos están a distancias similares. Este tipo de método del vecino más cercano para la predicción a menudo se considera diametralmente opuesto al tipo de predicción utilizado en la regresión lineal estándar: Pero, de hecho, las transformaciones que se pueden aplicar a las variables explicativas en una función predictora lineal son tan poderosas que incluso el método del vecino más cercano se puede implementar como un tipo de regresión lineal.
Incluso es posible ajustar algunas funciones que parecen no lineales en los coeficientes transformando los coeficientes en nuevos coeficientes que sí parecen lineales. Por ejemplo, una función de la forma para los coeficientes podría transformarse en la función lineal adecuada aplicando las sustituciones que conducen a que es lineal. Se podrían aplicar técnicas de regresión lineal y similares y, a menudo, todavía se encontrarán los coeficientes óptimos, pero sus estimaciones de error y demás serán incorrectas.
Las variables explicativas pueden ser de cualquier tipo : de valor real , binarias , categóricas , etc. La principal distinción es entre variables continuas (por ejemplo, ingresos, edad, presión arterial , etc.) y variables discretas (por ejemplo, sexo, raza, partido político, etc.). Las variables discretas que hacen referencia a más de dos opciones posibles se codifican normalmente utilizando variables ficticias (o variables indicadoras ), es decir, se crean variables explicativas independientes que toman el valor 0 o 1 para cada valor posible de la variable discreta, donde 1 significa "la variable tiene el valor dado" y 0 significa "la variable no tiene el valor dado". Por ejemplo, una variable discreta de cuatro vías del tipo de sangre con los valores posibles "A, B, AB, O" se convertiría en variables ficticias de dos vías independientes, "es-A, es-B, es-AB, es-O", donde solo una de ellas tiene el valor 1 y todas las demás tienen el valor 0. Esto permite que se emparejen coeficientes de regresión separados para cada valor posible de la variable discreta.
Obsérvese que, para las categorías K , no todas las variables ficticias K son independientes entre sí. Por ejemplo, en el ejemplo del tipo de sangre anterior, solo tres de las cuatro variables ficticias son independientes, en el sentido de que una vez que se conocen los valores de tres de las variables, la cuarta se determina automáticamente. Por lo tanto, en realidad solo es necesario codificar tres de las cuatro posibilidades como variables ficticias y, de hecho, si se codifican las cuatro posibilidades, el modelo general se vuelve no identificable . Esto causa problemas para varios métodos, como la solución simple de forma cerrada utilizada en la regresión lineal. La solución es evitar estos casos eliminando una de las variables ficticias y/o introducir una restricción de regularización (que requiere un método más potente, normalmente iterativo, para encontrar los coeficientes óptimos). [7]
Una ecuación de regresión simple tiene en el lado derecho una intersección y una variable explicativa con un coeficiente de pendiente. Una ecuación de regresión múltiple tiene dos o más variables explicativas en el lado derecho, cada una con su propio coeficiente de pendiente.