La regresión no paramétrica es una categoría de análisis de regresión en la que el predictor no adopta una forma predeterminada, sino que se construye de acuerdo con la información derivada de los datos. Es decir, no se supone ninguna forma paramétrica para la relación entre los predictores y la variable dependiente. La regresión no paramétrica requiere tamaños de muestra más grandes que la regresión basada en modelos paramétricos porque los datos deben proporcionar la estructura del modelo así como las estimaciones del mismo.
En la regresión no paramétrica, tenemos variables aleatorias y asumimos la siguiente relación:
donde es una función determinista. La regresión lineal es un caso restringido de regresión no paramétrica donde se supone que es afín. Algunos autores utilizan un supuesto ligeramente más fuerte de ruido aditivo:
donde la variable aleatoria es el "término de ruido", con media 0. Sin el supuesto de que pertenece a una familia paramétrica específica de funciones, es imposible obtener una estimación imparcial para , sin embargo, la mayoría de los estimadores son consistentes en condiciones adecuadas.
Ésta es una lista no exhaustiva de modelos no paramétricos para regresión.
En la regresión de proceso gaussiano, también conocida como Kriging, se supone una distribución previa gaussiana para la curva de regresión. Se supone que los errores tienen una distribución normal multivariante y la curva de regresión se estima mediante su modo posterior . La distribución previa gaussiana puede depender de hiperparámetros desconocidos, que generalmente se estiman mediante el método Bayes empírico . Los hiperparámetros generalmente especifican un núcleo de covarianza previa. En caso de que el núcleo también deba inferirse de forma no paramétrica a partir de los datos, se puede utilizar el filtro crítico .
Los splines de suavizado se interpretan como el modo posterior de una regresión de proceso gaussiano.
La regresión kernel estima la variable dependiente continua a partir de un conjunto limitado de puntos de datos mediante la convolución de las ubicaciones de los puntos de datos con una función kernel ; en términos aproximados, la función kernel especifica cómo "difuminar" la influencia de los puntos de datos para que sus valores puedan usarse para predecir el valor de las ubicaciones cercanas.
Los algoritmos de aprendizaje de árboles de decisión se pueden aplicar para aprender a predecir una variable dependiente a partir de datos. [2] Aunque la formulación original del árbol de clasificación y regresión (CART) se aplicaba únicamente a la predicción de datos univariados, el marco se puede utilizar para predecir datos multivariados, incluidas las series temporales. [3]