Validación cruzada (estadística)

La validación cruzada , ^[2]^[3]^[4] a veces llamada estimación de rotación ^[5]^[6]^[7] o prueba fuera de la muestra , es cualquiera de varias técnicas de validación de modelos similares para evaluar cómo los resultados de un análisis estadístico se generalizarán a un conjunto de datos independiente. La validación cruzada incluye métodos de remuestreo y división de muestras que utilizan diferentes porciones de los datos para probar y entrenar un modelo en diferentes iteraciones. A menudo se utiliza en entornos donde el objetivo es la predicción y se desea estimar con qué precisión funcionará un modelo predictivo en la práctica. También se puede utilizar para evaluar la calidad de un modelo ajustado y la estabilidad de sus parámetros.

En un problema de predicción, a un modelo generalmente se le proporciona un conjunto de datos conocidos en los que se ejecuta el entrenamiento ( conjunto de datos de entrenamiento ) y un conjunto de datos desconocidos (o datos vistos por primera vez ) contra los que se prueba el modelo (llamado conjunto de datos de validación o conjunto de prueba ). ^[8]^[9] El objetivo de la validación cruzada es probar la capacidad del modelo para predecir nuevos datos que no se usaron para estimarlo, con el fin de señalar problemas como sobreajuste o sesgo de selección ^[10] y dar una idea de cómo el modelo se generalizará a un conjunto de datos independiente (es decir, un conjunto de datos desconocido, por ejemplo de un problema real).

Una ronda de validación cruzada implica dividir una muestra de datos en subconjuntos complementarios , realizar el análisis en un subconjunto (llamado conjunto de entrenamiento ) y validar el análisis en el otro subconjunto (llamado conjunto de validación o conjunto de prueba ). Para reducir la variabilidad , en la mayoría de los métodos se realizan múltiples rondas de validación cruzada utilizando diferentes particiones, y los resultados de la validación se combinan (por ejemplo, se promedian) a lo largo de las rondas para brindar una estimación del rendimiento predictivo del modelo.

En resumen, la validación cruzada combina (promedia) medidas de aptitud en la predicción para derivar una estimación más precisa del desempeño de la predicción del modelo. ^[11]

Motivación

Supongamos un modelo con uno o más parámetros desconocidos y un conjunto de datos al que se puede ajustar el modelo (el conjunto de datos de entrenamiento). El proceso de ajuste optimiza los parámetros del modelo para que el modelo se ajuste a los datos de entrenamiento lo mejor posible. Si se toma una muestra independiente de datos de validación de la misma población que los datos de entrenamiento, generalmente resultará que el modelo no se ajusta a los datos de validación tan bien como se ajusta a los datos de entrenamiento. Es probable que el tamaño de esta diferencia sea grande, especialmente cuando el tamaño del conjunto de datos de entrenamiento es pequeño o cuando el número de parámetros en el modelo es grande. La validación cruzada es una forma de estimar el tamaño de este efecto.

Ejemplo: regresión lineal

En la regresión lineal, existen valores de respuesta reales y n covariables vectoriales p -dimensionales x₁ , ..., x _n . Los componentes del vector x _i se denotan x _i₁ , ..., x _ip . Si se utilizan los mínimos cuadrados para ajustar una función en forma de hiperplano ŷ = a + β^Tx a los datos ( x _i , y _i ) _{1 ≤}_i_≤_n , entonces el ajuste se puede evaluar utilizando el error cuadrático medio (MSE). El MSE para valores de parámetros estimados dados a y β en el conjunto de entrenamiento ( x _i , y _i ) _{1 ≤}_i_≤_n se define como: ${\textstyle y_{1},\ldots ,y_{n}}$

{\begin{aligned}{\text{MSE}}&={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-a-{\boldsymbol {\beta }}^{T}\mathbf {x} _{i})^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-a-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})^{2}\end{aligned}}

Si el modelo se especifica correctamente, se puede demostrar bajo suposiciones moderadas que el valor esperado del MSE para el conjunto de entrenamiento es ( n − p − 1)/( n + p + 1) < 1 veces el valor esperado del MSE para el conjunto de validación ^[12]^{[ cita irrelevante ]} (el valor esperado se toma sobre la distribución de conjuntos de entrenamiento). Por lo tanto, un modelo ajustado y un MSE calculado en el conjunto de entrenamiento darán como resultado una evaluación optimistamente sesgada de qué tan bien se ajustará el modelo a un conjunto de datos independiente. Esta estimación sesgada se denomina estimación dentro de la muestra del ajuste, mientras que la estimación de validación cruzada es una estimación fuera de la muestra .

Dado que en la regresión lineal es posible calcular directamente el factor ( n − p − 1)/( n + p + 1) por el cual el MSE de entrenamiento subestima el MSE de validación bajo el supuesto de que la especificación del modelo es válida, se puede utilizar la validación cruzada para verificar si el modelo ha sido sobreajustado , en cuyo caso el MSE en el conjunto de validación superará sustancialmente su valor anticipado. (La validación cruzada en el contexto de la regresión lineal también es útil ya que se puede utilizar para seleccionar una función de costo regularizada de manera óptima ).

Caso general

En la mayoría de los demás procedimientos de regresión (por ejemplo, la regresión logística ), no existe una fórmula sencilla para calcular el ajuste fuera de la muestra esperado. Por lo tanto, la validación cruzada es una forma generalmente aplicable de predecir el rendimiento de un modelo en datos no disponibles utilizando cálculos numéricos en lugar de análisis teóricos.

Tipos

Se pueden distinguir dos tipos de validación cruzada: validación cruzada exhaustiva y no exhaustiva.

Validación cruzada exhaustiva

Los métodos de validación cruzada exhaustivos son métodos de validación cruzada que aprenden y prueban todas las formas posibles de dividir la muestra original en un conjunto de entrenamiento y uno de validación.

Validación cruzada de dejar-p-fuera

La validación cruzada con p - out ( LpO CV ) implica el uso de p observaciones como conjunto de validación y las observaciones restantes como conjunto de entrenamiento. Esto se repite en todas las formas de cortar la muestra original en un conjunto de validación de p observaciones y un conjunto de entrenamiento. ^[13]

La validación cruzada de LpO requiere entrenamiento y validación de los tiempos del modelo, donde n es el número de observaciones en la muestra original y donde es el coeficiente binomial . Para p > 1 e incluso para n moderadamente grande , el CV de LpO puede volverse computacionalmente inviable. Por ejemplo, con n = 100 y p = 30, $Estilo de visualización C_{p}^{n}}$ $Estilo de visualización C_{p}^{n}}$ $C_{30}^{100}\aprox. 3\veces 10^{25}.$

Se ha recomendado una variante de la validación cruzada de LpO con p = 2, conocida como validación cruzada leave-pair-out, como un método casi imparcial para estimar el área bajo la curva ROC de los clasificadores binarios. ^[14]

Validación cruzada con opción de dejar uno fuera

Ilustración de validación cruzada con exclusión de uno (LOOCV) cuando n = 8 observaciones. Se entrenarán y probarán un total de 8 modelos.

La validación cruzada de dejar uno fuera ( LOOCV ) es un caso particular de validación cruzada de dejar p fuera con p = 1. El proceso parece similar al de jackknife ; sin embargo, con la validación cruzada se calcula una estadística sobre la(s) muestra(s) excluida(s), mientras que con jackknifing se calcula una estadística solo a partir de las muestras conservadas.

La validación cruzada LOO requiere menos tiempo de cálculo que la validación cruzada LpO porque solo hay pases en lugar de . Sin embargo, los pases pueden requerir un tiempo de cálculo bastante grande, en cuyo caso otros enfoques como la validación cruzada k-fold pueden ser más apropiados. ^[15] $Estilo de visualización C_{1}^{n}=n}$ $Estilo de visualización C_{p}^{n}}$ ${\estilo de visualización n}$

Algoritmo de pseudocódigo:

Aporte:

x, {vector de longitud Ncon valores x de los puntos entrantes}

y, {vector de longitud Ncon valores y del resultado esperado}

interpolate( x_in, y_in, x_out ), { devuelve la estimación del punto x_outdespués de que el modelo se entrena con x_in- y_inpares}

Producción:

err, {estimación del error de predicción}

Pasos:

errar ← 0 para i ← 1, ..., N hacer // definir los subconjuntos de validación cruzada x_en ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N]) y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N]) x_fuera ← x[i] y_salida ← interpolar(x_entrada, y_entrada, x_salida) errar ← errar + (y[i] − y_out)^2 fin para errar ← errar/N

Validación cruzada no exhaustiva

Los métodos de validación cruzada no exhaustivos no calculan todas las formas de dividir la muestra original. Estos métodos son aproximaciones de la validación cruzada con exclusión de p .

a-validación cruzada de pliegues

Ilustración de validación cruzada de k-fold cuando n = 12 observaciones y k = 3. Después de mezclar los datos, se entrenarán y probarán un total de 3 modelos.

En la validación cruzada de k pliegues, la muestra original se divide aleatoriamente en k submuestras de igual tamaño, a menudo denominadas "pliegues". De las k submuestras, se conserva una sola submuestra como datos de validación para probar el modelo, y las k − 1 submuestras restantes se utilizan como datos de entrenamiento. El proceso de validación cruzada se repite k veces, y cada una de las k submuestras se utiliza exactamente una vez como datos de validación. Los k resultados se pueden promediar para producir una única estimación. La ventaja de este método sobre el submuestreo aleatorio repetido (ver a continuación) es que todas las observaciones se utilizan tanto para el entrenamiento como para la validación, y cada observación se utiliza para la validación exactamente una vez. La validación cruzada de 10 pliegues se utiliza comúnmente, ^[16] pero, en general, k sigue siendo un parámetro no fijo.

Por ejemplo, si se establece k = 2 , se obtiene una validación cruzada doble. En la validación cruzada doble, mezclamos aleatoriamente el conjunto de datos en dos conjuntos d ₀ y d ₁ , de modo que ambos conjuntos tengan el mismo tamaño (esto se suele implementar mezclando la matriz de datos y luego dividiéndola en dos). Luego, entrenamos en d ₀ y validamos en d ₁ , seguido de un entrenamiento en d ₁ y una validación en d ₀ .

Cuando k = n (el número de observaciones), la validación cruzada de k veces es equivalente a la validación cruzada de dejar uno fuera. ^[17]

En la validación cruzada estratificada de k -fold, las particiones se seleccionan de modo que el valor de respuesta promedio sea aproximadamente igual en todas ellas. En el caso de la clasificación binaria, esto significa que cada partición contiene aproximadamente las mismas proporciones de los dos tipos de etiquetas de clase.

En la validación cruzada repetida , los datos se dividen aleatoriamente en k particiones varias veces. De este modo, el rendimiento del modelo se puede promediar en varias ejecuciones, pero esto rara vez es deseable en la práctica. ^[18]

Cuando se consideran muchos modelos estadísticos o de aprendizaje automático diferentes, se puede utilizar una validación cruzada k -fold codiciosa para identificar rápidamente los modelos candidatos más prometedores. ^[19]

Método de retención

En el método de retención, asignamos aleatoriamente puntos de datos a dos conjuntos d ₀ y d ₁ , generalmente llamados conjunto de entrenamiento y conjunto de prueba, respectivamente. El tamaño de cada uno de los conjuntos es arbitrario, aunque normalmente el conjunto de prueba es más pequeño que el conjunto de entrenamiento. Luego, entrenamos (construimos un modelo) en d ₀ y probamos (evaluamos su rendimiento) en d ₁ .

En la validación cruzada típica, los resultados de múltiples ejecuciones de pruebas de modelos se promedian juntos; en cambio, el método de retención, de manera aislada, implica una sola ejecución. Debe utilizarse con precaución porque sin ese promedio de múltiples ejecuciones, se pueden obtener resultados altamente engañosos. El indicador de precisión predictiva (F*) tenderá a ser inestable, ya que no se suavizará con múltiples iteraciones (ver más abajo). De manera similar, los indicadores del papel específico desempeñado por varias variables predictoras (por ejemplo, valores de coeficientes de regresión) tenderán a ser inestables.

Si bien el método de retención puede enmarcarse como "el tipo más simple de validación cruzada", ^[20] muchas fuentes clasifican en cambio el método de retención como un tipo de validación simple, en lugar de una forma simple o degenerada de validación cruzada. ^[6]^[21]

Validación de submuestreo aleatorio repetido

Este método, también conocido como validación cruzada de Monte Carlo , ^[22]^[23] crea múltiples divisiones aleatorias del conjunto de datos en datos de entrenamiento y validación. ^[24] Para cada una de estas divisiones, el modelo se ajusta a los datos de entrenamiento y se evalúa la precisión predictiva utilizando los datos de validación. Luego, los resultados se promedian sobre las divisiones. La ventaja de este método (sobre la validación cruzada k -fold) es que la proporción de la división de entrenamiento/validación no depende del número de iteraciones (es decir, el número de particiones). La desventaja de este método es que algunas observaciones pueden no seleccionarse nunca en la submuestra de validación, mientras que otras pueden seleccionarse más de una vez. En otras palabras, los subconjuntos de validación pueden superponerse. Este método también exhibe variación de Monte Carlo , lo que significa que los resultados variarán si el análisis se repite con diferentes divisiones aleatorias.

A medida que el número de divisiones aleatorias se acerca al infinito, el resultado de la validación de submuestreo aleatorio repetido tiende hacia el de la validación cruzada de tipo leave-p-out.

En una variante estratificada de este enfoque, las muestras aleatorias se generan de tal manera que el valor de respuesta promedio (es decir, la variable dependiente en la regresión) sea igual en los conjuntos de entrenamiento y de prueba. Esto es particularmente útil si las respuestas son dicotómicas con una representación desequilibrada de los dos valores de respuesta en los datos.

Un método que aplica submuestreo aleatorio repetido es RANSAC . ^[25]

Validación cruzada anidada

Cuando se utiliza la validación cruzada simultáneamente para la selección del mejor conjunto de hiperparámetros y para la estimación de errores (y la evaluación de la capacidad de generalización), se requiere una validación cruzada anidada. Existen muchas variantes. Se pueden distinguir al menos dos variantes:

Validación cruzada de k*l-fold

Esta es una variante verdaderamente anidada que contiene un bucle externo de k conjuntos y un bucle interno de l conjuntos. El conjunto de datos total se divide en k conjuntos. Uno por uno, se selecciona un conjunto como el conjunto de prueba (externo) y los k - 1 conjuntos restantes se combinan en el conjunto de entrenamiento externo correspondiente. Esto se repite para cada uno de los k conjuntos. Cada conjunto de entrenamiento externo se subdivide a su vez en l conjuntos. Uno por uno, se selecciona un conjunto como conjunto de prueba (validación) interno y los l - 1 conjuntos restantes se combinan en el conjunto de entrenamiento interno correspondiente. Esto se repite para cada uno de los l conjuntos. Los conjuntos de entrenamiento internos se utilizan para ajustar los parámetros del modelo, mientras que el conjunto de prueba externo se utiliza como un conjunto de validación para proporcionar una evaluación imparcial del ajuste del modelo. Normalmente, esto se repite para muchos hiperparámetros diferentes (o incluso diferentes tipos de modelos) y el conjunto de validación se utiliza para determinar el mejor conjunto de hiperparámetros (y tipo de modelo) para este conjunto de entrenamiento interno. Después de esto, se ajusta un nuevo modelo a todo el conjunto de entrenamiento externo, utilizando el mejor conjunto de hiperparámetros de la validación cruzada interna. El rendimiento de este modelo se evalúa luego utilizando el conjunto de prueba externo.

Validación cruzada de k-fold con conjunto de validación y prueba

Este es un tipo de validación cruzada k*l-fold cuando l = k - 1. Se utiliza una única validación cruzada k-fold con un conjunto de validación y uno de prueba . El conjunto de datos total se divide en k conjuntos. Uno por uno, se selecciona un conjunto como conjunto de prueba. Luego, uno por uno, uno de los conjuntos restantes se utiliza como conjunto de validación y los otros k - 2 conjuntos se utilizan como conjuntos de entrenamiento hasta que se hayan evaluado todas las combinaciones posibles. De manera similar a la validación cruzada k*l-fold, el conjunto de entrenamiento se utiliza para el ajuste del modelo y el conjunto de validación se utiliza para la evaluación del modelo para cada uno de los conjuntos de hiperparámetros. Finalmente, para el conjunto de parámetros seleccionado, el conjunto de prueba se utiliza para evaluar el modelo con el mejor conjunto de parámetros. Aquí, son posibles dos variantes: evaluar el modelo que se entrenó en el conjunto de entrenamiento o evaluar un nuevo modelo que se ajustó a la combinación del conjunto de entrenamiento y validación.

Medidas de ajuste

El objetivo de la validación cruzada es estimar el nivel esperado de ajuste de un modelo a un conjunto de datos que es independiente de los datos que se usaron para entrenar el modelo. Se puede utilizar para estimar cualquier medida cuantitativa de ajuste que sea apropiada para los datos y el modelo. Por ejemplo, para problemas de clasificación binaria , cada caso en el conjunto de validación se predice correctamente o incorrectamente. En esta situación, la tasa de error de clasificación errónea se puede utilizar para resumir el ajuste, aunque también se podrían utilizar otras medidas derivadas de la información (por ejemplo, recuentos, frecuencia) contenida dentro de una tabla de contingencia o matriz de confusión . Cuando el valor que se predice se distribuye de forma continua, se podrían utilizar el error cuadrático medio , el error cuadrático medio de la raíz cuadrada o la desviación absoluta mediana para resumir los errores.

Utilizando información previa

Cuando los usuarios aplican la validación cruzada para seleccionar una buena configuración , es posible que quieran equilibrar la elección validada cruzada con su propia estimación de la configuración. De esta manera, pueden intentar contrarrestar la volatilidad de la validación cruzada cuando el tamaño de la muestra es pequeño e incluir información relevante de investigaciones anteriores. En un ejercicio de combinación de pronósticos, por ejemplo, se puede aplicar la validación cruzada para estimar los pesos que se asignan a cada pronóstico. Dado que un pronóstico simple con ponderaciones iguales es difícil de superar, se puede agregar una penalización por desviarse de los pesos iguales. ^[26] O, si se aplica la validación cruzada para asignar pesos individuales a las observaciones, entonces se pueden penalizar las desviaciones de los pesos iguales para evitar desperdiciar información potencialmente relevante. ^[26] Hoornweg (2018) muestra cómo se puede definir un parámetro de ajuste para que un usuario pueda equilibrar intuitivamente entre la precisión de la validación cruzada y la simplicidad de ceñirse a un parámetro de referencia definido por el usuario. ${\estilo de visualización \lambda}$ ${\estilo de visualización \gamma}$ $\lambda _{R}$

Si denota la configuración candidata que podría seleccionarse, entonces la función de pérdida que se debe minimizar se puede definir como $\lambda _{i}$ $i^{ésimo}$

L_{\lambda _{i}}=(1-\gamma ){\mbox{ Precisión relativa}}_{i}+\gamma {\mbox{ Simplicidad relativa}}_{i}.

La precisión relativa se puede cuantificar como , de modo que el error cuadrático medio de un candidato se realiza en relación con el de un especificado por el usuario . El término de simplicidad relativa mide la cantidad que se desvía de en relación con la cantidad máxima de desviación de . En consecuencia, la simplicidad relativa se puede especificar como , donde corresponde al valor con la desviación máxima permitida de . Con , el usuario determina qué tan alta es la influencia del parámetro de referencia en relación con la validación cruzada. ${\mbox{MSE}}(\lambda _{i})/{\mbox{MSE}}(\lambda _{R})$ $\lambda _{i}$ $\lambda _{R}$ $\lambda _{i}$ $\lambda _{R}$ $\lambda _{R}$ ${\frac {(\lambda _{i}-\lambda _{R})^{2}}{(\lambda _{\max }-\lambda _{R})^{2}}}$ $\lambda _{\max }$ ${\estilo de visualización \lambda}$ $\lambda _{R}$ $\gamma \en [0,1]$

Se pueden agregar términos de simplicidad relativa para múltiples configuraciones especificando la función de pérdida como $c=1,2,...,C$

L_{\lambda _{i}}={\mbox{ Relative Accuracy}}_{i}+\sum _{c=1}^{C}{\frac {\gamma _{c}}{1-\gamma _{c}}}{\mbox{ Relative Simplicity}}_{i,c}.

Hoornweg (2018) muestra que una función de pérdida con un equilibrio entre precisión y simplicidad también se puede utilizar para definir intuitivamente estimadores de contracción como el lazo (adaptativo) y la regresión bayesiana / ridge . ^[26] Haga clic en el lazo para ver un ejemplo.

Propiedades estadísticas

Supongamos que elegimos una medida de ajuste F y utilizamos la validación cruzada para producir una estimación F ^* del ajuste esperado EF de un modelo a un conjunto de datos independientes extraídos de la misma población que los datos de entrenamiento. Si imaginamos muestrear múltiples conjuntos de entrenamiento independientes que siguen la misma distribución, los valores resultantes para F ^* variarán. Las propiedades estadísticas de F ^* resultan de esta variación.

La varianza de F ^* puede ser grande. ^[27]^[28] Por esta razón, si se comparan dos procedimientos estadísticos en función de los resultados de la validación cruzada, el procedimiento con el mejor desempeño estimado puede no ser en realidad el mejor de los dos procedimientos (es decir, puede no tener el mejor valor de EF ). Se han logrado algunos avances en la construcción de intervalos de confianza en torno a las estimaciones de validación cruzada, ^[27] pero se considera que este es un problema difícil.

Problemas computacionales

La mayoría de las formas de validación cruzada son sencillas de implementar siempre que esté disponible una implementación del método de predicción que se está estudiando. En particular, el método de predicción puede ser una "caja negra": no es necesario tener acceso a los elementos internos de su implementación. Si el método de predicción es costoso de entrenar, la validación cruzada puede ser muy lenta ya que el entrenamiento debe realizarse repetidamente. En algunos casos, como los mínimos cuadrados y la regresión kernel , la validación cruzada se puede acelerar significativamente al calcular previamente ciertos valores que se necesitan repetidamente en el entrenamiento, o al usar "reglas de actualización" rápidas como la fórmula de Sherman-Morrison . Sin embargo, se debe tener cuidado de preservar el "cegamiento total" del conjunto de validación del procedimiento de entrenamiento, de lo contrario puede resultar un sesgo. Un ejemplo extremo de aceleración de la validación cruzada ocurre en la regresión lineal , donde los resultados de la validación cruzada tienen una expresión de forma cerrada conocida como suma de cuadrados del error residual de predicción ( PRESS ).

Limitaciones y mal uso

La validación cruzada solo produce resultados significativos si el conjunto de validación y el conjunto de entrenamiento provienen de la misma población y solo si se controlan los sesgos humanos.

En muchas aplicaciones de modelado predictivo, la estructura del sistema que se estudia evoluciona con el tiempo (es decir, no es estacionaria). Ambos factores pueden introducir diferencias sistemáticas entre los conjuntos de entrenamiento y validación. Por ejemplo, si un modelo para predecir valores bursátiles se entrena con datos correspondientes a un período de cinco años determinado, no es realista tratar el período de cinco años posterior como una extracción de la misma población. Como otro ejemplo, supongamos que se desarrolla un modelo para predecir el riesgo de que un individuo sea diagnosticado con una enfermedad particular en el transcurso del año siguiente. Si el modelo se entrena utilizando datos de un estudio que involucra solo a un grupo de población específico (por ejemplo, jóvenes u hombres), pero luego se aplica a la población general, los resultados de la validación cruzada del conjunto de entrenamiento podrían diferir en gran medida del rendimiento predictivo real.

En muchas aplicaciones, los modelos también pueden estar incorrectamente especificados y variar en función de los sesgos del modelador y/o de las elecciones arbitrarias. Cuando esto ocurre, puede haber una ilusión de que el sistema cambia en muestras externas, mientras que la razón es que el modelo ha pasado por alto un predictor crítico y/o ha incluido un predictor confundido. Nueva evidencia es que la validación cruzada por sí misma no es muy predictiva de la validez externa, mientras que una forma de validación experimental conocida como muestreo de intercambio que sí controla el sesgo humano puede ser mucho más predictiva de la validez externa. ^[29] Como se define en este gran estudio MAQC-II en 30.000 modelos, el muestreo de intercambio incorpora la validación cruzada en el sentido de que las predicciones se prueban en muestras de entrenamiento y validación independientes. Sin embargo, los modelos también se desarrollan en estas muestras independientes y por modeladores que no se conocen entre sí. Cuando hay un desajuste en estos modelos desarrollados en estas muestras de entrenamiento y validación intercambiadas, como sucede con bastante frecuencia, MAQC-II muestra que esto será mucho más predictivo de una validez predictiva externa deficiente que la validación cruzada tradicional.

El motivo del éxito del muestreo intercambiado es un control incorporado de los sesgos humanos en la construcción de modelos. Además de depositar demasiada fe en predicciones que pueden variar entre los modeladores y dar lugar a una validez externa deficiente debido a estos efectos de confusión del modelador, estas son otras formas en las que se puede hacer un mal uso de la validación cruzada:

Realizando un análisis inicial para identificar las características más informativas utilizando todo el conjunto de datos (si el procedimiento de modelado requiere la selección de características o el ajuste del modelo, esto debe repetirse en cada conjunto de entrenamiento. De lo contrario, las predicciones seguramente estarán sesgadas al alza). ^[30] Si se utiliza la validación cruzada para decidir qué características utilizar, se debe realizar una validación cruzada interna para llevar a cabo la selección de características en cada conjunto de entrenamiento. ^[31]
Realizar centrado de media, reescalado, reducción de dimensionalidad, eliminación de valores atípicos o cualquier otro preprocesamiento dependiente de los datos utilizando el conjunto de datos completo. Si bien es muy común en la práctica, se ha demostrado que esto introduce sesgos en las estimaciones de validación cruzada. ^[32]
Al permitir que algunos de los datos de entrenamiento también se incluyan en el conjunto de prueba, esto puede suceder debido a un "hermanamiento" en el conjunto de datos, por el cual algunas muestras exactamente idénticas o casi idénticas están presentes en el conjunto de datos. Hasta cierto punto, el hermanamiento siempre tiene lugar incluso en muestras de entrenamiento y validación perfectamente independientes. Esto se debe a que algunas de las observaciones de la muestra de entrenamiento tendrán valores casi idénticos de predictores que las observaciones de la muestra de validación. Y algunos de estos se correlacionarán con un objetivo en niveles mejores que el azar en la misma dirección tanto en el entrenamiento como en la validación cuando en realidad están impulsados por predictores confundidos con una validez externa deficiente. Si se selecciona un modelo de validación cruzada de este tipo de un conjunto de k pliegues, el sesgo de confirmación humana estará en funcionamiento y determinará que dicho modelo ha sido validado. Es por eso que la validación cruzada tradicional debe complementarse con controles para el sesgo humano y la especificación del modelo confundido, como el muestreo de intercambio y los estudios prospectivos.

Validación cruzada para modelos de series temporales

Dado que el orden de los datos es importante, la validación cruzada ^{[ especificar ]} puede resultar problemática para los modelos de series temporales . Un enfoque más adecuado podría ser el uso de la validación cruzada continua. ^[33]

Sin embargo, si el rendimiento se describe mediante una única estadística de resumen , es posible que funcione el enfoque descrito por Politis y Romano como un bootstrap estacionario ^[34] . La estadística del bootstrap debe aceptar un intervalo de la serie temporal y devolver la estadística de resumen correspondiente. La llamada al bootstrap estacionario debe especificar una longitud de intervalo medio adecuada.

Aplicaciones

La validación cruzada se puede utilizar para comparar los rendimientos de diferentes procedimientos de modelado predictivo. Por ejemplo, supongamos que estamos interesados en el reconocimiento óptico de caracteres y estamos considerando utilizar una máquina de vectores de soporte (SVM) o k -vecinos más cercanos (KNN) para predecir el carácter verdadero a partir de una imagen de un carácter escrito a mano. Mediante la validación cruzada, podemos obtener estimaciones empíricas comparando estos dos métodos en términos de sus respectivas fracciones de caracteres mal clasificados. Por el contrario, la estimación dentro de la muestra no representará la cantidad de interés (es decir, el error de generalización). ^[35]

La validación cruzada también se puede utilizar en la selección de variables . ^[36] Supongamos que estamos utilizando los niveles de expresión de 20 proteínas para predecir si un paciente con cáncer responderá a un fármaco . Un objetivo práctico sería determinar qué subconjunto de las 20 características debería utilizarse para producir el mejor modelo predictivo. Para la mayoría de los procedimientos de modelado, si comparamos subconjuntos de características utilizando las tasas de error en la muestra, el mejor rendimiento se producirá cuando se utilicen las 20 características. Sin embargo, bajo la validación cruzada, el modelo con el mejor ajuste generalmente incluirá solo un subconjunto de las características que se consideran verdaderamente informativas.

Un desarrollo reciente en las estadísticas médicas es su uso en el metanálisis. Forma la base de la estadística de validación, Vn, que se utiliza para probar la validez estadística de las estimaciones resumidas del metanálisis. ^[37] También se ha utilizado en un sentido más convencional en el metanálisis para estimar el error de predicción probable de los resultados del metanálisis. ^[38]

Véase también

Wikimedia Commons tiene medios relacionados con Validación cruzada (estadística) .

Notas y referencias

^ Piryonesi S. Madeh; El-Diraby Tamer E. (1 de marzo de 2020). "Análisis de datos en la gestión de activos: predicción rentable del índice de condición del pavimento". Journal of Infrastructure Systems . 26 (1): 04019036. doi :10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
^ Allen, David M (1974). "La relación entre la selección de variables y la argumentación de datos y un método para la predicción". Technometrics . 16 (1): 125–127. doi :10.2307/1267500. JSTOR 1267500.
^ Stone, M (1974). "Elección y evaluación de predicciones estadísticas mediante validación cruzada". Revista de la Royal Statistical Society, Serie B (Metodológica) . 36 (2): 111–147. doi :10.1111/j.2517-6161.1974.tb00994.x. S2CID 62698647.
^ Stone, M (1977). "Equivalencia asintótica de la elección del modelo mediante validación cruzada y el criterio de Akaike". Revista de la Royal Statistical Society, Serie B (Metodológica) . 39 (1): 44–47. doi :10.1111/j.2517-6161.1977.tb01603.x. JSTOR 2984877.
^ Geisser, Seymour (1993). Inferencia predictiva . Nueva York, NY: Chapman and Hall. ISBN 978-0-412-03471-8.
^ ab Kohavi, Ron (1995). "Un estudio de validación cruzada y bootstrap para la estimación de precisión y la selección de modelos". Actas de la Decimocuarta Conferencia Conjunta Internacional sobre Inteligencia Artificial . 2 (12). San Mateo, CA: Morgan Kaufmann: 1137–1143. CiteSeerX 10.1.1.48.529 .
^ Devijver, Pierre A.; Kittler, Josef (1982). Reconocimiento de patrones: un enfoque estadístico . Londres, GB: Prentice-Hall. ISBN 0-13-654236-0.
^ Galkin, Alexander (28 de noviembre de 2011). "¿Cuál es la diferencia entre un conjunto de prueba y un conjunto de validación?". Cross Validated . Stack Exchange . Consultado el 10 de octubre de 2018 .
^ "Pregunta de novato: ¿Confundido sobre los datos de entrenamiento, validación y prueba?". Heaton Research . Diciembre de 2010. Archivado desde el original el 14 de marzo de 2015. Consultado el 14 de noviembre de 2013 .
^ Cawley, Gavin C.; Talbot, Nicola LC (2010). "Sobre el sobreajuste en la selección de modelos y el sesgo de selección posterior en la evaluación del rendimiento" (PDF) . Journal of Machine Learning Research . 11 : 2079–2107. Archivado (PDF) desde el original el 4 de febrero de 2024.
^ Grossman, Robert; Seni, Giovanni; Elder, John; Agarwal, Nitin; Liu, Huan (2010). "Métodos de conjunto en minería de datos: mejora de la precisión mediante la combinación de predicciones". Conferencias de síntesis sobre minería de datos y descubrimiento de conocimiento . 2 . Morgan y Claypool: 1–126. doi :10.2200/S00240ED1V01Y200912DMK002.
^ Trippa, Lorenzo; Waldron, Levi; Huttenhower, Curtis; Parmigiani, Giovanni (marzo de 2015). "Validación no paramétrica bayesiana de métodos de predicción en estudios cruzados". Anales de estadística aplicada . 9 (1): 402–428. arXiv : 1506.00474 . Código Bibliográfico :2015arXiv150600474T. doi :10.1214/14-AOAS798. ISSN 1932-6157. S2CID 51943497.
^ Celisse, Alain (1 de octubre de 2014). "Validación cruzada óptima en la estimación de densidad con la pérdida $L^{2}$". Anales de Estadística . 42 (5): 1879–1910. arXiv : 0811.0802 . doi :10.1214/14-AOS1240. ISSN 0090-5364. S2CID 17833620.
^ Airola, A.; Pahikkala, T.; Waegeman, W.; De Baets, Bernard; Salakoski, T. (1 de abril de 2011). "Una comparación experimental de técnicas de validación cruzada para estimar el área bajo la curva ROC". Computational Statistics & Data Analysis . 55 (4): 1828–1844. doi :10.1016/j.csda.2010.11.018.
^ Molinaro, AM; Simon, R.; Pfeiffer, RM (1 de agosto de 2005). "Estimación del error de predicción: una comparación de métodos de remuestreo". Bioinformática . 21 (15): 3301–3307. doi : 10.1093/bioinformatics/bti499 . ISSN 1367-4803. PMID 15905277.
^ McLachlan, Geoffrey J.; Do, Kim-Anh ; Ambroise, Christophe (2004). Análisis de datos de expresión génica de microarrays . Wiley.
^ "Elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Segunda edición". web.stanford.edu . Consultado el 4 de abril de 2019 .
^ Vanwinckelen, Gitte (2 de octubre de 2019). Sobre la estimación de la precisión del modelo con validación cruzada repetida. pp. 39–44. ISBN 9789461970442.
^ Soper, Daniel S. (2021). "La avaricia es buena: optimización rápida de hiperparámetros y selección de modelos mediante validación cruzada de k-fold codiciosa" (PDF) . Electrónica . 10 (16): 1973. doi : 10.3390/electronics10161973 .
^ "Validación cruzada" . Consultado el 11 de noviembre de 2012 .
^ Arlot, Sylvain; Celisse, Alain (2010). "Un estudio de los procedimientos de validación cruzada para la selección de modelos". Encuestas estadísticas . 4 : 40–79. arXiv : 0907.4728 . doi :10.1214/09-SS054. S2CID 14332192. En resumen, la CV consiste en promediar varios estimadores de retención del riesgo correspondientes a diferentes divisiones de datos.
^ Xu, Qing-Song; Liang, Yi-Zeng (abril de 2001). "Validación cruzada de Monte Carlo". Quimiometría y sistemas de laboratorio inteligentes . 56 (1): 1–11. doi :10.1016/S0169-7439(00)00122-2.
^ Dubitzky, Werner; Granzow, Martin; Berrar, Daniel (2007). Fundamentos de la minería de datos en genómica y proteómica . Springer Science & Business Media. pág. 178.
^ Kuhn, Max; Johnson, Kjell (2013). Modelado predictivo aplicado . Nueva York, NY: Springer New York. doi :10.1007/978-1-4614-6849-3. ISBN 9781461468486.
^ Cantzler, H. "Random Sample Consensus (RANSAC)". Instituto de Percepción, Acción y Comportamiento, División de Informática, Universidad de Edimburgo. CiteSeerX 10.1.1.106.3035 . Archivado desde el original el 4 de febrero de 2023.
^ abc Hoornweg, Victor (2018). Ciencia: en proceso de presentación. Hoornweg Press. ISBN 978-90-829188-0-9.
^ ab Efron, Bradley; Tibshirani, Robert (1997). "Mejoras en la validación cruzada: el método .632 + Bootstrap". Revista de la Asociación Estadounidense de Estadística . 92 (438): 548–560. doi :10.2307/2965703. JSTOR 2965703. MR 1467848.
^ Stone, Mervyn (1977). "Asintóticos a favor y en contra de la validación cruzada". Biometrika . 64 (1): 29–35. doi :10.1093/biomet/64.1.29. JSTOR 2335766. MR 0474601.
^ Consorcio, MAQC (2010). "Estudio de control de calidad de microarrays (MAQC)-II sobre prácticas comunes para el desarrollo y validación de modelos predictivos basados en microarrays". Nature Biotechnology . 28 (8). Londres: Nature Publishing Group: 827–838. doi :10.1038/nbt.1665. PMC 3315840 . PMID 20676074.
^ Bermingham, Mairead L.; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F.; Wilson, James F.; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). "Aplicación de la selección de características de alta dimensión: evaluación para la predicción genómica en el hombre". Sci. Rep. 5 : 10312. Bibcode :2015NatSR...510312B. doi :10.1038/srep10312. PMC 4437376. PMID 25988841 .
^ Varma, Sudhir; Simon, Richard (2006). "Sesgo en la estimación del error al utilizar la validación cruzada para la selección de modelos". BMC Bioinformatics . 7 : 91. doi : 10.1186/1471-2105-7-91 . PMC 1397873 . PMID 16504092.
^ Moscovich, Amit; Rosset, Saharon (1 de septiembre de 2022). "Sobre el sesgo de validación cruzada debido al preprocesamiento no supervisado". Revista de la Royal Statistical Society Serie B: Metodología estadística . 84 (4): 1474–1502. arXiv : 1901.08974 . doi :10.1111/rssb.12537. S2CID 215745385.
^ Bergmeir, Christopher; Benítez, José (2012). "Sobre el uso de la validación cruzada para la evaluación de predictores de series temporales". Ciencias de la Información . 191 : 192–213. doi :10.1016/j.ins.2011.12.028 – vía Elsevier Science Direct.
^ Politis, Dimitris N.; Romano, Joseph P. (1994). "El arranque estacionario". Revista de la Asociación Estadounidense de Estadística . 89 (428): 1303–1313. doi :10.1080/01621459.1994.10476870. hdl : 10983/25607 .
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Springer. ISBN 978-0-387-84884-6.
^ Picard, Richard; Cook, Dennis (1984). "Validación cruzada de modelos de regresión". Revista de la Asociación Estadounidense de Estadística . 79 (387): 575–583. doi :10.2307/2288403. JSTOR 2288403.
^ Willis BH, Riley RD (2017). "Medición de la validez estadística de los resultados resumidos de metanálisis y metarregresión para su uso en la práctica clínica". Estadísticas en Medicina . 36 (21): 3283–3301. doi :10.1002/sim.7372. PMC 5575530 . PMID 28620945.
^ Riley RD, Ahmed I, Debray TP, Willis BH, Noordzij P, Higgins JP, Deeks JJ (2015). "Resumen y validación de los resultados de la precisión de las pruebas en múltiples estudios para su uso en la práctica clínica". Estadísticas en Medicina . 34 (13): 2081–2103. doi :10.1002/sim.6471. PMC 4973708 . PMID 25800943.