Regla de uno de cada diez

En estadística , la regla de uno entre diez es una regla general sobre cuántos parámetros predictivos se pueden estimar a partir de datos al realizar análisis de regresión (en particular, modelos de riesgos proporcionales en análisis de supervivencia y regresión logística ), manteniendo al mismo tiempo el riesgo de sobreajuste y encontrar correlaciones espurias. bajo. La regla establece que se puede estudiar una variable predictiva por cada diez eventos. ^[1]^[2]^[3]^[4] Para la regresión logística, el número de eventos viene dado por el tamaño de la más pequeña de las categorías de resultados, y para el análisis de supervivencia, viene dado por el número de eventos no censurados . ^[3]

Por ejemplo, si se estudia una muestra de 200 pacientes y 20 pacientes mueren durante el estudio (de modo que 180 pacientes sobreviven), la regla de uno entre diez implica que se pueden ajustar de manera confiable dos predictores preespecificados a los datos totales. De manera similar, si 100 pacientes mueren durante el estudio (de modo que 100 pacientes sobrevivan), se pueden ajustar de manera confiable diez predictores preespecificados. Si se ajustan más, la regla implica que es probable un sobreajuste y los resultados no predecirán bien fuera de los datos de entrenamiento . No es raro ver que se viola la regla 1:10 en campos con muchas variables (por ejemplo, estudios de expresión genética en cáncer), lo que disminuye la confianza en los hallazgos reportados. ^[5]

Mejoras

Se ha sugerido una "regla de uno entre 20", que indica la necesidad de reducir los coeficientes de regresión, y una "regla de uno entre 50" para la selección gradual con el valor p predeterminado del 5%. ^[4]^[6] Otros estudios, sin embargo, muestran que la regla de uno entre diez puede ser demasiado conservadora como recomendación general y que de cinco a nueve eventos por predictor pueden ser suficientes, dependiendo de la pregunta de investigación. ^[7]

Más recientemente, un estudio ha demostrado que la proporción de eventos por variable predictiva no es una estadística confiable para estimar el número mínimo de eventos para estimar un modelo de predicción logística. ^[8] En cambio, el número de variables predictivas, el tamaño total de la muestra (eventos + no eventos) y la fracción de eventos (eventos/tamaño total de la muestra) se pueden utilizar para calcular el error de predicción esperado del modelo que se va a desarrollar. . ^[9] Luego se puede estimar el tamaño de muestra requerido para lograr un error de predicción esperado que sea menor que un valor de error de predicción permitido predeterminado. ^[9]

Alternativamente, se han sugerido tres requisitos para la estimación del modelo de predicción: el modelo debe tener un factor de contracción global de ≥ 0,9, una diferencia absoluta de ≤ 0,05 en el Nagelkerke R ² aparente y ajustado del modelo , y una estimación precisa del riesgo global. o tasa en la población objetivo. ^[10] El tamaño de muestra necesario y el número de eventos para el desarrollo del modelo vienen dados por los valores que cumplen estos requisitos. ^[10]

Literatura

David A. Freedman (1983) Una nota sobre la detección de ecuaciones de regresión, The American Statistician, 37:2, 152-155, doi :10.1080/00031305.1983.10482729

Referencias

^ Harrell, FE hijo; Lee, KL; Califf, RM; Prior, DB; Rosati, RA (1984). "Estrategias de modelado de regresión para mejorar la predicción del pronóstico". Estadísticas médicas . 3 (2): 143–52. doi :10.1002/sim.4780030207. PMID 6463451.
^ Harrell, FE hijo; Lee, KL; Marcos, DB (1996). "Modelos de pronóstico multivariable: problemas en el desarrollo de modelos, evaluación de supuestos y adecuación, y medición y reducción de errores" (PDF) . Estadísticas médicas . 15 (4): 361–87. doi :10.1002/(sici)1097-0258(19960229)15:4<361::aid-sim168>3.0.co;2-4. PMID 8668867.
^ ab Peduzzi, Peter; Concato, Juan; Kemper, Isabel; Holford, Theodore R.; Feinstein, Alvan R. (1996). "Un estudio de simulación del número de eventos por variable en análisis de regresión logística". Revista de epidemiología clínica . 49 (12): 1373-1379. doi : 10.1016/s0895-4356(96)00236-3 . PMID 8970487.
^ ab "Capítulo 8: Modelos estadísticos de pronóstico: problemas con los modelos de regresión". Archivado desde el original el 31 de octubre de 2004 . Consultado el 11 de octubre de 2013 .{{cite web}}: Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace )
^ Ernest S. Shtatland, Ken Kleinman, Emily M. Cain. Construcción de modelos en Proc PHREG con selección automática de variables y criterios de información. Documento 206–30 en SUGI 30 Proceedings, Filadelfia, Pensilvania, 10 al 13 de abril de 2005. http://www2.sas.com/proceedings/sugi30/206-30.pdf
^ Steyerberg, EW; Eijkemans, MJ; Harrell, FE Jr.; Habbema, JD (2000). "Modelado de pronóstico con análisis de regresión logística: una comparación de métodos de selección y estimación en pequeños conjuntos de datos". Estadísticas médicas . 19 (8): 1059–1079. doi :10.1002/(sici)1097-0258(20000430)19:8<1059::aid-sim412>3.0.co;2-0. PMID 10790680.
^ Vittinghoff, E.; McCulloch, CE (2007). "Relajación de la regla de los diez eventos por variable en regresión logística y de Cox". Revista Estadounidense de Epidemiología . 165 (6): 710–718. doi : 10.1093/aje/kwk052 . PMID 17182981.
^ van Smeden, Martín; de Groot, Joris AH; Lunas, Karel GM; Collins, Gary S.; Altman, Douglas G.; Eijkemans, Marinus JC; Reitsma, Johannes B. (24 de noviembre de 2016). "No hay justificación para el criterio de 1 variable por cada 10 eventos para el análisis de regresión logística binaria". Metodología de la investigación médica del BMC . 16 (1): 163. doi : 10.1186/s12874-016-0267-3 . ISSN 1471-2288. PMC 5122171 . PMID 27881078.
^ ab van Smeden, Martín; Lunas, Karel Gm; de Groot, Joris Ah; Collins, Gary S.; Altman, Douglas G.; Eijkemans, Marinus Jc; Reitsma, Johannes B. (1 de enero de 2018). "Tamaño de muestra para modelos de predicción logística binaria: más allá de los eventos por criterio variable". Métodos estadísticos en la investigación médica . 28 (8): 2455–2474. doi : 10.1177/0962280218784726 . ISSN 1477-0334. PMC 6710621 . PMID 29966490.
^ ab Riley, Richard D.; Snell, Kym IE; Ensor, Joie; Burke, Danielle L.; Jr., Frank E. Harrell; Lunas, Karel GM; Collins, Gary S. (2018). "Tamaño mínimo de muestra para desarrollar un modelo de predicción multivariable: PARTE II: resultados binarios y de tiempo hasta el evento". Estadística en Medicina . 38 (7): 1276-1296. doi :10.1002/sim.7992. ISSN 1097-0258. PMC 6519266 . PMID 30357870.