Prueba de equivalencia

Las pruebas de equivalencia son una variedad de pruebas de hipótesis que se utilizan para extraer inferencias estadísticas de los datos observados. En estas pruebas, la hipótesis nula se define como un efecto lo suficientemente grande como para ser considerado interesante, especificado por un límite de equivalencia. La hipótesis alternativa es cualquier efecto que sea menos extremo que dicho límite de equivalencia. Los datos observados se comparan estadísticamente con los límites de equivalencia. Si la prueba estadística indica que los datos observados son sorprendentes, suponiendo que los efectos reales son al menos tan extremos como los límites de equivalencia, se puede utilizar un enfoque de Neyman-Pearson para las inferencias estadísticas para rechazar tamaños de efecto mayores que los límites de equivalencia con una tasa de error de tipo 1 preestablecida .

Las pruebas de equivalencia tienen su origen en el campo de los ensayos clínicos . ^[1] Una aplicación, conocida como ensayo de no inferioridad, se utiliza para demostrar que un nuevo fármaco que es más barato que las alternativas disponibles funciona tan bien como un fármaco existente. En esencia, las pruebas de equivalencia consisten en calcular un intervalo de confianza en torno a un tamaño de efecto observado y rechazar los efectos más extremos que el límite de equivalencia cuando el intervalo de confianza no se superpone con el límite de equivalencia. En las pruebas bilaterales, se especifican los límites de equivalencia superior e inferior. En los ensayos de no inferioridad, donde el objetivo es probar la hipótesis de que un nuevo tratamiento no es peor que los tratamientos existentes, solo se especifica un límite de equivalencia inferior.

Además de las pruebas de significación de hipótesis nula, se pueden realizar pruebas de equivalencia. ^[2]^[3]^[4]^[5] Esto podría evitar interpretaciones erróneas comunes de valores p mayores que el nivel alfa como apoyo a la ausencia de un efecto verdadero. Además, las pruebas de equivalencia pueden identificar efectos que son estadísticamente significativos pero prácticamente insignificantes, siempre que los efectos sean estadísticamente diferentes de cero, pero también estadísticamente menores que cualquier tamaño de efecto que se considere valioso (ver la primera figura). ^[6] Las pruebas de equivalencia se utilizaron originalmente en áreas como la farmacéutica, con frecuencia en ensayos de bioequivalencia. Sin embargo, estas pruebas se pueden aplicar a cualquier caso en el que la pregunta de investigación pregunte si las medias de dos conjuntos de puntuaciones son prácticamente o teóricamente equivalentes. Como tal, los análisis de equivalencia han visto un uso creciente en casi todos los campos de investigación médica. Además, el campo de la psicología ha estado adoptando el uso de pruebas de equivalencia, particularmente en ensayos clínicos. Sin embargo, esto no quiere decir que los análisis de equivalencia deban limitarse a los ensayos clínicos, y la aplicación de estas pruebas puede ocurrir en una variedad de áreas de investigación. En este sentido, recientemente se han introducido pruebas de equivalencia en la evaluación de dispositivos de medición, ^[7]^[8] inteligencia artificial ^[9] así como en la fisiología del ejercicio y la ciencia del deporte. ^[10] Existen varias pruebas para análisis de equivalencia; sin embargo, más recientemente el procedimiento de pruebas t bilaterales (TOST) ha estado atrayendo considerable atención. Como se describe a continuación, este enfoque es una adaptación de la ampliamente conocida prueba t.

Procedimiento TOST

Un enfoque muy simple de prueba de equivalencia es el procedimiento de "dos pruebas t unilaterales" (TOST). ^[11] En el procedimiento TOST se especifica un límite de equivalencia superior (Δ _U ) e inferior (–Δ _L ) en función del tamaño del efecto de interés más pequeño (por ejemplo, una diferencia positiva o negativa de d = 0,3). Se prueban dos hipótesis nulas compuestas: H ₀₁ : Δ ≤ –Δ _L y H ₀₂ : Δ ≥ Δ _U . Cuando ambas pruebas unilaterales pueden rechazarse estadísticamente, podemos concluir que –Δ _L < Δ < Δ _U , o que el efecto observado cae dentro de los límites de equivalencia y es estadísticamente menor que cualquier efecto considerado valioso y considerado prácticamente equivalente". ^[12] También se han desarrollado alternativas al procedimiento TOST. ^[13] Una modificación reciente de TOST hace que el enfoque sea factible en casos de medidas repetidas y evaluación de múltiples variables. ^[14]

Comparación entre la prueba t y la prueba de equivalencia

La prueba de equivalencia se puede inducir a partir de la prueba t . ^[7] Considérese una prueba t en el nivel de significancia α _t-test con una potencia de 1-β _t-test para un tamaño de efecto relevante d _r . Si Δ=d _r así como α _equiv.-test =β _t-test y β _equiv.-test =α _t-test coinciden, es decir, los tipos de error (tipo I y tipo II) se intercambian entre la prueba t y la prueba de equivalencia, entonces la prueba t obtendrá los mismos resultados que la prueba de equivalencia. Para lograr esto para la prueba t, el cálculo del tamaño de la muestra debe realizarse correctamente, o el nivel de significancia de la prueba t α _t-test debe ajustarse, lo que se conoce como la llamada prueba t revisada . ^[7] Ambos enfoques tienen dificultades en la práctica ya que la planificación del tamaño de la muestra se basa en supuestos no verificables de la desviación estándar, y la prueba t revisada produce problemas numéricos. ^[7] Preservando el comportamiento de la prueba, esas limitaciones se pueden eliminar utilizando una prueba de equivalencia.

La figura siguiente permite una comparación visual de la prueba de equivalencia y la prueba t cuando el cálculo del tamaño de la muestra se ve afectado por diferencias entre la desviación estándar a priori y la desviación estándar de la muestra , lo que es un problema común. El uso de una prueba de equivalencia en lugar de una prueba t garantiza además que la _{prueba de equivalencia} α esté limitada, lo que la prueba t no hace en caso de que el error de tipo II crezca arbitrariamente. Por otro lado, tener resultados en la prueba t que sean más estrictos que el d _r especificado en la planificación, lo que puede penalizar aleatoriamente la fuente de la muestra (por ejemplo, un fabricante de dispositivos). Esto hace que la prueba de equivalencia sea más segura de usar. ${\textstyle \sigma}$ ${\textstyle {\widehat {\sigma }}}$ ${\textstyle {\widehat {\sigma }}>\sigma }$ ${\textstyle {\widehat {\sigma }}<\sigma }$

Véase también

Pruebas basadas en Bootstrap (estadísticas)

Literatura

Walker, Esteban; Nowacki, Amy S. (febrero de 2011). "Comprensión de las pruebas de equivalencia y no inferioridad". Revista de Medicina Interna General . 26 (2): 192–6. doi :10.1007/s11606-010-1513-8. PMC 3019319 . PMID 20857339.

Referencias

^ Snapinn, Steven M. (2000). "Ensayos de no inferioridad". Ensayos controlados actuales en medicina cardiovascular . 1 (1): 19–21. doi : 10.1186 /CVM-1-1-019 . PMC 59590. PMID 11714400.
^ Rogers, James L.; Howard, Kenneth I.; Vessey, John T. (1993). "Uso de pruebas de significación para evaluar la equivalencia entre dos grupos experimentales". Psychological Bulletin . 113 (3): 553–565. doi :10.1037/0033-2909.113.3.553. PMID 8316613.
^ Estadística aplicada a los ensayos clínicos (4ª ed.). Springer. 2009. ISBN 978-1402095221.
^ Piaggio, Gilda; Elbourne, Diana R.; Altman, Douglas G.; Pocock, Stuart J.; Evans, Stephen JW; CONSORT Group, para el (8 de marzo de 2006). "Informe de ensayos aleatorios de no inferioridad y equivalencia" (PDF) . JAMA . 295 (10): 1152–60. doi :10.1001/jama.295.10.1152. PMID 16522836.
^ Piantadosi, Steven (28 de agosto de 2017). Ensayos clínicos: una perspectiva metodológica (tercera edición). John Wiley & Sons. pág. 8.6.2. ISBN 978-1-118-95920-6.
^ Lakens, Daniël (5 de mayo de 2017). "Pruebas de equivalencia". Ciencias de la personalidad y psicología social . 8 (4): 355–362. doi :10.1177/1948550617697177. PMC 5502906 . PMID 28736600.
^ abcde Siebert, Michael; Ellenberger, David (10 de abril de 2019). "Validación del conteo automático de pasajeros: introducción de la prueba de equivalencia inducida por la prueba t". Transporte . 47 (6): 3031–3045. arXiv : 1802.03341 . doi : 10.1007/s11116-019-09991-9 . ISSN 0049-4488.
^ Schnellbach, Teresa (2022). Análisis de datos hidráulicos con Python. doi :10.26083/tuprints-00022026.
^ Jahn, Nico; Siebert, Michael (2022). "Ingeniería del contador automático de pasajeros neuronal". Aplicaciones de ingeniería de la inteligencia artificial . 114 . arXiv : 2203.01156 . doi :10.1016/j.engappai.2022.105148.
^ Mazzolari, Raffaele; Porcelli, Simone; Bishop, David J.; Lakens, Daniël (marzo de 2022). "Mitos y metodologías: el uso de pruebas de equivalencia y no inferioridad para estudios de intervención en fisiología del ejercicio y ciencias del deporte". Fisiología experimental . 107 (3): 201–212. doi :10.1113/EP090171. ISSN 0958-0670. PMID 35041233. S2CID 246051376.
^ Schuirmann, Donald J. (1987-12-01). "Una comparación del procedimiento de dos pruebas unilaterales y el enfoque de potencia para evaluar la equivalencia de la biodisponibilidad media". Revista de farmacocinética y biofarmacia . 15 (6): 657–680. doi :10.1007/BF01068419. ISSN 0090-466X. PMID 3450848. S2CID 206788664.
^ Lakens, Daniël (mayo de 2017). "Pruebas de equivalencia: una introducción práctica a las pruebas t, las correlaciones y los metaanálisis". Ciencias de la personalidad y psicología social . 8 (4): 355–362. doi :10.1177/1948550617697177. ISSN 1948-5506. PMC 5502906 . PMID 28736600.
^ Wellek, Stefan (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman y Hall/CRC. ISBN 978-1439808184.
^ Rose, Evangeline M.; Mathew, Thomas; Coss, Derek A.; Lohr, Bernard; Omland, Kevin E. (2018). "Un nuevo método estadístico para probar la equivalencia: una aplicación en el canto del azulejo oriental macho y hembra". Animal Behaviour . 145 : 77–85. doi :10.1016/j.anbehav.2018.09.004. ISSN 0003-3472. S2CID 53152801.