Una jerarquía de evidencia , que comprende niveles de evidencia ( LOE ), es decir, niveles de evidencia ( EL ), es una heurística utilizada para clasificar la solidez relativa de los resultados obtenidos de la investigación experimental , especialmente la investigación médica . Existe un amplio acuerdo sobre la solidez relativa de los estudios epidemiológicos a gran escala . Se han propuesto más de 80 jerarquías diferentes para evaluar la evidencia médica . [1] El diseño del estudio (como un informe de caso para un paciente individual o un ensayo controlado aleatorio ciego ) y los criterios de valoración medidos (como la supervivencia o la calidad de vida ) afectan la solidez de la evidencia. En la investigación clínica , la mejor evidencia de la eficacia del tratamiento proviene principalmente de metanálisis de ensayos controlados aleatorios (ECA). [2] [3] Las revisiones sistemáticas de ensayos controlados aleatorios completados y de alta calidad, como las publicadas por la Colaboración Cochrane , tienen el mismo rango que las revisiones sistemáticas de estudios observacionales completados de alta calidad con respecto al estudio de los efectos secundarios. [4] Las jerarquías de evidencia se aplican a menudo en prácticas basadas en evidencia y son parte integral de la medicina basada en evidencia (MBE).
En 2014, Jacob Stegenga definió una jerarquía de evidencia como "ordenación de tipos de métodos según la posibilidad de que ese método sufra un sesgo sistemático". En la cima de la jerarquía se encuentra el método con mayor libertad de sesgo sistémico o mejor validez interna en relación con la eficacia hipotética de la intervención médica probada. [5] : 313 En 1997, Greenhalgh sugirió que era "el peso relativo que tienen los diferentes tipos de estudios primarios al tomar decisiones sobre intervenciones clínicas". [6]
El Instituto Nacional del Cáncer define los niveles de evidencia como "un sistema de clasificación utilizado para describir la solidez de los resultados medidos en un ensayo clínico o estudio de investigación. El diseño del estudio [...] y los criterios de valoración medidos [...] afectan la fuerza de la evidencia." [7]
Se han propuesto una gran cantidad de jerarquías de evidencia. Todavía se están desarrollando protocolos similares para la evaluación de la calidad de la investigación. Hasta ahora, los protocolos disponibles prestan relativamente poca atención a si la investigación de resultados es relevante para la eficacia (el resultado de un tratamiento realizado en condiciones ideales) o para la efectividad (el resultado del tratamiento realizado en condiciones normales y esperables). [ cita necesaria ]
El enfoque GRADE (Grading of Recommendations Assessment, Development and Assessment) es un método para evaluar la certeza de la evidencia (también conocida como calidad de la evidencia o confianza en las estimaciones del efecto) y la solidez de las recomendaciones. [10] GRADE comenzó en el año 2000 como una colaboración de metodólogos, desarrolladores de directrices, bioestadísticos, médicos, científicos de salud pública y otros miembros interesados. [ cita necesaria ]
Más de 100 organizaciones (incluida la Organización Mundial de la Salud , el Instituto Nacional para la Excelencia en Salud y Atención (NICE) del Reino Unido, el Grupo de Trabajo Canadiense para la Atención Médica Preventiva, el Ministerio de Salud de Colombia, entre otros) han respaldado y/o están utilizando GRADE para evaluar la calidad de la evidencia y la solidez de las recomendaciones de atención médica. (Ver ejemplos de guías de práctica clínica usando GRADE en línea). [11] [12]
GRADES califica la calidad de la evidencia de la siguiente manera: [13] [14]
En 1995, Guyatt y Sackett publicaron la primera jerarquía de este tipo. [15]
Greenhalgh puso los diferentes tipos de estudio primario en el siguiente orden: [6]
Un protocolo sugerido por Saunders et al. asigna informes de investigación a seis categorías, sobre la base del diseño de la investigación, los antecedentes teóricos, la evidencia de posible daño y la aceptación general. Para ser clasificado bajo este protocolo, deben existir publicaciones descriptivas, incluido un manual o descripción similar de la intervención. Este protocolo no considera la naturaleza de ningún grupo de comparación, el efecto de las variables de confusión, la naturaleza del análisis estadístico ni otros criterios. Las intervenciones se evalúan como pertenecientes a la Categoría 1, tratamientos eficaces y bien respaldados, si hay dos o más estudios de resultados controlados aleatorios que comparen el tratamiento objetivo con un tratamiento alternativo apropiado y que muestren una ventaja significativa con respecto al tratamiento objetivo. Las intervenciones se asignan a la Categoría 2, tratamiento respaldado y probablemente eficaz, basado en resultados positivos de diseños no aleatorios con alguna forma de control, que puede involucrar un grupo sin tratamiento. La categoría 3, tratamiento respaldado y aceptable, incluye intervenciones respaldadas por un estudio controlado o no controlado, o por una serie de estudios de un solo sujeto, o por trabajo con una población diferente a la de interés. La categoría 4, tratamiento prometedor y aceptable, incluye intervenciones que no tienen respaldo excepto la aceptación general y la literatura clínica anecdótica; sin embargo, cualquier evidencia de posible daño excluye los tratamientos de esta categoría. La categoría 5, tratamiento innovador y novedoso, incluye intervenciones que no se consideran dañinas, pero que no se utilizan ni se analizan ampliamente en la literatura. La categoría 6, relativa al tratamiento, es la clasificación de tratamientos que tienen la posibilidad de causar daño, además de tener fundamentos teóricos desconocidos o inadecuados. [dieciséis]
Un informe del Centro de Revisiones y Difusión, preparado por Khan et al., sugirió un protocolo para la evaluación de la calidad de la investigación. y pretende ser un método general para evaluar intervenciones médicas y psicosociales. Si bien alentaba firmemente el uso de diseños aleatorios, este protocolo señalaba que tales diseños eran útiles sólo si cumplían con criterios exigentes, como una verdadera aleatorización y la ocultación del grupo de tratamiento asignado al cliente y a otros, incluidos los individuos que evalúan el resultado. El Khan et al. El protocolo enfatizó la necesidad de hacer comparaciones sobre la base de la "intención de tratar" para evitar problemas relacionados con un mayor desgaste en un grupo. El Khan et al. El protocolo también presentó criterios exigentes para estudios no aleatorios, incluido el emparejamiento de grupos según posibles variables de confusión y descripciones adecuadas de grupos y tratamientos en cada etapa, y ocultación de la elección de tratamiento a las personas que evalúan los resultados. Este protocolo no proporcionó una clasificación de niveles de evidencia, pero incluyó o excluyó tratamientos de la clasificación como basados en evidencia dependiendo de si la investigación cumplió con los estándares establecidos. [17]
El Registro Nacional de Prácticas y Programas Basados en Evidencia (NREPP) de EE. UU. ha desarrollado un protocolo de evaluación. La evaluación bajo este protocolo ocurre sólo si una intervención ya ha tenido uno o más resultados positivos, con una probabilidad de menos de 0,05, informados, si estos han sido publicados en una revista revisada por pares o en un informe de evaluación, y si existe documentación como Se han puesto a disposición materiales de formación. La evaluación NREPP, que asigna calificaciones de calidad de 0 a 4 a ciertos criterios, examina la confiabilidad y validez de las medidas de resultado utilizadas en la investigación, la evidencia de la fidelidad de la intervención (uso predecible del tratamiento de la misma manera cada vez), los niveles de datos faltantes. y desgaste, posibles variables de confusión y la idoneidad del manejo estadístico, incluido el tamaño de la muestra. [18]
El término se utilizó por primera vez en un informe de 1979 del "Grupo de trabajo canadiense sobre el examen periódico de salud" (CTF) para "calificar la eficacia de una intervención según la calidad de la evidencia obtenida". [19] : 1195 El grupo de trabajo utilizó tres niveles, subdividiendo el nivel II:
El CTF calificó sus recomendaciones en una escala de 5 puntos A-E: A: buen nivel de evidencia para la recomendación de considerar una condición, B: nivel aceptable de evidencia para la recomendación de considerar una condición, C: nivel pobre de evidencia para la recomendación de considerar una condición, D: nivel de evidencia aceptable para la recomendación de excluir la condición, y E: buen nivel de evidencia para la recomendación de excluir la condición de la consideración. [19] : 1195 La CTF actualizó su informe en 1984, [20] en 1986 [21] y 1987. [22]
En 1988, el Grupo de Trabajo de Servicios Preventivos de los Estados Unidos (USPSTF) publicó sus directrices basadas en el CTF utilizando los mismos 3 niveles, subdividiendo aún más el nivel II. [23]
A lo largo de los años se han descrito muchos más sistemas de clasificación. [24]
En septiembre de 2000, el Centro de Medicina Basada en Evidencia (CEBM) de Oxford (Reino Unido) publicó sus directrices para los 'Niveles' de evidencia con respecto a afirmaciones sobre pronóstico, diagnóstico, beneficios del tratamiento, daños del tratamiento y detección. No sólo abordó la terapia y la prevención, sino también las pruebas de diagnóstico, los marcadores de pronóstico o los daños. Los niveles CEBM originales se publicaron por primera vez para Evidence-Based On Call para hacer factible el proceso de búsqueda de evidencia y sus resultados explícitos. Según lo publicado en 2009 [25] [26] son:
En 2011, un equipo internacional rediseñó los niveles CEBM de Oxford para hacerlos más comprensibles y tener en cuenta los desarrollos recientes en los esquemas de clasificación de evidencia. Los niveles han sido utilizados por pacientes, médicos y también para desarrollar guías clínicas que incluyen recomendaciones para el uso óptimo de la fototerapia y la terapia tópica en la psoriasis [27] y guías para el uso del sistema de estadificación BCLC para diagnosticar y monitorear el carcinoma hepatocelular en Canadá. [28]
En 2007, el sistema de calificación del Fondo Mundial para la Investigación del Cáncer describió 4 niveles: evidencia convincente, probable, posible e insuficiente. [29] Todos los estudios sobre la carga mundial de morbilidad lo han utilizado para evaluar la evidencia epidemiológica que respalda las relaciones causales. [30]
En 1995 Wilson et al., [31] en 1996 Hadorn et al. [32] y en 1996 Atkins et al. [33] han descrito y defendido varios tipos de sistemas de calificación.
En 2011, una revisión sistemática de la literatura crítica encontró tres tipos de críticas: aspectos procedimentales de la MBE (especialmente de Cartwright, Worrall y Howick), [34] una falibilidad de la MBE mayor a la esperada (Ioaanidis y otros), y que la MBE sea incompleta como tal. una filosofía de la ciencia (Ashcroft y otros). [35] [ se necesita aclaración ] Rawlins [36] y Bluhm señalan que la MBE limita la capacidad de los resultados de la investigación para informar la atención de pacientes individuales, y que para comprender las causas de las enfermedades son necesarias investigaciones tanto a nivel poblacional como de laboratorio. La jerarquía de evidencia de la MBE no tiene en cuenta la investigación sobre la seguridad y eficacia de las intervenciones médicas. Los ECA deben diseñarse "para dilucidar la variabilidad dentro del grupo, lo que sólo puede hacerse si la jerarquía de la evidencia se reemplaza por una red que tenga en cuenta la relación entre la investigación epidemiológica y de laboratorio" [37]
Se ha cuestionado la jerarquía de la evidencia producida por el diseño de un estudio, porque las directrices "no han logrado definir adecuadamente los términos clave, ponderar los méritos de ciertos ensayos controlados no aleatorios y emplear una lista completa de limitaciones del diseño del estudio". [38]
Stegenga ha criticado específicamente que los metanálisis se coloquen en la cima de tales jerarquías. [39] La suposición de que los RCT deberían estar necesariamente cerca de la cima de tales jerarquías ha sido criticada por Worrall [40] y Cartwright. [41]
En 2005, Ross Upshur dijo que la MBE pretende ser una guía normativa para ser un mejor médico, pero no es una doctrina filosófica . [42]
Borgerson en 2009 escribió que las justificaciones de los niveles jerárquicos no son absolutas y no las justifican epistémicamente , pero que "los investigadores médicos deberían prestar más atención a los mecanismos sociales para gestionar los sesgos generalizados". [43] La Caze señaló que la ciencia básica reside en los niveles inferiores de la MBE, aunque "desempeña un papel en la especificación de experimentos, pero también en el análisis e interpretación de los datos". [44]
Concato dijo en 2004 que otorgaba demasiada autoridad a los ECA y que no todas las preguntas de investigación podían responderse a través de ECA, ya sea por cuestiones prácticas o éticas. Incluso cuando hay evidencia disponible de ECA de alta calidad, la evidencia de otros tipos de estudios puede seguir siendo relevante. [45] Stegenga opinó que los esquemas de evaluación de evidencia son irrazonablemente restrictivos y menos informativos que otros esquemas disponibles ahora. [5]
En su tesis doctoral de 2015 dedicada al estudio de las diversas jerarquías de la evidencia en medicina, Christopher J. Blunt concluye que, aunque las interpretaciones modestas como las ofrecidas por el modelo de La Caze, las jerarquías condicionales como GRADE y los enfoques heurísticos defendidos por Howick et al. Sobreviviendo críticas filosóficas anteriores, sostiene que las interpretaciones modestas son tan débiles que no ayudan a la práctica clínica. Por ejemplo, "GRADE y modelos condicionales similares omiten información clínicamente relevante, como información sobre la variación en los efectos de los tratamientos y las causas de las diferentes respuestas a la terapia; y que los enfoques heurísticos carecen del apoyo empírico necesario". Blunt concluye además que "las jerarquías son una base deficiente para la aplicación de la evidencia en la práctica clínica", ya que los supuestos centrales detrás de las jerarquías de la evidencia, que "la información sobre los efectos promedio del tratamiento respaldados por evidencia de alta calidad puede justificar recomendaciones sólidas", es insostenible. , y por lo tanto la evidencia de los estudios individuales debe evaluarse de forma aislada. [46]
Este artículo incorpora material de dominio público del Diccionario de términos sobre el cáncer. Instituto Nacional del Cáncer de EE. UU .