Una jerarquía de evidencia , que comprende niveles de evidencia ( LOE ), es decir, niveles de evidencia ( EL ), es una heurística utilizada para clasificar la fuerza relativa de los resultados obtenidos de la investigación experimental , especialmente la investigación médica . Existe un amplio acuerdo sobre la fuerza relativa de los estudios epidemiológicos a gran escala . Se han propuesto más de 80 jerarquías diferentes para evaluar la evidencia médica . [1] El diseño del estudio (como un informe de caso para un paciente individual o un ensayo controlado aleatorio ciego ) y los puntos finales medidos (como la supervivencia o la calidad de vida ) afectan la fuerza de la evidencia. En la investigación clínica , la mejor evidencia de la eficacia del tratamiento proviene principalmente de metanálisis de ensayos controlados aleatorios (ECA). [2] [3] Las revisiones sistemáticas de ensayos controlados aleatorios completados de alta calidad, como los publicados por la Colaboración Cochrane , tienen la misma clasificación que la revisión sistemática de estudios observacionales completados de alta calidad con respecto al estudio de los efectos secundarios. [4] Las jerarquías de evidencia se aplican a menudo en prácticas basadas en evidencia y son parte integral de la medicina basada en evidencia (MBE).
En 2014, Jacob Stegenga definió la jerarquía de la evidencia como "la clasificación de los tipos de métodos según el potencial de que ese método sufra de sesgo sistemático". En la parte superior de la jerarquía se encuentra el método con la mayor libertad de sesgo sistemático o la mejor validez interna en relación con la eficacia hipotética de la intervención médica probada. [5] : 313 En 1997, Greenhalgh sugirió que era "el peso relativo que tienen los diferentes tipos de estudio primario al tomar decisiones sobre intervenciones clínicas". [6]
El Instituto Nacional del Cáncer define los niveles de evidencia como "un sistema de clasificación utilizado para describir la solidez de los resultados medidos en un ensayo clínico o estudio de investigación. El diseño del estudio ... y los criterios de valoración medidos... afectan la solidez de la evidencia". [7]
Se han propuesto numerosas jerarquías de evidencias. Todavía se están desarrollando protocolos similares para evaluar la calidad de la investigación. Hasta ahora, los protocolos disponibles prestan relativamente poca atención a si la investigación de resultados es relevante para la eficacia (el resultado de un tratamiento realizado en condiciones ideales) o para la efectividad (el resultado del tratamiento realizado en condiciones normales y esperables). [ cita requerida ]
El método GRADE (Grading of Recommendations Assessment, Development and Evaluation) es un método para evaluar la certeza de la evidencia (también conocida como calidad de la evidencia o confianza en las estimaciones de los efectos) y la solidez de las recomendaciones. [10] GRADE comenzó en el año 2000 como una colaboración de metodólogos, desarrolladores de guías, bioestadísticos, médicos, científicos de salud pública y otros miembros interesados. [ cita requerida ]
Más de 100 organizaciones (incluida la Organización Mundial de la Salud , el Instituto Nacional para la Excelencia en la Salud y la Atención (NICE) del Reino Unido, el Grupo de Trabajo Canadiense para la Atención Sanitaria Preventiva y el Ministerio de Salud de Colombia, entre otras) han respaldado y/o están utilizando GRADE para evaluar la calidad de la evidencia y la solidez de las recomendaciones de atención sanitaria. (Véase ejemplos de guías de práctica clínica que utilizan GRADE en línea). [11] [12]
GRADES califica la calidad de la evidencia de la siguiente manera: [13] [14]
En 1995, Guyatt y Sackett publicaron la primera jerarquía de este tipo. [15]
Greenhalgh puso los diferentes tipos de estudio primario en el siguiente orden: [6]
Un protocolo sugerido por Saunders et al. asigna los informes de investigación a seis categorías, sobre la base del diseño de la investigación, los antecedentes teóricos, la evidencia de posibles daños y la aceptación general. Para ser clasificados bajo este protocolo, deben existir publicaciones descriptivas, incluido un manual o una descripción similar de la intervención. Este protocolo no considera la naturaleza de ningún grupo de comparación, el efecto de las variables de confusión, la naturaleza del análisis estadístico ni una serie de otros criterios. Las intervenciones se evalúan como pertenecientes a la Categoría 1, tratamientos eficaces y bien respaldados, si hay dos o más estudios de resultados controlados aleatorizados que comparan el tratamiento objetivo con un tratamiento alternativo apropiado y muestran una ventaja significativa para el tratamiento objetivo. Las intervenciones se asignan a la Categoría 2, tratamiento respaldado y probablemente eficaz, sobre la base de resultados positivos de diseños no aleatorios con alguna forma de control, que puede involucrar un grupo sin tratamiento. La Categoría 3, tratamiento respaldado y aceptable, incluye intervenciones respaldadas por un estudio controlado o no controlado, o por una serie de estudios de un solo sujeto, o por trabajo con una población diferente a la de interés. Categoría 4, tratamiento prometedor y aceptable, incluye intervenciones que no tienen respaldo excepto la aceptación general y la literatura clínica anecdótica; sin embargo, cualquier evidencia de posible daño excluye a los tratamientos de esta categoría. Categoría 5, tratamiento innovador y novedoso, incluye intervenciones que no se consideran dañinas, pero que no se usan ni se discuten ampliamente en la literatura. Categoría 6, relativa al tratamiento, es la clasificación para los tratamientos que tienen la posibilidad de hacer daño, así como también tienen fundamentos teóricos desconocidos o inapropiados. [16]
Un informe del Centro de Revisiones y Difusión, preparado por Khan et al., sugirió un protocolo para la evaluación de la calidad de la investigación, que pretendía ser un método general para evaluar las intervenciones médicas y psicosociales. Si bien alentaba firmemente el uso de diseños aleatorizados, este protocolo señalaba que dichos diseños eran útiles sólo si cumplían criterios exigentes, como la aleatorización real y el ocultamiento del grupo de tratamiento asignado al cliente y a otras personas, incluidas las personas que evaluaban el resultado. El protocolo de Khan et al. hizo hincapié en la necesidad de hacer comparaciones sobre la base de la "intención de tratar" para evitar problemas relacionados con una mayor deserción en un grupo. El protocolo de Khan et al. también presentó criterios exigentes para los estudios no aleatorizados, que incluían la comparación de grupos en función de posibles variables de confusión y descripciones adecuadas de grupos y tratamientos en cada etapa, y el ocultamiento de la elección del tratamiento a las personas que evaluaban los resultados. Este protocolo no proporcionaba una clasificación de los niveles de evidencia, pero incluía o excluía tratamientos de la clasificación como basados en la evidencia dependiendo de si la investigación cumplía o no con los estándares establecidos. [17]
El Registro Nacional de Programas y Prácticas Basadas en la Evidencia (NREPP) de los Estados Unidos ha desarrollado un protocolo de evaluación. La evaluación según este protocolo se lleva a cabo únicamente si una intervención ya ha tenido uno o más resultados positivos, con una probabilidad de menos de 0,05, informados, si estos se han publicado en una revista revisada por pares o en un informe de evaluación, y si se ha puesto a disposición documentación como materiales de capacitación. La evaluación del NREPP, que asigna calificaciones de calidad de 0 a 4 a ciertos criterios, examina la confiabilidad y validez de las medidas de resultados utilizadas en la investigación, la evidencia de fidelidad de la intervención (uso predecible del tratamiento de la misma manera cada vez), los niveles de datos faltantes y deserción, las posibles variables de confusión y la idoneidad del manejo estadístico, incluido el tamaño de la muestra. [18]
El término fue utilizado por primera vez en un informe de 1979 del "Grupo de Trabajo Canadiense sobre el Examen Periódico de Salud" (CTF) para "calificar la eficacia de una intervención según la calidad de la evidencia obtenida". [19] : 1195 El grupo de trabajo utilizó tres niveles, subdividiendo el nivel II:
El CTF calificó sus recomendaciones en una escala de 5 puntos A-E: A: Buen nivel de evidencia para la recomendación de considerar una condición, B: Nivel regular de evidencia para la recomendación de considerar una condición, C: Nivel bajo de evidencia para la recomendación de considerar una condición, D: Nivel regular de evidencia para la recomendación de excluir la condición, y E: Buen nivel de evidencia para la recomendación de excluir la condición de la consideración. [19] : 1195 El CTF actualizó su informe en 1984, [20] en 1986 [21] y 1987. [22]
En 1988, el Grupo de Trabajo de Servicios Preventivos de los Estados Unidos (USPSTF) publicó sus directrices basadas en el CTF utilizando los mismos tres niveles y subdividiendo aún más el nivel II. [23]
A lo largo de los años se han descrito muchos más sistemas de clasificación. [24]
En septiembre de 2000, el Centro de Medicina Basada en la Evidencia (CEBM) de Oxford (Reino Unido) publicó sus directrices sobre los "Niveles" de evidencia en relación con las afirmaciones sobre pronóstico, diagnóstico, beneficios del tratamiento, daños del tratamiento y detección. No solo abordaba la terapia y la prevención, sino también las pruebas diagnósticas, los marcadores de pronóstico o los daños. Los niveles originales del CEBM se publicaron por primera vez para la Medicina Basada en la Evidencia en el Momento de Consulta para que el proceso de búsqueda de evidencia fuera factible y sus resultados explícitos. Según se publicó en 2009 [25] [26], son:
En 2011, un equipo internacional rediseñó los niveles de Oxford CEBM para que fueran más comprensibles y tuvieran en cuenta los avances recientes en los esquemas de clasificación de evidencia. Los niveles han sido utilizados por pacientes y médicos y también para desarrollar pautas clínicas que incluyen recomendaciones para el uso óptimo de la fototerapia y la terapia tópica en la psoriasis [27] y pautas para el uso del sistema de estadificación BCLC para el diagnóstico y seguimiento del carcinoma hepatocelular en Canadá. [28]
En 2007, el sistema de clasificación del Fondo Mundial para la Investigación del Cáncer describió cuatro niveles: evidencia convincente, probable, posible e insuficiente. [29] Todos los estudios de la carga mundial de enfermedades lo han utilizado para evaluar la evidencia epidemiológica que respalda las relaciones causales. [30]
En 1995 Wilson et al., [31] en 1996 Hadorn et al. [32] y en 1996 Atkins et al. [33] describieron y defendieron varios tipos de sistemas de clasificación.
En 2011, una revisión sistemática de la literatura crítica encontró tres tipos de críticas: aspectos procedimentales de la MBE (especialmente de Cartwright, Worrall y Howick), [34] una falibilidad mayor de lo esperado de la MBE (Ioaanidis y otros) y que la MBE es incompleta como filosofía de la ciencia (Ashcroft y otros). [35] [ aclaración necesaria ] Rawlins [36] y Bluhm señalan que la MBE limita la capacidad de los resultados de la investigación para informar la atención de pacientes individuales y que para comprender las causas de las enfermedades son necesarias tanto las investigaciones a nivel de población como las de laboratorio. La jerarquía de la evidencia de la MBE no tiene en cuenta la investigación sobre la seguridad y eficacia de las intervenciones médicas. Los ECA deben diseñarse "para dilucidar la variabilidad dentro del grupo, lo que solo se puede hacer si la jerarquía de la evidencia se reemplaza por una red que tenga en cuenta la relación entre la investigación epidemiológica y de laboratorio" [37]
Se ha cuestionado la jerarquía de la evidencia producida por un diseño de estudio, porque las directrices "no han logrado definir adecuadamente los términos clave, ponderar los méritos de ciertos ensayos controlados no aleatorios y emplear una lista completa de limitaciones del diseño de estudios". [38]
Stegenga ha criticado específicamente que los metanálisis se coloquen en la cima de tales jerarquías. [39] La suposición de que los RCT deben estar necesariamente cerca de la cima de tales jerarquías ha sido criticada por Worrall [40] y Cartwright. [41]
En 2005, Ross Upshur dijo que la MBE pretende ser una guía normativa para ser un mejor médico, pero no es una doctrina filosófica . [42]
Borgerson escribió en 2009 que las justificaciones de los niveles de jerarquía no son absolutas y no las justifican epistémicamente , pero que "los investigadores médicos deberían prestar más atención a los mecanismos sociales para gestionar los sesgos generalizados". [43] La Caze señaló que la ciencia básica reside en los niveles inferiores de la medicina basada en evidencia, aunque "juega un papel en la especificación de experimentos, pero también en el análisis e interpretación de los datos". [44]
En 2004, Concato afirmó que otorgaba demasiada autoridad a los RCT y que no todas las preguntas de investigación podían responderse mediante RCT, ya sea por cuestiones prácticas o éticas. Incluso cuando se dispone de evidencia de RCT de alta calidad, la evidencia de otros tipos de estudios puede seguir siendo relevante. [45] Stegenga opinó que los esquemas de evaluación de la evidencia son irrazonablemente restrictivos y menos informativos que otros esquemas disponibles en la actualidad. [5]
En su tesis doctoral de 2015 dedicada al estudio de las diversas jerarquías de evidencia en medicina, Christopher J Blunt concluye que, aunque interpretaciones modestas como las que ofrece el modelo de La Caze, jerarquías condicionales como GRADE y enfoques heurísticos como los defendidos por Howick et al. sobreviven a críticas filosóficas anteriores, sostiene que las interpretaciones modestas son tan débiles que no son útiles para la práctica clínica. Por ejemplo, "GRADE y modelos condicionales similares omiten información clínicamente relevante, como información sobre la variación en los efectos de los tratamientos y las causas de las diferentes respuestas a la terapia; y que los enfoques heurísticos carecen del apoyo empírico necesario". Blunt concluye además que "las jerarquías son una base pobre para la aplicación de la evidencia en la práctica clínica", ya que los supuestos centrales detrás de las jerarquías de evidencia, que "la información sobre los efectos promedio del tratamiento respaldada por evidencia de alta calidad puede justificar recomendaciones sólidas", es insostenible y, por lo tanto, la evidencia de los estudios individuales debe evaluarse de forma aislada. [46]
Este artículo incorpora material de dominio público del Diccionario de términos sobre el cáncer. Instituto Nacional del Cáncer de EE. UU .