Evaluación de impacto

La evaluación de impacto evalúa los cambios que pueden atribuirse a una intervención en particular, como un proyecto, programa o política, tanto los previstos como, idealmente, los no previstos. ^[1] A diferencia del seguimiento de resultados, que examina si se han alcanzado los objetivos, la evaluación de impacto está estructurada para responder a la pregunta: ¿cómo habrían cambiado los resultados, como el bienestar de los participantes, si no se hubiera llevado a cabo la intervención? Esto implica un análisis contrafactual, es decir, "una comparación entre lo que realmente sucedió y lo que habría sucedido en ausencia de la intervención". ^[2] Las evaluaciones de impacto buscan responder a preguntas de causa y efecto. En otras palabras, buscan los cambios en los resultados que son directamente atribuibles a un programa. ^[3]

La evaluación de impacto ayuda a las personas a responder a preguntas clave para la formulación de políticas basadas en evidencia: ¿qué funciona, qué no funciona, dónde, por qué y por cuánto? En los últimos años, ha recibido una atención cada vez mayor en la formulación de políticas, tanto en el contexto de los países desarrollados como en desarrollo. ^[4] Es un componente importante del arsenal de herramientas y enfoques de evaluación y parte integral de los esfuerzos globales para mejorar la eficacia de la prestación de ayuda y el gasto público en general para mejorar los niveles de vida. Originalmente más orientada a la evaluación de programas del sector social en los países en desarrollo, en particular las transferencias monetarias condicionales , la evaluación de impacto ahora se está aplicando cada vez más en otras áreas, como la agricultura, la energía y el transporte.

Diseños de evaluación contrafáctica

El análisis contrafactual permite a los evaluadores atribuir causa y efecto entre intervenciones y resultados. El "contrafactual" mide lo que habría sucedido a los beneficiarios en ausencia de la intervención, y el impacto se estima comparando los resultados contrafactuales con los observados bajo la intervención. El desafío clave en la evaluación de impacto es que el contrafactual no puede observarse directamente y debe aproximarse con referencia a un grupo de comparación. Hay una variedad de enfoques aceptados para determinar un grupo de comparación apropiado para el análisis contrafactual, utilizando un diseño de evaluación prospectivo (ex ante) o retrospectivo (ex post). Las evaluaciones prospectivas comienzan durante la fase de diseño de la intervención, que implica la recopilación de datos de referencia y de línea final de los beneficiarios de la intervención (el "grupo de tratamiento") y los no beneficiarios (el "grupo de comparación"); pueden implicar la selección de individuos o comunidades para los grupos de tratamiento y comparación. Las evaluaciones retrospectivas generalmente se realizan después de la fase de implementación y pueden aprovechar los datos de encuestas existentes, aunque las mejores evaluaciones recopilarán datos lo más cerca posible de la línea de base, para asegurar la comparabilidad de la intervención y los grupos de comparación.

Hay cinco principios clave relacionados con la validez interna (diseño del estudio) y la validez externa (generalización) que las evaluaciones de impacto rigurosas deben abordar: factores de confusión, sesgo de selección , efectos indirectos, contaminación y heterogeneidad del impacto. ^[5]

La confusión se produce cuando determinados factores, normalmente relacionados con el nivel socioeconómico, se correlacionan con la exposición a la intervención y, independientemente de la exposición, están relacionados causalmente con el resultado de interés. Por lo tanto, los factores de confusión son explicaciones alternativas para una relación observada (posiblemente falsa) entre la intervención y el resultado.
El sesgo de selección , un caso especial de confusión, ocurre cuando los participantes de la intervención no son seleccionados aleatoriamente de la población beneficiaria, y los criterios que determinan la selección están correlacionados con los resultados. Los factores no observados , que están asociados con el acceso o la participación en la intervención, y están relacionados causalmente con el resultado de interés, pueden conducir a una relación espuria entre la intervención y el resultado si no se tienen en cuenta. La autoselección ocurre cuando, por ejemplo, los individuos o comunidades más capaces u organizados, que tienen más probabilidades de tener mejores resultados de interés, también tienen más probabilidades de participar en la intervención. La selección endógena del programa ocurre cuando se elige a individuos o comunidades para participar porque se considera que tienen más probabilidades de beneficiarse de la intervención. Ignorar los factores de confusión puede conducir a un problema de sesgo de variable omitida. En el caso especial de sesgo de selección, la endogeneidad de las variables de selección puede causar sesgo de simultaneidad.
El efecto derrame (denominado contagio en el caso de las evaluaciones experimentales) ocurre cuando los miembros del grupo de comparación (control) se ven afectados por la intervención.
La contaminación ocurre cuando los miembros de los grupos de tratamiento y/o comparación tienen acceso a otra intervención que también afecta el resultado de interés.
La heterogeneidad del impacto se refiere a las diferencias en el impacto que se producen según el tipo de beneficiario y el contexto. Las evaluaciones de impacto de alta calidad evaluarán en qué medida los distintos grupos (por ejemplo, los desfavorecidos) se benefician de una intervención, así como el posible efecto del contexto en el impacto. El grado en que los resultados sean generalizables determinará la aplicabilidad de las lecciones aprendidas para las intervenciones en otros contextos.

Los diseños de evaluación de impacto se identifican por el tipo de métodos utilizados para generar el contrafactual y pueden clasificarse en tres categorías: diseños experimentales, cuasiexperimentales y no experimentales, que varían en viabilidad, costo, participación durante el diseño o después de la fase de implementación de la intervención y grado de sesgo de selección. White (2006) ^[6] y Ravallion (2008) ^[7] analizan enfoques alternativos de evaluación de impacto.

Enfoques experimentales

En las evaluaciones experimentales, los grupos de tratamiento y de comparación se seleccionan aleatoriamente y se aíslan tanto de la intervención como de cualquier intervención que pueda afectar al resultado de interés. Estos diseños de evaluación se conocen como ensayos controlados aleatorios (ECA). En las evaluaciones experimentales, el grupo de comparación se denomina grupo de control . Cuando la aleatorización se implementa sobre una muestra suficientemente grande sin contagio por la intervención, la única diferencia entre los grupos de tratamiento y control en promedio es que este último no recibe la intervención. Las encuestas de muestreo aleatorio, en las que la muestra para la evaluación se elige aleatoriamente, no deben confundirse con los diseños de evaluación experimental, que requieren la asignación aleatoria del tratamiento.

El enfoque experimental se presenta a menudo como el "patrón oro" de la evaluación. Es el único diseño de evaluación que puede explicar de manera concluyente el sesgo de selección al demostrar una relación causal entre la intervención y los resultados. La aleatorización y el aislamiento de las intervenciones podrían no ser practicables en el ámbito de la política social y pueden ser éticamente difíciles de defender, ^[8]^[9] aunque puede haber oportunidades para utilizar experimentos naturales. Bamberger y White (2007) ^{[10] destacan algunas de las limitaciones de la aplicación de los RCT a las intervenciones de desarrollo. Scriven (2008)}^[11] ha hecho críticas metodológicas debido a los sesgos introducidos ya que las intervenciones sociales no pueden ser completamente ciegas , y Deaton (2009) ^[12] ha señalado que en la práctica el análisis de los RCT recurre a los enfoques basados en la regresión que buscan evitar y, por lo tanto, están sujetos a los mismos sesgos potenciales. Otros problemas son los contextos a menudo heterogéneos y cambiantes de las intervenciones, los desafíos logísticos y prácticos, las dificultades para supervisar la prestación de los servicios, el acceso a la intervención por parte del grupo de comparación y los cambios en los criterios de selección o la intervención a lo largo del tiempo. Por ello, se estima que los ensayos controlados aleatorios sólo son aplicables al 5% de la financiación del desarrollo. ^[10]

Ensayos controlados aleatorios (ECA)

Los RCT son estudios que se utilizan para medir la eficacia de una nueva intervención. Es poco probable que demuestren la causalidad por sí solos, sin embargo, la aleatorización reduce el sesgo al tiempo que proporciona una herramienta para examinar las relaciones causa-efecto. ^[13] Los RCT se basan en la asignación aleatoria, lo que significa que esa evaluación casi siempre tiene que diseñarse ex ante , ya que es raro que la asignación natural de un proyecto sea aleatoria. ^[14] Al diseñar un RCT, hay cinco preguntas clave que deben hacerse: qué tratamiento se está probando, cuántos brazos de tratamiento habrá, cuál será la unidad de asignación, qué tamaño de muestra se necesita, cómo se aleatorizará la prueba. ^[14] Un RCT bien realizado producirá una estimación creíble con respecto al efecto promedio del tratamiento dentro de una población específica o unidad de asignación. ^[15] Un inconveniente de los RCT es "el problema del transporte", que destaca que lo que funciona dentro de una población no necesariamente funciona dentro de otra población, lo que significa que el efecto promedio del tratamiento no es aplicable en diferentes unidades de asignación. ^[15]

Experimentos naturales

Los experimentos naturales se utilizan porque estos métodos relajan la tensión inherente a los enfoques de recolección de datos de laboratorio controlados y de campo no controlados. ^[16] Los experimentos naturales aprovechan eventos fuera del control de los investigadores y los sujetos para abordar varias amenazas a la validez interna, minimizando la posibilidad de elementos de confusión, mientras sacrifican algunas de las características de los datos de campo, como rangos más naturales de efectos del tratamiento y la presencia de un contexto formado orgánicamente. ^[16] Un problema principal con los experimentos naturales es la cuestión de la replicabilidad. El trabajo de laboratorio, cuando se describe y se repite adecuadamente, debería poder producir resultados similares. Debido a la singularidad de los experimentos naturales, la replicación a menudo se limita al análisis de datos alternativos de un evento similar. ^[16]

Enfoques no experimentales

Diseño cuasi-experimental

Los métodos cuasiexperimentales pueden eliminar el sesgo que surge de la selección de variables observables y, cuando se dispone de datos de panel, de variables no observables invariables en el tiempo. Los métodos cuasiexperimentales incluyen el emparejamiento, la diferenciación, las variables instrumentales y el enfoque de secuenciación; por lo general, se llevan a cabo mediante análisis de regresión multivariante .

Si se conocen y se observan las características de selección, se pueden controlar para eliminar el sesgo. El emparejamiento implica comparar a los participantes del programa con los no participantes en función de las características de selección observadas. El emparejamiento por puntaje de propensión (PSM) utiliza un modelo estadístico para calcular la probabilidad de participar en función de un conjunto de características observables y empareja a los participantes y no participantes con puntajes de probabilidad similares. El diseño de regresión discontinua explota una regla de decisión sobre quién recibe y quién no recibe la intervención para comparar los resultados de aquellos que se encuentran justo en ambos lados de este límite.

Las diferencias en diferencias o diferencias dobles, que utilizan datos recopilados al inicio y al final del estudio para los grupos de intervención y comparación, se pueden utilizar para explicar el sesgo de selección bajo el supuesto de que los factores no observables que determinan la selección son fijos a lo largo del tiempo (invariantes en el tiempo).

La estimación de variables instrumentales da cuenta del sesgo de selección al modelar la participación utilizando factores ('instrumentos') que están correlacionados con la selección pero no con el resultado, aislando así los aspectos de la participación en el programa que pueden tratarse como exógenos.

El método de distribución de beneficiarios ( diseño de cuña escalonada ) utiliza como grupo de comparación a los beneficiarios ya seleccionados para participar en un proyecto en una etapa posterior. Se supone que, como han sido seleccionados para recibir la intervención en el futuro, son similares al grupo de tratamiento y, por lo tanto, comparables en términos de las variables de resultado de interés. Sin embargo, en la práctica, no se puede garantizar que los grupos de tratamiento y de comparación sean comparables y será necesario aplicar algún método de emparejamiento para verificar la comparabilidad.

Diseño no experimental

Las evaluaciones de impacto no experimentales se denominan así porque no implican un grupo de comparación que no tenga acceso a la intervención. El método utilizado en la evaluación no experimental es comparar grupos de intervención antes y después de la implementación de la intervención. Las evaluaciones de series temporales interrumpidas (ITS) de la intervención requieren múltiples puntos de datos sobre individuos tratados antes y después de la intervención, mientras que los diseños antes versus después (o pre-test-post-test) simplemente requieren un solo punto de datos antes y después. Los análisis post-test incluyen datos posteriores a la intervención solo del grupo de intervención. Los diseños no experimentales son el diseño de evaluación más débil, porque para mostrar una relación causal entre la intervención y los resultados de manera convincente, la evaluación debe demostrar que cualquier explicación alternativa probable para los resultados es irrelevante. Sin embargo, quedan aplicaciones para las que este diseño es relevante, por ejemplo, para calcular el ahorro de tiempo de una intervención que mejora el acceso a los servicios. Además, puede haber casos en los que los diseños no experimentales sean el único diseño de evaluación de impacto factible, como programas implementados universalmente o reformas de políticas nacionales en las que no es probable que existan grupos de comparación aislados.

Sesgos en la estimación de los efectos del programa

Los experimentos de campo aleatorios son los diseños de investigación más eficaces para evaluar el impacto de un programa. Se dice que este diseño de investigación en particular suele ser el diseño de elección cuando es factible, ya que permite una estimación justa y precisa de los efectos reales del programa (Rossi, Lipsey y Freeman, 2004).

Dicho esto, los experimentos de campo aleatorios no siempre son factibles de llevar a cabo y en estas situaciones hay diseños de investigación alternativos que están a disposición de un evaluador. Sin embargo, el problema principal es que, independientemente del diseño que elija un evaluador, es propenso a un problema común: independientemente de lo bien pensado o bien implementado que esté el diseño, cada diseño está sujeto a producir estimaciones sesgadas de los efectos del programa. Estos sesgos desempeñan el papel de exagerar o disminuir los efectos del programa. No solo eso, sino que la dirección que puede tomar el sesgo generalmente no se puede conocer de antemano (Rossi et al., 2004). Estos sesgos afectan el interés de la parte interesada. Además, es posible que los participantes del programa se vean en desventaja si el sesgo es de tal manera que contribuye a hacer que un programa ineficaz o dañino parezca eficaz. También existe la posibilidad de que un sesgo pueda hacer que un programa eficaz parezca ineficaz o incluso perjudicial. Esto podría hacer que los logros del programa parezcan pequeños o incluso insignificantes, forzando así al personal e incluso provocando que los patrocinadores del programa reduzcan o eliminen la financiación del mismo (Rossi et al., 2004).

Se puede decir con seguridad que si un diseño inadecuado produce sesgos, los principales interesados serán los que en gran medida sean responsables de la financiación del programa; los resultados de la evaluación ayudan a los interesados a decidir si se debe continuar o no financiando el programa, porque la decisión final recae en los financiadores y los patrocinadores. No sólo son los interesados los principales interesados, sino que quienes participan en el programa o aquellos a quienes el programa pretende afectar positivamente se verán afectados por el diseño elegido y el resultado obtenido con dicho diseño. Por lo tanto, la preocupación del evaluador es minimizar la cantidad de sesgos en la estimación de los efectos del programa (Rossi et al., 2004).

Los sesgos suelen ser visibles en dos situaciones: cuando la medición del resultado con la exposición al programa o la estimación de lo que habría sido el resultado sin la exposición al programa es mayor o menor que el valor "real" correspondiente (pág. 267). Lamentablemente, no todas las formas de sesgo que pueden comprometer la evaluación de impacto son obvias (Rossi et al., 2004).

La forma más común de diseño de evaluación de impacto es comparar dos grupos de individuos u otras unidades, un grupo de intervención que recibe el programa y un grupo de control que no lo recibe. La estimación del efecto del programa se basa entonces en la diferencia entre los grupos en una medida de resultado adecuada (Rossi et al., 2004). La asignación aleatoria de individuos a los grupos de programa y control permite hacer el supuesto de equivalencia continua. Las comparaciones de grupos que no se han formado mediante aleatorización se conocen como diseños de comparación no equivalentes (Rossi et al., 2004).

Sesgo de selección

Cuando no se cumple el supuesto de equivalencia, la diferencia de resultados entre los grupos que se habrían obtenido de todas formas crea una forma de sesgo en la estimación de los efectos del programa. Esto se conoce como sesgo de selección (Rossi et al., 2004). Crea una amenaza a la validez de la estimación del efecto del programa en cualquier evaluación de impacto que utilice un diseño de comparación de grupos no equivalentes y aparece en situaciones en las que algún proceso responsable de influencias que no se conocen completamente selecciona qué individuos estarán en qué grupo en lugar de que la asignación a los grupos se determine por pura casualidad (Rossi et al., 2004). Esto puede deberse a la autoselección de los participantes o a la ubicación en el programa (sesgo de ubicación). ^[17]

El sesgo de selección puede producirse a través de procesos naturales o deliberados que provocan una pérdida de datos de resultados para los miembros de los grupos de intervención y control que ya se han formado. Esto se conoce como deserción y puede producirse de dos maneras (Rossi et al., 2004): los sujetos abandonan la intervención o no se puede llegar al grupo de control o los sujetos se niegan a cooperar en la medición de resultados. Se supone que hay deserción diferencial cuando la deserción se produce como resultado de algo que no sea un proceso de azar explícito (Rossi et al., 2004). Esto significa que "no se puede suponer que los individuos que pertenecían al grupo de intervención cuyos datos de resultados faltan tengan las mismas características relevantes para los resultados que los del grupo de control cuyos datos de resultados faltan" (Rossi et al., 2004, pág. 271). Sin embargo, los diseños de asignación aleatoria no están a salvo del sesgo de selección que es inducido por la deserción (Rossi et al., 2004).

Otras formas de sesgo

Existen otros factores que pueden ser responsables del sesgo en los resultados de una evaluación de impacto. Estos generalmente tienen que ver con eventos o experiencias distintas a la recepción del programa que ocurren durante la intervención. Estos sesgos incluyen tendencias seculares, eventos que interfieren y maduración (Rossi et al., 2004).

Tendencias seculares o deriva secular

Las tendencias seculares pueden definirse como tendencias relativamente a largo plazo en la comunidad, región o país. También se las denomina deriva secular y pueden producir cambios que potencien o enmascaren los efectos aparentes de una intervención (Rossi et al., 2004). Por ejemplo, cuando la tasa de natalidad de una comunidad está disminuyendo, un programa para reducir la fertilidad puede parecer eficaz debido al sesgo que surge de esa tendencia a la baja (Rossi et al., 2004, pág. 273).

Eventos que interfieren

Los eventos que interfieren son similares a las tendencias seculares; en este caso son los eventos de corto plazo los que pueden producir cambios que pueden introducir sesgos en las estimaciones del efecto del programa, como por ejemplo un corte de energía que interrumpe las comunicaciones o dificulta la entrega de suplementos alimenticios puede interferir con un programa de nutrición (Rossi et al., 2004, pág. 273).

Maduración

La evaluación de impacto debe tener en cuenta el hecho de que los procesos naturales de maduración y desarrollo pueden producir cambios considerables independientemente del programa. La inclusión de estos cambios en las estimaciones de los efectos del programa daría lugar a estimaciones sesgadas. Un ejemplo de esta forma de sesgo sería un programa para mejorar las prácticas de salud preventiva entre los adultos que puede parecer ineficaz porque la salud generalmente se deteriora con la edad (Rossi et al., 2004, pág. 273).

"El mantenimiento cuidadoso de circunstancias comparables para los grupos del programa y de control entre la asignación aleatoria y la medición de los resultados debería evitar el sesgo debido a la influencia de otras experiencias o eventos diferenciales en los grupos. Si alguna de estas condiciones está ausente del diseño, existe la posibilidad de sesgo en las estimaciones del efecto del programa" (Rossi et al., 2004, pág. 274).

Métodos de estimación

Los métodos de estimación siguen en líneas generales los diseños de evaluación. Los diferentes diseños requieren diferentes métodos de estimación para medir los cambios en el bienestar a partir del contrafactual. En la evaluación experimental y cuasiexperimental, el impacto estimado de la intervención se calcula como la diferencia en los resultados medios entre el grupo de tratamiento (aquellos que reciben la intervención) y el grupo de control o comparación (aquellos que no la reciben). Este método también se denomina ensayos controlados aleatorios (ECA). Según una entrevista con Jim Rough, ex representante de la Asociación Estadounidense de Evaluación, en la revista D+C Development and Cooperation , este método no funciona para asuntos complejos y de múltiples capas. El estimador de diferencia simple compara los resultados medios al final de la evaluación y es válido cuando los grupos de tratamiento y control tienen los mismos valores de resultado al inicio. El estimador de diferencia en diferencia (o doble diferencia) calcula la diferencia en el cambio en el resultado a lo largo del tiempo para los grupos de tratamiento y comparación, utilizando así los datos recopilados al inicio de la evaluación para ambos grupos y una segunda ronda de datos recopilados al final de la evaluación, después de la implementación de la intervención, que puede ser años después. ^[18]

Las evaluaciones de impacto que tienen que comparar los resultados promedio en el grupo de tratamiento, independientemente de la participación de los beneficiarios (también denominados "cumplimiento" o "adherencia"), con los resultados en el grupo de comparación se denominan análisis por intención de tratar (ITT). Las evaluaciones de impacto que comparan los resultados entre los beneficiarios que cumplen o se adhieren a la intervención en el grupo de tratamiento con los resultados en el grupo de control se denominan análisis de tratamiento sobre el tratado (TOT). Por lo tanto, el ITT proporciona una estimación del impacto de límite inferior, pero podría decirse que tiene mayor relevancia política que el TOT en el análisis de programas voluntarios. ^[19]

Debates

Si bien existe acuerdo sobre la importancia de la evaluación de impacto y está surgiendo un consenso en torno al uso de métodos de evaluación contrafactual, también ha habido un debate generalizado en los últimos años tanto sobre la definición de la evaluación de impacto como sobre el uso de métodos apropiados (véase White 2009 ^[20] para una descripción general).

Definiciones

La Iniciativa Internacional para la Evaluación de Impacto (3ie) define las evaluaciones de impacto rigurosas como: "análisis que miden el cambio neto en los resultados para un grupo particular de personas que pueden atribuirse a un programa específico utilizando la mejor metodología disponible, factible y apropiada para la pregunta de evaluación que se está investigando y para el contexto específico". ^[21]

Según la Iniciativa DIME del Banco Mundial, “las evaluaciones de impacto comparan los resultados de un programa con un escenario contrafactual que muestra lo que habría sucedido a los beneficiarios sin el programa. A diferencia de otras formas de evaluación, permiten atribuir los cambios observados en los resultados al programa que se está evaluando siguiendo diseños experimentales y cuasiexperimentales”. ^[22]

De manera similar, según la Agencia de Protección Ambiental de Estados Unidos , la evaluación de impacto es una forma de evaluación que mide el efecto neto de un programa comparando los resultados del programa con una estimación de lo que habría sucedido en ausencia del programa. ^[23]

Según el Grupo de Evaluación Independiente (GEI) del Banco Mundial, la evaluación de impacto es la identificación sistemática de los efectos positivos o negativos, intencionales o no, sobre los hogares individuales, las instituciones y el medio ambiente, causados por una determinada actividad de desarrollo, como un programa o proyecto. ^[24]

La evaluación de impacto se ha definido de diferentes maneras en las últimas décadas. ^[6] Otras interpretaciones de la evaluación de impacto incluyen:

Una evaluación que analiza el impacto de una intervención en los resultados finales de bienestar, en lugar de sólo los resultados del proyecto, o una evaluación de proceso que se centra en la implementación;
Una evaluación realizada algún tiempo (de cinco a diez años) después de que se haya completado la intervención, a fin de dar tiempo a que se manifieste el impacto; y
Una evaluación que considera todas las intervenciones dentro de un sector o área geográfica determinada.

Otros autores distinguen entre “evaluación de impacto” y “valoración de impacto”. La “evaluación de impacto” utiliza técnicas empíricas para estimar los efectos de las intervenciones y su significación estadística, mientras que la “evaluación de impacto” incluye un conjunto más amplio de métodos, incluidas simulaciones estructurales y otros enfoques que no pueden comprobar la significación estadística. ^[17]

Las definiciones comunes de “impacto” que se utilizan en la evaluación generalmente se refieren a la totalidad de las consecuencias a largo plazo asociadas con una intervención sobre los resultados en materia de calidad de vida. Por ejemplo, el Comité de Asistencia para el Desarrollo de la Organización para la Cooperación y el Desarrollo Económicos (CAD-OCDE) define el impacto como los “efectos positivos y negativos, primarios y secundarios a largo plazo producidos por una intervención de desarrollo, directa o indirectamente, intencionales o no intencionales”. ^[25] Varias agencias internacionales también han adoptado esta definición de impacto. Por ejemplo, UNICEF define el impacto como “los resultados a largo plazo de un programa –técnicos, económicos, socioculturales, institucionales, ambientales u otros– ya sean intencionales o no intencionales. El impacto intencional debe corresponder al objetivo del programa”. ^[26] De manera similar, Evaluationwiki.org define la evaluación de impacto como una evaluación que mira más allá de los resultados inmediatos de las políticas, la instrucción o los servicios para identificar los efectos a largo plazo y no intencionales del programa. ^[27]

Técnicamente, se podría realizar una evaluación para evaluar el "impacto" tal como se define aquí sin hacer referencia a un contrafactual. Sin embargo, gran parte de la literatura existente (por ejemplo, las Directrices de la NONIE sobre evaluación de impacto ^[28]) adopta la definición de impacto del CAD de la OCDE, al tiempo que hace referencia a las técnicas utilizadas para atribuir el impacto a una intervención como necesariamente basadas en un análisis contrafactual.

Lo que falta en el término evaluación de "impacto" es la forma en que el "impacto" se manifiesta a largo plazo. Por ejemplo, la mayoría de los planes de "marco lógico" de seguimiento y evaluación tienen insumos, productos, resultados y... impactos. Mientras que los tres primeros aparecen durante la duración del proyecto, el impacto tarda mucho más en manifestarse. Por ejemplo, en un proyecto agrícola de cinco años, las semillas son insumos, los agricultores capacitados para usarlas son nuestros productos, los cambios en el rendimiento de los cultivos como resultado de que las semillas se planten correctamente son un resultado y las familias que tienen una seguridad alimentaria más sostenible a lo largo del tiempo son un impacto. Estas evaluaciones de impacto posteriores al proyecto son muy poco frecuentes. También se las llama evaluaciones ex post o estamos acuñando el término de evaluaciones de impacto sostenidas. Si bien cientos de miles de documentos las exigen, rara vez los donantes tienen la flexibilidad financiera -o el interés- para volver a ver cuán sostenidas y duraderas se mantuvieron nuestras intervenciones después del cierre del proyecto, después de que se retiraron los recursos. Hay muchas lecciones que aprender sobre el diseño, la implementación, el seguimiento y la evaluación y cómo fomentar la apropiación del proyecto por parte de los países.

Debates metodológicos

En los círculos académicos existe un intenso debate sobre las metodologías adecuadas para la evaluación de impacto, entre los defensores de los métodos experimentales por un lado y los defensores de metodologías más generales por el otro. William Easterly se ha referido a esto como "La guerra civil en la economía del desarrollo". Los defensores de los diseños experimentales, a veces llamados "randomistas", ^[8] sostienen que la aleatorización es el único medio para garantizar que se tenga en cuenta el sesgo de selección no observable, y que la creación de la débil base de evidencia experimental debe desarrollarse como una cuestión prioritaria. ^[29] En contraste, otros sostienen que la asignación aleatoria rara vez es adecuada para las intervenciones de desarrollo e incluso cuando lo es, los experimentos nos brindan información sobre los resultados de una intervención específica aplicada a un contexto específico, y poco de relevancia externa. ^[30] Ha habido críticas de los organismos de evaluación y otros de que algunos donantes y académicos enfatizan demasiado los métodos preferidos para la evaluación de impacto, ^[31] y que esto de hecho puede obstaculizar el aprendizaje y la rendición de cuentas. ^[32] Además, ha habido un debate sobre el papel apropiado de los métodos cualitativos dentro de las evaluaciones de impacto. ^[33]^[34]

Evaluación de impacto basada en teoría

Si bien el conocimiento de la eficacia es vital, también es importante comprender las razones de la eficacia y las circunstancias en las que es probable que se repitan los resultados. A diferencia de los enfoques de evaluación de impacto de "caja negra", que solo informan las diferencias medias en los resultados entre los grupos de tratamiento y de comparación, la evaluación de impacto basada en la teoría implica trazar un mapa de la cadena causal desde los insumos hasta los resultados y el impacto y poner a prueba los supuestos subyacentes. ^[35]^[28] La mayoría de las intervenciones en el ámbito de las políticas públicas son de naturaleza voluntaria, en lugar de coercitiva (obligatoria por ley). Además, las intervenciones suelen ser activas en lugar de pasivas, y requieren un mayor grado de participación entre los beneficiarios en lugar de un menor y, por lo tanto, un cambio de comportamiento como requisito previo para la eficacia. Por lo tanto, la política pública tendrá éxito en la medida en que las personas se sientan incentivadas a cambiar su comportamiento de manera favorable. Un enfoque basado en la teoría permite a los responsables de las políticas comprender las razones de los diferentes niveles de participación en el programa (lo que se conoce como "cumplimiento" o "adherencia") y los procesos que determinan el cambio de comportamiento. Los enfoques basados en la teoría utilizan la recopilación de datos tanto cuantitativos como cualitativos, y estos últimos pueden ser particularmente útiles para comprender las razones del cumplimiento y, por lo tanto, si la intervención puede reproducirse en otros entornos y de qué manera. Los métodos de recopilación de datos cualitativos incluyen grupos de discusión, entrevistas en profundidad, diagnósticos rurales participativos y visitas de campo, así como la lectura de literatura antropológica y política.

White (2009b) ^[35] aboga por una aplicación más generalizada de un enfoque basado en la teoría para la evaluación de impacto como un medio para mejorar la relevancia política de las evaluaciones de impacto, y describe seis principios clave del enfoque basado en la teoría:

Trace la cadena causal (teoría del programa) que explica cómo se espera que la intervención conduzca a los resultados previstos y recopile datos para probar las suposiciones subyacentes de los vínculos causales.
Comprender el contexto, incluido el entorno social, político y económico de la intervención.
Anticipar la heterogeneidad para ayudar a identificar subgrupos y ajustar el tamaño de la muestra para tener en cuenta los niveles de desagregación que se utilizarán en el análisis.
Evaluación rigurosa del impacto utilizando un contrafactual creíble (como se discutió anteriormente).
Análisis factual riguroso de los eslabones de la cadena causal.
Utilice métodos mixtos (una combinación de métodos cuantitativos y cualitativos).

Ejemplos

Si bien desde los años 1980 se han utilizado metodologías de evaluación de impacto experimentales para evaluar intervenciones en nutrición, agua y saneamiento en países en desarrollo, la primera y más conocida aplicación de métodos experimentales a un programa de desarrollo a gran escala es la evaluación del programa de Transferencias Monetarias Condicionadas (TMC) Progresa (ahora llamado Oportunidades ) en México, que examinó una variedad de resultados de desarrollo, incluyendo la escolaridad, las tasas de inmunización y el trabajo infantil. ^[36]^[37] Desde entonces, varios gobiernos de América Latina y otros lugares han implementado programas de TMC, y un informe publicado por el Banco Mundial en febrero de 2009 examina el impacto de las TMC en veinte países. ^[38]

Más recientemente, la evaluación de impacto se ha aplicado a una variedad de intervenciones en los sectores sociales y productivos. 3ie ha lanzado una base de datos en línea de evaluaciones de impacto que abarca estudios realizados en países de ingresos bajos y medios. Otras organizaciones que publican evaluaciones de impacto son Innovations for Poverty Action, la Iniciativa DIME del Banco Mundial y NONIE. El IEG del Banco Mundial ha evaluado y resumido sistemáticamente la experiencia de diez evaluaciones de impacto de programas de desarrollo en varios sectores realizadas en los últimos 20 años. ^[39]

Organizaciones que promueven la evaluación del impacto de las intervenciones de desarrollo

En 2006, el Grupo de Trabajo sobre la Brecha de Evaluación ^[40] abogó por la existencia de una importante brecha en la evidencia sobre las intervenciones de desarrollo y, en particular, por la creación de un organismo independiente para colmarla financiando y promoviendo una evaluación de impacto rigurosa en los países de ingresos bajos y medios. La Iniciativa Internacional para la Evaluación de Impacto (3ie) se creó en respuesta a este informe. 3ie busca mejorar las vidas de las personas pobres en los países de ingresos bajos y medios proporcionando y resumiendo evidencia de lo que funciona, cuándo, por qué y por cuánto. 3ie opera un programa de subvenciones que financia estudios de impacto en países de ingresos bajos y medios y revisiones sintéticas de la evidencia existente que se actualiza a medida que aparecen nuevas evidencias, y apoya la evaluación de impacto de calidad a través de sus servicios de garantía de calidad.

Otra iniciativa dedicada a la evaluación de los impactos es el Comité de Evaluación de la Sostenibilidad (COSA, por sus siglas en inglés). El COSA es un consorcio mundial de instituciones sin fines de lucro, sostenido en asociación con la Iniciativa de Productos Básicos Sostenibles del Instituto Internacional para el Desarrollo Sostenible (IISD), la Conferencia de las Naciones Unidas sobre Comercio y Desarrollo (UNCTAD) y el Centro de Comercio Internacional de las Naciones Unidas (ITC). El COSA está desarrollando y aplicando una herramienta de medición independiente para analizar los distintos impactos sociales, ambientales y económicos de las prácticas agrícolas, y en particular los asociados con la implementación de programas de sostenibilidad específicos (orgánicos, de comercio justo, etc.). El objetivo de la iniciativa es establecer indicadores globales y herramientas de medición que los agricultores, los responsables de las políticas y la industria puedan utilizar para comprender y mejorar su sostenibilidad con diferentes cultivos o sectores agrícolas. El COSA tiene como objetivo facilitar esto al permitirles calcular con precisión los costos y beneficios relativos de participar en cualquier iniciativa de sostenibilidad determinada.

Se han creado varias organizaciones adicionales para promover la evaluación de impacto a nivel mundial, entre ellas Innovations for Poverty Action, el Fondo de Evaluación de Impacto Estratégico (SIEF) del Banco Mundial, la Iniciativa de Evaluación de Impacto en el Desarrollo (DIME) del Banco Mundial, la Iniciativa de Aprendizaje y Cambio Institucional (ILAC) del CGIAR y la Red de Redes sobre Evaluación de Impacto (NONIE).

Revisiones sistemáticas de evidencia de impacto

Varias organizaciones están trabajando para coordinar la producción de revisiones sistemáticas . Las revisiones sistemáticas tienen como objetivo superar la brecha entre investigación y políticas mediante la evaluación de la gama de evidencia existente sobre un tema en particular y la presentación de la información en un formato accesible. Al igual que las evaluaciones de impacto rigurosas, se desarrollan a partir de un protocolo de estudio que establece a priori los criterios para la inclusión del estudio, la búsqueda y los métodos de síntesis. Las revisiones sistemáticas implican cinco pasos clave: determinación de las intervenciones, poblaciones, resultados y diseños de estudio que se incluirán; búsquedas para identificar literatura publicada y no publicada, y aplicación de los criterios de inclusión del estudio (relacionados con las intervenciones, las poblaciones, los resultados y el diseño del estudio), como se establece en el protocolo del estudio; codificación de la información de los estudios; presentación de estimaciones cuantitativas sobre la efectividad de la intervención utilizando diagramas de bosque y, cuando se determina que las intervenciones son adecuadamente homogéneas, cálculo de una estimación resumida agrupada utilizando metanálisis; finalmente, las revisiones sistemáticas deben actualizarse periódicamente a medida que surgen nuevas evidencias. Las revisiones sistemáticas también pueden implicar la síntesis de información cualitativa, por ejemplo relacionada con las barreras o los facilitadores de la efectividad de la intervención.

Véase también

Referencias

^ Grupo de Pobreza del Banco Mundial sobre Evaluación de Impacto, consultado el 6 de enero de 2008
^ "White, H. (2006) Evaluación de impacto: la experiencia del Grupo de evaluación independiente del Banco Mundial, Banco Mundial, Washington, DC, p. 3" (PDF) . Archivado desde el original (PDF) el 2018-02-19 . Consultado el 2010-01-07 .
^ "Gertler, Martinez, Premand, Rawlings y Vermeersch (2011) Impact Evaluation in Practice, Washington, DC: Banco Mundial". Archivado desde el original el 17 de julio de 2011. Consultado el 15 de diciembre de 2010 .
^ "Iniciar sesión" (PDF) . Consultado el 16 de enero de 2017 .
^ "Iniciar sesión" (PDF) . Consultado el 16 de enero de 2017 .
^ ab "White, H. (2006) Evaluación de impacto: la experiencia del Grupo de evaluación independiente del Banco Mundial, Banco Mundial, Washington, DC" (PDF) . Archivado desde el original (PDF) el 19 de febrero de 2018. Consultado el 7 de enero de 2010 .
^ Ravallion, M. (2008) Evaluación de programas contra la pobreza
^ ab Martin, Ravallion (1 de enero de 2009). "¿Deberían gobernar los randomistas?". 6 (2): 1–5 . Recuperado el 16 de enero de 2017 – vía RePEc - IDEAS. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Nótese que se ha argumentado que “ Randomistas es un término de la jerga utilizado por los críticos para describir a los defensores de la metodología RCT. Es casi seguro que se trata de un término despectivo y de género destinado a desestimar con ligereza a los economistas experimentales y su éxito, en particular a Esther Duflo, una de las expertas más exitosas en aleatorización”. Véase Webber, S. y Prouse, C. (2018). The New Gold Standard: The Rise of Randomized Control Trials and Experimental Development. Economic Geography, 94(2), 166–187.
^ ab Bamberger, M. y White, H. (2007) Uso de diseños de evaluación sólidos en países en desarrollo: experiencia y desafíos, Journal of MultiDisciplinary Evaluation, volumen 4, número 8, 58-73
^ Scriven (2008) Una evaluación sumativa de la metodología RCT: y un enfoque alternativo a la investigación causal, Journal of MultiDisciplinary Evaluation , volumen 5, número 9, 11-24
^ Deaton, Angus (1 de enero de 2009). "Instrumentos de desarrollo: aleatorización en los trópicos y la búsqueda de las esquivas claves del desarrollo económico". SSRN 1335715. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Hariton, Eduardo; Locascio, Joseph J. (diciembre de 2018). "Ensayos controlados aleatorizados: el estándar de oro para la investigación de la efectividad". BJOG: Revista internacional de obstetricia y ginecología . 125 (13): 1716. doi :10.1111/1471-0528.15199. ISSN 1470-0328. PMC 6235704 . PMID 29916205.
^ ab White, Howard (8 de marzo de 2013). "Introducción al uso de ensayos controlados aleatorios para evaluar intervenciones de desarrollo". Journal of Development Effectiveness . 5 : 30–49. doi : 10.1080/19439342.2013.764652 . S2CID 51812043.
^ ab Deaton, Angus; Cartwright, Nancy (9 de noviembre de 2016). «Las limitaciones de los ensayos controlados aleatorios». VoxEU.org . Consultado el 26 de octubre de 2020 .
^ abc Roe, Brian E.; Just, David R. (diciembre de 2009). "Validez interna y externa en la investigación económica: compensaciones entre experimentos, experimentos de campo, experimentos naturales y datos de campo". American Journal of Agricultural Economics . 91 (5): 1266–1271. doi :10.1111/j.1467-8276.2009.01295.x. ISSN 0002-9092.
^ ab White, Howard; Raitzer, David (2017). Evaluación de impacto de intervenciones de desarrollo: una guía práctica (PDF) . Manila: Banco Asiático de Desarrollo. ISBN 978-92-9261-059-3.
^ Rugh, Jim (22 de junio de 2012). "Un martillo en busca de clavos". D+C Development and Cooperation . 2012 (7): 300.
^ Bloom, H. (2006) El análisis básico de experimentos aleatorios para la investigación social. Documentos de trabajo del MDRC sobre metodología de investigación. MDRC, Nueva York
^ "White, H. (2009) Algunas reflexiones sobre los debates actuales en materia de evaluación de impacto, Documento de trabajo 1, Iniciativa Internacional para la Evaluación de Impacto, Nueva Delhi". Archivado desde el original el 8 de enero de 2013. Consultado el 29 de octubre de 2012 .
^ "Iniciar sesión" (PDF) . Consultado el 16 de enero de 2017 .
^ Banco Mundial (sin fecha) Iniciativa de evaluación del impacto del desarrollo (DIME), Documento de proyecto, Banco Mundial, Washington, DC
^ Glosario de evaluación de programas de la Agencia de Protección Ambiental de Estados Unidos, consultado el 6 de enero de 2008
^ Grupo de Evaluación Independiente del Banco Mundial, consultado el 6 de enero de 2008
^ OCDE-CAD (2002) Glosario de términos clave en evaluación y gestión basada en resultados: propuesta de terminología armonizada, OCDE, París
^ UNICEF (2004) Normas para los informes de evaluación de UNICEF, Oficina de evaluación, Sede de UNICEF en Nueva York, Nueva York
^ "Definición de evaluación: ¿Qué es la evaluación? - EvaluationWiki" . Consultado el 16 de enero de 2017 .
^ ab "Página no encontrada" . Consultado el 16 de enero de 2017 . {{cite web}}: La cita utiliza un título genérico ( ayuda )
^ "Banerjee, AV (2007) 'Making Aid Work' Cambridge, Boston Review Book, MIT Press, MA" (PDF) . Consultado el 16 de enero de 2017 .^{[ enlace muerto permanente ]}
^ Bamberger, M. y White, H. (2007) Uso de diseños de evaluación sólidos en países en desarrollo: experiencia y desafíos, Journal of MultiDisciplinary Evaluation, volumen 4, número 8, 58-73
^ http://www.europeanevaluation.org/download/?noGzip=1&id=1969403 ^{[ enlace muerto permanente ]} Declaración de la EES sobre la importancia de un enfoque metodológicamente diverso para la evaluación de impacto
^ http://www.odi.org.uk/resources/odi-publications/opinions/127-impact-evaluation.pdf El "estándar de oro" no es una solución milagrosa para la evaluación
^ "Eficacia de la ayuda: el papel de la investigación cualitativa en la evaluación de impacto". 27 de junio de 2014.
^ Prowse, Martin; Camfield, Laura (2013). "Mejorar la calidad de la asistencia para el desarrollo". Progress in Development Studies . 13 : 51–61. doi :10.1177/146499341201300104. S2CID 44482662.
^ ab "White, H. (2009b) Theory-based impact evaluation: Principles and practice, Working Paper 3, International Initiative for Impact Evaluation, Nueva Delhi". Archivado desde el original el 2012-11-06 . Consultado el 2012-10-29 .
^ Gertler, P. (2000) Informe final: El impacto de PROGRESA en la salud. Instituto Internacional de Investigación sobre Políticas Alimentarias, Washington, DC
^ "Documento sin título" (PDF) . Consultado el 16 de enero de 2017 .
^ Fiszbein, A. y Schady, N. (2009) Transferencias condicionales de efectivo: reducción de la pobreza presente y futura: Informe de investigación sobre políticas del Banco Mundial, Banco Mundial, Washington, DC
^ Evaluación de impacto: la experiencia del Grupo de Evaluación Independiente del Banco Mundial, 2006
^ "¿Cuándo aprenderemos? Mejorar vidas a través de la evaluación de impacto" . Consultado el 16 de enero de 2017 .

Fuentes y enlaces externos

Gertler, Martínez, Premand, Rawlings y Vermeersch (2011) Evaluación de impacto en la práctica, Washington, DC: Banco Mundial
Grupo de Pobreza del Banco Mundial Grupo de Pobreza del Banco Mundial
Grupo de Evaluación Independiente del Banco Mundial o en Wikipedia Grupo de Evaluación Independiente
Baker, Judy. 2000. Evaluación del impacto de los proyectos de desarrollo en la pobreza: Manual para profesionales. Directions in Development, Banco Mundial, Washington, DC
Iniciativa internacional para la evaluación de impacto
Innovaciones para la lucha contra la pobreza
Comité de Evaluación de la Sostenibilidad (COSA)
Instituto Internacional para el Desarrollo Sostenible (IISD)
Centro de Comercio Internacional de las Naciones Unidas (ITC)