Evaluación de impacto

La evaluación de impacto evalúa los cambios que pueden atribuirse a una intervención particular, como un proyecto, programa o política, tanto los previstos como, idealmente, los no previstos. ^[1] A diferencia del seguimiento de resultados, que examina si se han alcanzado los objetivos, la evaluación de impacto está estructurada para responder a la pregunta: ¿cómo habrían cambiado resultados como el bienestar de los participantes si no se hubiera llevado a cabo la intervención? Esto implica un análisis contrafactual, es decir, "una comparación entre lo que realmente sucedió y lo que habría sucedido en ausencia de la intervención". ^[2] Las evaluaciones de impacto buscan responder preguntas de causa y efecto. En otras palabras, buscan los cambios en los resultados que son directamente atribuibles a un programa. ^[3]

La evaluación de impacto ayuda a las personas a responder preguntas clave para la formulación de políticas basadas en evidencia: ¿qué funciona, qué no, dónde, por qué y por cuánto? Ha recibido una atención cada vez mayor en la formulación de políticas en los últimos años en el contexto tanto de los países desarrollados como de los países en desarrollo. ^[4] Es un componente importante del arsenal de herramientas y enfoques de evaluación y es parte integral de los esfuerzos globales para mejorar la eficacia de la entrega de ayuda y el gasto público en general para mejorar los niveles de vida. Originalmente más orientada a la evaluación de programas del sector social en los países en desarrollo, en particular las transferencias monetarias condicionadas , la evaluación de impacto ahora se aplica cada vez más en otras áreas como la agricultura, la energía y el transporte.

Diseños de evaluación contrafactual

El análisis contrafactual permite a los evaluadores atribuir causa y efecto entre intervenciones y resultados. El método "contrafactual" mide lo que les habría sucedido a los beneficiarios en ausencia de la intervención, y el impacto se estima comparando los resultados contrafactuales con los observados bajo la intervención. El desafío clave en la evaluación de impacto es que el contrafactual no puede observarse directamente y debe aproximarse con referencia a un grupo de comparación. Existe una variedad de enfoques aceptados para determinar un grupo de comparación apropiado para el análisis contrafactual, utilizando un diseño de evaluación prospectivo (ex ante) o retrospectivo (ex post). Las evaluaciones prospectivas comienzan durante la fase de diseño de la intervención, lo que implica la recopilación de datos iniciales y finales de los beneficiarios de la intervención (el 'grupo de tratamiento') y los no beneficiarios (el 'grupo de comparación'); pueden implicar la selección de individuos o comunidades en grupos de tratamiento y comparación. Las evaluaciones retrospectivas generalmente se realizan después de la fase de implementación y pueden aprovechar los datos de encuestas existentes, aunque las mejores evaluaciones recopilarán datos lo más cerca posible de la línea de base, para garantizar la comparabilidad de los grupos de intervención y de comparación.

Hay cinco principios clave relacionados con la validez interna (diseño del estudio) y la validez externa (generalización) que las evaluaciones de impacto rigurosas deben abordar: factores de confusión, sesgo de selección , efectos indirectos, contaminación y heterogeneidad del impacto. ^[5]

La confusión ocurre cuando ciertos factores, generalmente relacionados con el nivel socioeconómico, se correlacionan con la exposición a la intervención y, independientemente de la exposición, se relacionan causalmente con el resultado de interés. Por lo tanto, los factores de confusión son explicaciones alternativas para una relación observada (posiblemente espuria) entre la intervención y el resultado.
El sesgo de selección , un caso especial de confusión, ocurre cuando los participantes de la intervención no se seleccionan al azar de la población beneficiaria y los criterios que determinan la selección están correlacionados con los resultados. Los factores no observados , que están asociados con el acceso o la participación en la intervención y que están causalmente relacionados con el resultado de interés, pueden conducir a una relación espuria entre la intervención y el resultado si no se tienen en cuenta. La autoselección ocurre cuando, por ejemplo, personas o comunidades más capaces u organizadas, que tienen más probabilidades de obtener mejores resultados de interés, también tienen más probabilidades de participar en la intervención. La selección endógena de programas ocurre cuando se elige a individuos o comunidades para participar porque se considera que tienen más probabilidades de beneficiarse de la intervención. Ignorar los factores de confusión puede generar un problema de sesgo de variable omitida. En el caso especial del sesgo de selección, la endogeneidad de las variables de selección puede provocar un sesgo de simultaneidad.
El desbordamiento (denominado contagio en el caso de evaluaciones experimentales) ocurre cuando los miembros del grupo de comparación (control) se ven afectados por la intervención.
La contaminación ocurre cuando los miembros de los grupos de tratamiento y/o de comparación tienen acceso a otra intervención que también afecta el resultado de interés.
La heterogeneidad del impacto se refiere a las diferencias en el impacto según el tipo de beneficiario y el contexto. Las evaluaciones de impacto de alta calidad evaluarán el grado en que diferentes grupos (por ejemplo, los desfavorecidos) se benefician de una intervención, así como el efecto potencial del contexto sobre el impacto. El grado en que los resultados sean generalizables determinará la aplicabilidad de las lecciones aprendidas para intervenciones en otros contextos.

Los diseños de evaluación de impacto se identifican por el tipo de métodos utilizados para generar el contrafactual y pueden clasificarse en términos generales en tres categorías (diseños experimentales, cuasiexperimentales y no experimentales) que varían en viabilidad, costo, participación durante el diseño o después de la fase de implementación. la intervención y el grado de sesgo de selección. White (2006) ^[6] y Ravallion (2008) ^[7] analizan enfoques alternativos de evaluación de impacto.

Enfoques experimentales

En las evaluaciones experimentales, los grupos de tratamiento y de comparación se seleccionan al azar y se aíslan tanto de la intervención como de cualquier intervención que pueda afectar el resultado de interés. Estos diseños de evaluación se denominan ensayos de control aleatorios (ECA). En las evaluaciones experimentales, el grupo de comparación se denomina grupo de control . Cuando la aleatorización se implementa en una muestra suficientemente grande sin contagio por la intervención, la única diferencia entre los grupos de tratamiento y control en promedio es que este último no recibe la intervención. Las encuestas por muestreo aleatorio, en las que la muestra para la evaluación se elige al azar, no deben confundirse con los diseños de evaluación experimental, que requieren la asignación aleatoria del tratamiento.

El enfoque experimental a menudo se considera el "estándar de oro" de la evaluación. Es el único diseño de evaluación que puede explicar de manera concluyente el sesgo de selección al demostrar una relación causal entre la intervención y los resultados. La aleatorización y el aislamiento de las intervenciones pueden no ser practicables en el ámbito de la política social y pueden ser éticamente difíciles de defender, ^[8]^[9] aunque puede haber oportunidades para utilizar experimentos naturales. Bamberger y White (2007) ^[10] destacan algunas de las limitaciones de la aplicación de ECA a intervenciones de desarrollo. Scriven (2008) ^[11] ha realizado críticas metodológicas debido a los sesgos introducidos, ya que las intervenciones sociales no pueden ser completamente cegadas , y Deaton (2009) ^[12] ha señalado que en la práctica el análisis de los ECA recurre a la regresión- enfoques basados en políticas que intentan evitar y, por lo tanto, están sujetos a los mismos sesgos potenciales. Otros problemas incluyen los contextos a menudo heterogéneos y cambiantes de las intervenciones, los desafíos logísticos y prácticos, las dificultades con el seguimiento de la prestación de servicios, el acceso a la intervención por parte del grupo de comparación y los cambios en los criterios de selección y/o la intervención a lo largo del tiempo. Por lo tanto, se estima que los RCT sólo son aplicables al 5 por ciento de la financiación para el desarrollo. ^[10]

Ensayos controlados aleatorios (ECA)

Los ECA son estudios que se utilizan para medir la eficacia de una nueva intervención. Es poco probable que demuestren la causalidad por sí solos; sin embargo, la aleatorización reduce el sesgo al tiempo que proporciona una herramienta para examinar las relaciones causa-efecto. ^[13] Los RCT se basan en la asignación aleatoria, lo que significa que esa evaluación casi siempre debe diseñarse ex ante , ya que es raro que la asignación natural de un proyecto sea aleatoria. ^[14] Al diseñar un ECA, es necesario plantearse cinco preguntas clave: qué tratamiento se está probando, cuántos brazos de tratamiento habrá, cuál será la unidad de asignación, qué tamaño de muestra se necesita, ¿La prueba será aleatoria? ^[14] Un ECA bien realizado producirá una estimación creíble sobre el efecto promedio del tratamiento dentro de una población o unidad de asignación específica. ^[15] Una desventaja de los ECA es "el problema del transporte", que describe que lo que funciona dentro de una población no necesariamente funciona dentro de otra población, lo que significa que el efecto promedio del tratamiento no es aplicable a diferentes unidades de asignación. ^[15]

experimentos naturales

Se utilizan experimentos naturales porque estos métodos relajan la tensión inherente del campo no controlado y los enfoques controlados de recopilación de datos de laboratorio. ^[16] Los experimentos naturales aprovechan eventos fuera del control de los investigadores y los sujetos para abordar varias amenazas a la validez interna, minimizando la posibilidad de elementos de confusión, al tiempo que sacrifican algunas de las características de los datos de campo, como rangos más naturales de efectos de tratamiento y la presencia de un contexto formado orgánicamente. ^[16] Un problema principal con los experimentos naturales es la cuestión de la replicabilidad. El trabajo de laboratorio, cuando se describe y repite adecuadamente, debería poder producir resultados similares. Debido a la singularidad de los experimentos naturales, la replicación a menudo se limita al análisis de datos alternativos de un evento similar. ^[dieciséis]

Enfoques no experimentales

Diseño cuasiexperimental

Los enfoques cuasiexperimentales pueden eliminar el sesgo que surge de la selección de observables y, cuando se dispone de datos de panel, de no observables invariantes en el tiempo. Los métodos cuasiexperimentales incluyen el emparejamiento, la diferenciación, las variables instrumentales y el enfoque de canalización; normalmente se llevan a cabo mediante análisis de regresión multivariada .

Si se conocen y observan las características de selección, se pueden controlar para eliminar el sesgo. El emparejamiento implica comparar a los participantes del programa con los no participantes en función de las características de selección observadas. El emparejamiento por puntuación de propensión (PSM) utiliza un modelo estadístico para calcular la probabilidad de participar sobre la base de un conjunto de características observables y empareja a participantes y no participantes con puntuaciones de probabilidad similares. El diseño de discontinuidad de regresión explota una regla de decisión sobre quién recibe y quién no recibe la intervención para comparar los resultados de aquellos que se encuentran a ambos lados de este límite.

Las diferencias en diferencias o diferencias dobles, que utilizan datos recopilados al inicio y al final para los grupos de intervención y de comparación, se pueden utilizar para explicar el sesgo de selección bajo el supuesto de que los factores no observables que determinan la selección se fijan en el tiempo (invariantes en el tiempo).

La estimación de variables instrumentales tiene en cuenta el sesgo de selección modelando la participación utilizando factores ("instrumentos") que están correlacionados con la selección pero no con el resultado, aislando así los aspectos de la participación en el programa que pueden tratarse como exógenos.

El enfoque de canalización ( diseño de cuña escalonada ) utiliza como grupo de comparación a beneficiarios ya elegidos para participar en un proyecto en una etapa posterior. El supuesto es que, como han sido seleccionados para recibir la intervención en el futuro, son similares al grupo de tratamiento y, por lo tanto, comparables en términos de variables de resultado de interés. Sin embargo, en la práctica, no se puede garantizar que los grupos de tratamiento y de comparación sean comparables y será necesario aplicar algún método de emparejamiento para verificar la comparabilidad.

Diseño no experimental

Las evaluaciones de impacto no experimentales se denominan así porque no involucran a un grupo de comparación que no tenga acceso a la intervención. El método utilizado en la evaluación no experimental es comparar grupos de intervención antes y después de la implementación de la intervención. Las evaluaciones de series de tiempo interrumpidas (ITS) de intervención requieren múltiples puntos de datos sobre los individuos tratados antes y después de la intervención, mientras que los diseños de antes versus después (o prueba previa y posterior a la prueba) simplemente requieren un único punto de datos antes y después. Los análisis posteriores a la prueba incluyen datos posteriores a la intervención del grupo de intervención únicamente. Los diseños no experimentales son el diseño de evaluación más débil, porque para mostrar una relación causal entre la intervención y los resultados de manera convincente, la evaluación debe demostrar que cualquier explicación alternativa probable para los resultados es irrelevante. Sin embargo, quedan aplicaciones para las que este diseño es relevante, por ejemplo, al calcular el ahorro de tiempo de una intervención que mejora el acceso a los servicios. Además, puede haber casos en los que los diseños no experimentales sean el único diseño de evaluación de impacto factible, como programas implementados universalmente o reformas de políticas nacionales en los que probablemente no existan grupos de comparación aislados.

Sesgos en la estimación de los efectos del programa

Los experimentos de campo aleatorios son los diseños de investigación más sólidos para evaluar el impacto de un programa. Se dice que este diseño de investigación particular es generalmente el diseño de elección cuando es factible, ya que permite una estimación justa y precisa de los efectos reales del programa (Rossi, Lipsey y Freeman, 2004).

Dicho esto, los experimentos de campo aleatorios no siempre son factibles de realizar y en estas situaciones existen diseños de investigación alternativos que están a disposición de un evaluador. Sin embargo, el principal problema es que, independientemente del diseño que elija un evaluador, es propenso a sufrir un problema común: independientemente de qué tan bien pensado o bien implementado esté el diseño, cada diseño está sujeto a generar estimaciones sesgadas de los efectos del programa. Estos sesgos desempeñan el papel de exagerar o disminuir los efectos del programa. No sólo eso, sino que normalmente no se puede saber de antemano la dirección que puede tomar el sesgo (Rossi et al., 2004). Estos sesgos afectan el interés de las partes interesadas. Además, es posible que los participantes del programa estén en desventaja si el sesgo es tal que contribuye a que un programa ineficaz o perjudicial parezca eficaz. También existe la posibilidad de que un sesgo pueda hacer que un programa eficaz parezca ineficaz o incluso perjudicial. Esto posiblemente podría hacer que los logros del programa parezcan pequeños o incluso insignificantes, obligando al personal e incluso provocando que los patrocinadores del programa reduzcan o eliminen la financiación del programa (Rossi et al., 2004).

Es seguro decir que si un diseño inadecuado genera sesgos, las partes interesadas que son en gran medida responsables de la financiación del programa serán las más preocupadas; Los resultados de la evaluación ayudan a las partes interesadas a decidir si continúan financiando o no el programa porque la decisión final recae en los financiadores y patrocinadores. No sólo las partes interesadas son las más interesadas, sino que aquellos que participan en el programa o aquellos a quienes el programa pretende afectar positivamente se verán afectados por el diseño elegido y el resultado que genere ese diseño elegido. Por lo tanto, la preocupación del evaluador es minimizar la cantidad de sesgo en la estimación de los efectos del programa (Rossi et al., 2004).

Los sesgos normalmente son visibles en dos situaciones: cuando la medición del resultado con la exposición al programa o la estimación de cuál habría sido el resultado sin la exposición al programa es mayor o menor que el valor "verdadero" correspondiente (p267). Desafortunadamente, no todas las formas de sesgo que pueden comprometer la evaluación de impacto son obvias (Rossi et al., 2004).

La forma más común de diseño de evaluación de impacto es comparar dos grupos de individuos u otras unidades, un grupo de intervención que recibe el programa y un grupo de control que no lo recibe. La estimación del efecto del programa se basa entonces en la diferencia entre los grupos en una medida de resultado adecuada (Rossi et al., 2004). La asignación aleatoria de individuos a grupos de programa y de control permite suponer una equivalencia continua. Las comparaciones de grupos que no se han formado mediante aleatorización se conocen como diseños de comparación no equivalentes (Rossi et al., 2004).

Sesgo de selección

Cuando no se cumple el supuesto de equivalencia, la diferencia en el resultado entre los grupos que se habría producido independientemente crea una forma de sesgo en la estimación de los efectos del programa. Esto se conoce como sesgo de selección (Rossi et al., 2004). Crea una amenaza a la validez de la estimación del efecto del programa en cualquier evaluación de impacto que utilice un diseño de comparación de grupos no equivalente y aparece en situaciones donde algún proceso responsable de influencias que no se conocen completamente selecciona qué individuos estarán en qué grupo en lugar del la asignación a grupos está determinada por pura casualidad (Rossi et al., 2004). Esto puede deberse a la autoselección de los participantes o puede deberse a la ubicación en el programa (sesgo de ubicación). ^[17]

El sesgo de selección puede ocurrir a través de procesos naturales o deliberados que causan una pérdida de datos de resultados para los miembros de los grupos de intervención y control que ya se han formado. Esto se conoce como desgaste y puede ocurrir de dos maneras (Rossi et al., 2004): los objetivos abandonan la intervención o no se puede alcanzar el grupo de control o los objetivos se niegan a cooperar en la medición de resultados. El desgaste diferencial se supone cuando el desgaste ocurre como resultado de algo que no es un proceso aleatorio explícito (Rossi et al., 2004). Esto significa que "no se puede suponer que aquellos individuos que pertenecían al grupo de intervención cuyos datos de resultados faltan tengan las mismas características relevantes para los resultados que aquellos del grupo de control cuyos datos de resultados faltan" (Rossi et al., 2004, p271). . Sin embargo, los diseños de asignación aleatoria no están a salvo del sesgo de selección inducido por el desgaste (Rossi et al., 2004).

Otras formas de sesgo

Hay otros factores que pueden ser responsables del sesgo en los resultados de una evaluación de impacto. Estos generalmente tienen que ver con eventos o experiencias distintas a la recepción del programa que ocurren durante la intervención. Estos sesgos incluyen tendencias seculares, eventos de interferencia y maduración (Rossi et al., 2004).

Tendencias seculares o deriva secular

Las tendencias seculares pueden definirse como tendencias de relativamente largo plazo en la comunidad, región o país. Estos también se denominan deriva secular y pueden producir cambios que mejoran o enmascaran los efectos aparentes de una intervención (Rossi et al., 2004). Por ejemplo, cuando la tasa de natalidad de una comunidad está disminuyendo, un programa para reducir la fertilidad puede parecer efectivo debido al sesgo que surge de esa tendencia a la baja (Rossi et al., 2004, p273).

Eventos de interferencia

Los acontecimientos que interfieren son similares a las tendencias seculares; en este caso, son los acontecimientos de corto plazo los que pueden producir cambios que pueden introducir sesgos en las estimaciones del efecto del programa, como por ejemplo un corte de energía que interrumpa las comunicaciones o dificulte la entrega de complementos alimenticios que pueda interferir con un programa de nutrición (Rossi et al., 2004, p273).

Maduración

La evaluación de impacto debe tener en cuenta el hecho de que los procesos naturales de maduración y desarrollo pueden producir cambios considerables independientemente del programa. Incluir estos cambios en las estimaciones de los efectos del programa daría lugar a estimaciones sesgadas. Un ejemplo de esta forma de sesgo sería un programa para mejorar las prácticas de salud preventiva entre adultos que puede parecer ineficaz porque la salud generalmente empeora con la edad (Rossi et al., 2004, p273).

"El mantenimiento cuidadoso de circunstancias comparables para los grupos de programa y control entre la asignación aleatoria y la medición de resultados debería evitar el sesgo debido a la influencia de otras experiencias o eventos diferenciales en los grupos. Si cualquiera de estas condiciones está ausente en el diseño, existe la posibilidad de que se produzca un sesgo en las estimaciones del efecto del programa" (Rossi et al., 2004, p274).

Métodos de estimación

Los métodos de estimación siguen en términos generales los diseños de evaluación. Diferentes diseños requieren diferentes métodos de estimación para medir los cambios en el bienestar a partir del contrafactual. En la evaluación experimental y cuasiexperimental, el impacto estimado de la intervención se calcula como la diferencia en los resultados medios entre el grupo de tratamiento (los que reciben la intervención) y el grupo de control o de comparación (los que no la reciben). Este método también se denomina ensayos controlados aleatorios (ECA). Según una entrevista con Jim Rough, ex representante de la Asociación Estadounidense de Evaluación, en la revista D+C Desarrollo y Cooperación , este método no funciona para asuntos complejos y de múltiples capas. El estimador de diferencia única compara los resultados medios al final del estudio y es válido cuando los grupos de tratamiento y control tienen los mismos valores de resultado al inicio. El estimador de diferencias en diferencias (o doble diferencia) calcula la diferencia en el cambio en el resultado a lo largo del tiempo para los grupos de tratamiento y de comparación, utilizando así datos recopilados al inicio para ambos grupos y una segunda ronda de datos recopilados al final. después de la implementación de la intervención, que puede ser años después. ^[18]

Las evaluaciones de impacto que tienen que comparar los resultados promedio en el grupo de tratamiento, independientemente de la participación de los beneficiarios (también denominadas "cumplimiento" o "adherencia"), con los resultados en el grupo de comparación se denominan análisis de intención de tratar (ITT). . Las evaluaciones de impacto que comparan los resultados entre los beneficiarios que cumplen o se adhieren a la intervención en el grupo de tratamiento con los resultados en el grupo de control se denominan análisis de tratamiento sobre los tratados (TOT). Por lo tanto, ITT proporciona una estimación de impacto de límite inferior, pero podría decirse que tiene mayor relevancia política que TOT en el análisis de programas voluntarios. ^[19]

Debates

Si bien existe acuerdo sobre la importancia de la evaluación de impacto y está surgiendo un consenso en torno al uso de métodos de evaluación contrafactuales, en los últimos años también ha habido un debate generalizado tanto sobre la definición de evaluación de impacto como sobre el uso de métodos apropiados (ver White 2009). ^[20] para una descripción general).

Definiciones

La Iniciativa Internacional para la Evaluación de Impacto (3ie) define las evaluaciones de impacto rigurosas como: "análisis que miden el cambio neto en los resultados para un grupo particular de personas que puede atribuirse a un programa específico utilizando la mejor metodología disponible, factible y apropiada para la evaluación". cuestión que se está investigando y al contexto específico". ^[21]

Según la Iniciativa DIME del Banco Mundial, "las evaluaciones de impacto comparan los resultados de un programa con un contrafactual que muestra lo que habría sucedido a los beneficiarios sin el programa. A diferencia de otras formas de evaluación, permiten atribuir al programa los cambios observados en los resultados". siendo evaluados siguiendo diseños experimentales y cuasi-experimentales". ^[22]

De manera similar, según la Agencia de Protección Ambiental de EE. UU. , la evaluación de impacto es una forma de evaluación que evalúa el efecto neto de un programa comparando los resultados del programa con una estimación de lo que habría sucedido en ausencia de un programa. ^[23]

Según el Grupo de Evaluación Independiente (IEG) del Banco Mundial, la evaluación de impacto es la identificación sistemática de los efectos positivos o negativos, intencionados o no, en hogares individuales, instituciones y el medio ambiente causados por una determinada actividad de desarrollo, como un programa o proyecto. ^[24]

La evaluación de impacto se ha definido de manera diferente en las últimas décadas. ^[6] Otras interpretaciones de la evaluación de impacto incluyen:

Una evaluación que analiza el impacto de una intervención en los resultados finales de bienestar, en lugar de solo los productos del proyecto, o una evaluación de proceso que se centra en la implementación;
Una evaluación realizada algún tiempo (cinco a diez años) después de finalizada la intervención para dar tiempo a que se manifieste el impacto; y
Una evaluación que considera todas las intervenciones dentro de un determinado sector o área geográfica.

Otros autores hacen una distinción entre "evaluación de impacto" y "evaluación de impacto". La "evaluación de impacto" utiliza técnicas empíricas para estimar los efectos de las intervenciones y su importancia estadística, mientras que la "evaluación de impacto" incluye un conjunto más amplio de métodos, incluidas simulaciones estructurales y otros enfoques que no pueden probar la significación estadística. ^[17]

Las definiciones comunes de "impacto" utilizadas en la evaluación generalmente se refieren a la totalidad de las consecuencias a largo plazo asociadas con una intervención sobre los resultados de la calidad de vida. Por ejemplo, el Comité de Asistencia al Desarrollo de la Organización para la Cooperación y el Desarrollo Económicos (OCDE-CAD) define el impacto como los "efectos positivos y negativos, primarios y secundarios a largo plazo producidos por una intervención de desarrollo, directa o indirectamente, intencionada o no". ^[25] Varias agencias internacionales también han adoptado esta definición de impacto. Por ejemplo, UNICEF define el impacto como "Los resultados a largo plazo de un programa (técnico, económico, sociocultural, institucional, ambiental u otro) ya sean intencionados o no. El impacto previsto debe corresponder al objetivo del programa". ^[26] De manera similar, Evaluaciónwiki.org define la evaluación de impacto como una evaluación que mira más allá de los resultados inmediatos de las políticas, la instrucción o los servicios para identificar los efectos del programa a más largo plazo y los no deseados. ^[27]

Técnicamente, se podría realizar una evaluación para valorar el "impacto" tal como se define aquí sin hacer referencia a un contrafactual. Sin embargo, gran parte de la literatura existente (por ejemplo, las Directrices NONIE sobre evaluación de impacto ^[28] adopta la definición de impacto del CAD-OCDE al referirse a las técnicas utilizadas para atribuir el impacto a una intervención como necesariamente basadas en un análisis contrafactual.

Lo que falta en el término evaluación de "impacto" es la forma en que el "impacto" se manifiesta a largo plazo. Por ejemplo, la mayoría de los planes de 'marco lógico' de Monitoreo y Evaluación tienen insumos-productos-resultados y... impactos. Si bien los tres primeros aparecen durante la duración del proyecto, el impacto tarda mucho más en producirse. Por ejemplo, en un proyecto agrícola de cinco años, las semillas son insumos, los agricultores capacitados para utilizarlas son nuestros productos, los cambios en el rendimiento de los cultivos como resultado de que las semillas se siembren adecuadamente en un resultado y que las familias tengan una seguridad alimentaria más sostenible a lo largo del tiempo es un impacto. Este tipo de evaluaciones de impacto posteriores a los proyectos son muy raras. También se les llama evaluaciones ex post o estamos acuñando el término evaluaciones de impacto sostenido. Si bien cientos de miles de documentos los exigen, rara vez los donantes tienen la flexibilidad de financiamiento -o el interés- para regresar y ver cuán sostenidas y duraderas siguieron siendo nuestras intervenciones después del cierre del proyecto, después de que se retiraron los recursos. Hay muchas lecciones que aprender sobre el diseño, la implementación, el seguimiento y la evaluación y cómo fomentar la apropiación nacional.

Debates metodológicos

Existe un intenso debate en los círculos académicos sobre las metodologías apropiadas para la evaluación de impacto, entre los defensores de métodos experimentales, por un lado, y los defensores de metodologías más generales, por el otro. William Easterly se ha referido a esto como "La Guerra Civil en la economía del desarrollo". Los defensores de los diseños experimentales, a veces denominados "randomistas", ^[8] argumentan que la aleatorización es el único medio para garantizar que se tenga en cuenta el sesgo de selección no observable, y que la construcción de una endeble base de evidencia experimental debe desarrollarse como una cuestión de prioridad. ^[29] En contraste, otros argumentan que la asignación aleatoria rara vez es apropiada para las intervenciones de desarrollo e incluso cuando lo es, los experimentos nos brindan información sobre los resultados de una intervención específica aplicada a un contexto específico, y poca de relevancia externa. ^[30] Los organismos de evaluación y otros han criticado que algunos donantes y académicos enfatizan demasiado los métodos preferidos para la evaluación de impacto, ^[31] y que esto puede, de hecho, obstaculizar el aprendizaje y la rendición de cuentas. ^[32] Además, ha habido un debate sobre el papel apropiado de los métodos cualitativos dentro de las evaluaciones de impacto. ^[33]^[34]

Evaluación de impacto basada en teoría

Si bien el conocimiento de la eficacia es vital, también es importante comprender las razones de la eficacia y las circunstancias bajo las cuales es probable que se repitan los resultados. En contraste con los enfoques de evaluación de impacto de 'caja negra', que sólo informan diferencias significativas en los resultados entre los grupos de tratamiento y de comparación, la evaluación de impacto basada en teoría implica trazar la cadena causal desde los insumos hasta los resultados y el impacto y probar los supuestos subyacentes. ^[35]^[28] La mayoría de las intervenciones dentro del ámbito de las políticas públicas son de naturaleza voluntaria, más que coercitiva (legalmente requerida). Además, las intervenciones suelen ser más activas que pasivas, lo que requiere un mayor y no menor grado de participación entre los beneficiarios y, por lo tanto, un cambio de comportamiento como requisito previo para la eficacia. Por lo tanto, la política pública tendrá éxito en la medida en que se motive a las personas a cambiar su comportamiento favorablemente. Un enfoque basado en la teoría permite a los formuladores de políticas comprender las razones de los diferentes niveles de participación en los programas (denominados "cumplimiento" o "adherencia") y los procesos que determinan el cambio de comportamiento. Los enfoques basados en la teoría utilizan la recopilación de datos tanto cuantitativos como cualitativos, y estos últimos pueden ser particularmente útiles para comprender las razones del cumplimiento y, por lo tanto, si la intervención puede replicarse en otros entornos y cómo hacerlo. Los métodos de recopilación de datos cualitativos incluyen grupos focales, entrevistas en profundidad, evaluación rural participativa (ERP) y visitas de campo, así como lectura de literatura antropológica y política.

White (2009b) ^[35] aboga por una aplicación más generalizada de un enfoque basado en la teoría de la evaluación de impacto como medio para mejorar la relevancia política de las evaluaciones de impacto, y describe seis principios clave del enfoque basado en la teoría:

Trazar la cadena causal (teoría del programa) que explica cómo se espera que la intervención conduzca a los resultados previstos y recopilar datos para probar los supuestos subyacentes de los vínculos causales.
Comprender el contexto, incluido el entorno social, político y económico de la intervención.
Anticipar la heterogeneidad para ayudar a identificar subgrupos y ajustar el tamaño de la muestra para tener en cuenta los niveles de desagregación que se utilizarán en el análisis.
Evaluación rigurosa del impacto utilizando un contrafactual creíble (como se discutió anteriormente).
Análisis fáctico riguroso de los eslabones de la cadena causal.
Utilice métodos mixtos (una combinación de métodos cuantitativos y cualitativos).

Ejemplos

Si bien se han utilizado metodologías experimentales de evaluación de impacto para evaluar las intervenciones en materia de nutrición y agua y saneamiento en los países en desarrollo desde la década de 1980, la primera y más conocida aplicación de métodos experimentales a un programa de desarrollo a gran escala es la evaluación de la transferencia monetaria condicionada ( CCT) programa Progresa (ahora llamado Oportunidades ) en México, que examinó una variedad de resultados de desarrollo, incluida la escolarización, las tasas de inmunización y el trabajo infantil. ^[36]^[37] Desde entonces, varios gobiernos de América Latina y otros lugares han implementado programas de TMC, y un informe publicado por el Banco Mundial en febrero de 2009 examina el impacto de las TMC en veinte países. ^[38]

Más recientemente, la evaluación de impacto se ha aplicado a una variedad de intervenciones en sectores sociales y productivos. 3ie ha lanzado una base de datos en línea de evaluaciones de impacto que cubren estudios realizados en países de ingresos bajos y medios. Otras organizaciones que publican evaluaciones de impacto incluyen Innovations for Poverty Action, la iniciativa DIME del Banco Mundial y NONIE. El GEI del Banco Mundial ha evaluado y resumido sistemáticamente la experiencia de diez evaluaciones de impacto de programas de desarrollo en diversos sectores llevadas a cabo durante los últimos 20 años. ^[39]

Organizaciones que promueven la evaluación de impacto de las intervenciones de desarrollo.

En 2006, el Grupo de Trabajo sobre la Brecha de Evaluación ^[40] abogó por una brecha importante en la evidencia sobre las intervenciones de desarrollo y, en particular, por la creación de un organismo independiente para cerrar la brecha financiando y abogando por una evaluación de impacto rigurosa en países de bajos y bajos ingresos. países de ingresos medios. La Iniciativa Internacional para la Evaluación de Impacto (3ie) se creó en respuesta a este informe. 3ie busca mejorar las vidas de las personas pobres en países de ingresos bajos y medios proporcionando y resumiendo evidencia de qué funciona, cuándo, por qué y por cuánto. 3ie opera un programa de subvenciones que financia estudios de impacto en países de ingresos bajos y medios y revisiones sintéticas de la evidencia existente que se actualizan a medida que aparece nueva evidencia, y apoya la evaluación de impacto de calidad a través de sus servicios de garantía de calidad.

Otra iniciativa dedicada a la evaluación de impactos es el Comité de Evaluación de la Sostenibilidad (COSA). COSA es un consorcio global de instituciones sin fines de lucro, sostenido en asociación con la Iniciativa de Productos Básicos Sostenibles del Instituto Internacional para el Desarrollo Sostenible (IISD), la Conferencia de las Naciones Unidas sobre Comercio y Desarrollo (UNCTAD) y el Centro de Comercio Internacional de las Naciones Unidas (ITC). . COSA está desarrollando y aplicando una herramienta de medición independiente para analizar los distintos impactos sociales, ambientales y económicos de las prácticas agrícolas, y en particular aquellos asociados con la implementación de programas específicos de sostenibilidad (orgánicos, de comercio justo , etc.). El objetivo de la iniciativa es establecer indicadores globales y herramientas de medición que los agricultores, los responsables políticos y la industria puedan utilizar para comprender y mejorar su sostenibilidad con diferentes cultivos o sectores agrícolas. COSA pretende facilitar esto permitiéndoles calcular con precisión los costos y beneficios relativos de participar en cualquier iniciativa de sostenibilidad determinada.

Se han establecido varias organizaciones adicionales para promover la evaluación de impacto a nivel mundial, incluidas Innovations for Poverty Action, el Fondo de Evaluación de Impacto Estratégico (SIEF) del Banco Mundial, la Iniciativa de Evaluación de Impacto en el Desarrollo (DIME) del Banco Mundial y el Aprendizaje y Cambio Institucional (ILAC). Iniciativa del CGIAR y la Red de Redes de Evaluación de Impacto (NONIE).

Revisiones sistemáticas de la evidencia de impacto.

Una variedad de organizaciones están trabajando para coordinar la producción de revisiones sistemáticas . Las revisiones sistemáticas tienen como objetivo cerrar la brecha entre investigación y políticas evaluando la variedad de evidencia existente sobre un tema en particular y presentando la información en un formato accesible. Al igual que las evaluaciones de impacto rigurosas, se desarrollan a partir de un protocolo de estudio que establece a priori los criterios de inclusión de estudios, búsqueda y métodos de síntesis. Las revisiones sistemáticas implican cinco pasos clave: determinación de las intervenciones, poblaciones, resultados y diseños de estudios que se incluirán; búsquedas para identificar literatura publicada y no publicada, y aplicación de criterios de inclusión de estudios (relacionados con intervenciones, poblaciones, resultados y diseño de estudios), como se establece en el protocolo del estudio; codificación de información de estudios; presentación de estimaciones cuantitativas sobre la eficacia de la intervención utilizando diagramas forestales y, cuando las intervenciones se determinen como apropiadamente homogéneas, cálculo de una estimación resumida agrupada mediante metanálisis; Finalmente, las revisiones sistemáticas deben actualizarse periódicamente a medida que surja nueva evidencia. Las revisiones sistemáticas también pueden implicar la síntesis de información cualitativa, por ejemplo relacionada con las barreras o los facilitadores de la efectividad de la intervención.

Ver también

Referencias

^ Grupo de Pobreza del Banco Mundial sobre Evaluación de Impacto, consultado el 6 de enero de 2008.
^ "White, H. (2006) Evaluación de impacto: la experiencia del grupo de evaluación independiente del Banco Mundial, Banco Mundial, Washington, DC, p. 3" (PDF) . Archivado desde el original (PDF) el 19 de febrero de 2018 . Consultado el 7 de enero de 2010 .
^ "Gertler, Martinez, Premand, Rawlings y Vermeersch (2011) Evaluación de impacto en la práctica, Washington, DC: Banco Mundial". Archivado desde el original el 17 de julio de 2011 . Consultado el 15 de diciembre de 2010 .
^ "Iniciar sesión" (PDF) . Consultado el 16 de enero de 2017 .
^ "Iniciar sesión" (PDF) . Consultado el 16 de enero de 2017 .
^ ab "White, H. (2006) Evaluación de impacto: la experiencia del grupo de evaluación independiente del Banco Mundial, Banco Mundial, Washington, DC" (PDF) . Archivado desde el original (PDF) el 19 de febrero de 2018 . Consultado el 7 de enero de 2010 .
^ Ravallion, M. (2008) Evaluación de programas contra la pobreza
^ ab Martin, Ravallion (1 de enero de 2009). "¿Deberían gobernar los randomistas?". 6 (2): 1–5 . Consultado el 16 de enero de 2017 - vía RePEc - IDEAS. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Tenga en cuenta que se ha argumentado que “ Randomistas es un término de jerga utilizado por los críticos para describir a los defensores de la metodología RCT. Es casi seguro que es un término despectivo y de género destinado a descartar frívolamente a los economistas experimentales y su éxito, en particular a Esther Duflo, una de las expertas más exitosas en aleatorización”. Véase Webber, S. y Prouse, C. (2018). El nuevo estándar de oro: el auge de los ensayos de control aleatorios y el desarrollo experimental. Geografía económica, 94 (2), 166–187.
^ ab Bamberger, M. y White, H. (2007) Uso de diseños de evaluación sólidos en países en desarrollo: experiencia y desafíos, Revista de evaluación multidisciplinaria, volumen 4, número 8, 58-73
^ Scriven (2008) Una evaluación sumativa de la metodología RCT: y un enfoque alternativo a la investigación causal, Revista de evaluación multidisciplinaria , volumen 5, número 9, 11-24
^ Deaton, Angus (1 de enero de 2009). "Instrumentos de desarrollo: aleatorización en los trópicos y la búsqueda de las claves esquivas para el desarrollo económico". SSRN 1335715. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Hariton, Eduardo; Locascio, Joseph J. (diciembre de 2018). "Ensayos controlados aleatorios: el estándar de oro para la investigación de la eficacia". BJOG: Revista internacional de obstetricia y ginecología . 125 (13): 1716. doi : 10.1111/1471-0528.15199. ISSN 1470-0328. PMC 6235704 . PMID 29916205.
^ ab White, Howard (8 de marzo de 2013). "Una introducción al uso de ensayos de control aleatorios para evaluar intervenciones de desarrollo". Revista de eficacia del desarrollo . 5 : 30–49. doi : 10.1080/19439342.2013.764652 . S2CID 51812043.
^ ab Deaton, Angus; Cartwright, Nancy (9 de noviembre de 2016). "Las limitaciones de los ensayos controlados aleatorios". VoxEU.org . Consultado el 26 de octubre de 2020 .
^ a b C Roe, Brian E.; Just, David R. (diciembre de 2009). "Validez interna y externa en la investigación económica: compensaciones entre experimentos, experimentos de campo, experimentos naturales y datos de campo". Revista Estadounidense de Economía Agrícola . 91 (5): 1266-1271. doi :10.1111/j.1467-8276.2009.01295.x. ISSN 0002-9092.
^ ab White, Howard; Raitzer, David (2017). Evaluación de impacto de las intervenciones de desarrollo: una guía práctica (PDF) . Manila: Banco Asiático de Desarrollo. ISBN 978-92-9261-059-3.
^ Rugh, Jim (22 de junio de 2012). "Martillo en busca de clavos". D+C Desarrollo y Cooperación . 2012 (7): 300.
^ Bloom, H. (2006) El análisis central de experimentos aleatorios para la investigación social. Documentos de trabajo del MDRC sobre metodología de la investigación. MDRC, Nueva York
^ "White, H. (2009) Algunas reflexiones sobre los debates actuales sobre la evaluación de impacto, documento de trabajo 1, Iniciativa Internacional para la Evaluación de Impacto, Nueva Delhi". Archivado desde el original el 8 de enero de 2013 . Consultado el 29 de octubre de 2012 .
^ "Iniciar sesión" (PDF) . Consultado el 16 de enero de 2017 .
^ Banco Mundial (sin fecha) Iniciativa de Evaluación del Impacto en el Desarrollo (DIME), documento de proyecto, Banco Mundial, Washington, DC
^ Glosario de evaluación del programa de la Agencia de Protección Ambiental de EE. UU., consultado el 6 de enero de 2008
^ Grupo de evaluación independiente del Banco Mundial, consultado el 6 de enero de 2008.
^ OCDE-DAC (2002) Glosario de términos clave en evaluación y gestión basada en resultados Terminología armonizada propuesta, OCDE, París
^ UNICEF (2004) Estándares del informe de evaluación de UNICEF, Oficina de Evaluación, UNICEF NYHQ, Nueva York
^ "Definición de evaluación: ¿Qué es la evaluación? - EvaluaciónWiki" . Consultado el 16 de enero de 2017 .
^ ab "Página no encontrada" . Consultado el 16 de enero de 2017 . {{cite web}}: La cita utiliza un título genérico ( ayuda )
^ "Banerjee, AV (2007) 'Making Aid Work' Cambridge, Boston Review Book, MIT Press, MA" (PDF) . Consultado el 16 de enero de 2017 .^{[ enlace muerto permanente ]}
^ Bamberger, M. y White, H. (2007) Uso de diseños de evaluación sólidos en países en desarrollo: experiencia y desafíos, Revista de evaluación multidisciplinaria, volumen 4, número 8, 58-73
^ http://www.europeanevaluación.org/download/ ?noGzip=1&id=1969403 ^{[ enlace muerto permanente ]} Declaración de la EES sobre la importancia de un enfoque metodológicamente diverso para la evaluación de impacto
^ http://www.odi.org.uk/resources/odi-publications/opinions/127-impact-evaluación.pdf El 'estándar de oro' no es una solución milagrosa para la evaluación
^ "Eficacia de la ayuda: el papel de la investigación cualitativa en la evaluación de impacto". 27 de junio de 2014.
^ Proa, Martín; Camfield, Laura (2013). "Mejorar la calidad de la ayuda al desarrollo". Avances en los Estudios del Desarrollo . 13 : 51–61. doi :10.1177/146499341201300104. S2CID 44482662.
^ ab "White, H. (2009b) Evaluación de impacto basada en la teoría: principios y práctica, documento de trabajo 3, Iniciativa internacional para la evaluación de impacto, Nueva Delhi". Archivado desde el original el 6 de noviembre de 2012 . Consultado el 29 de octubre de 2012 .
^ Gertler, P. (2000) Informe final: El impacto de PROGRESA en la salud. Instituto Internacional de Investigación sobre Políticas Alimentarias, Washington, DC
^ "Documento sin título" (PDF) . Consultado el 16 de enero de 2017 .
^ Fiszbein, A. y Schady, N. (2009) Transferencias monetarias condicionadas: reducción de la pobreza presente y futura: informe de investigación de políticas del Banco Mundial, Banco Mundial, Washington, DC
^ Evaluación de impacto: la experiencia del grupo de evaluación independiente del Banco Mundial, 2006
^ "¿Cuándo aprenderemos algún día? Mejorar vidas mediante la evaluación de impacto" . Consultado el 16 de enero de 2017 .

Fuentes y enlaces externos

Gertler, Martinez, Premand, Rawlings y Vermeersch (2011) Evaluación de impacto en la práctica, Washington, DC: Banco Mundial
Grupo del Banco Mundial sobre la Pobreza Grupo del Banco Mundial sobre la Pobreza
Grupo de Evaluación Independiente del Banco Mundial o en Wikipedia Grupo de Evaluación Independiente
Panadero, Judy. 2000. Evaluación del impacto de los proyectos de desarrollo sobre la pobreza: manual para profesionales. Direcciones en Desarrollo, Banco Mundial, Washington, DC
Iniciativa Internacional para la Evaluación de Impacto
Innovaciones para la acción contra la pobreza
Comité de Evaluación de la Sostenibilidad (COSA)
Instituto Internacional para el Desarrollo Sostenible (IISD)
Centro de Comercio Internacional de las Naciones Unidas (ITC)