Google Flu Trends ( GFT ) era un servicio web operado por Google . Proporcionaba estimaciones de la actividad de la gripe en más de 25 países. Mediante la agregación de consultas de búsqueda de Google , intentaba realizar predicciones precisas sobre la actividad de la gripe. Este proyecto fue lanzado por primera vez en 2008 por Google.org para ayudar a predecir brotes de gripe. [1]
Google Flu Trends dejó de publicar estimaciones actuales el 9 de agosto de 2015. Las estimaciones históricas aún están disponibles para descargar y los datos actuales se ofrecen para fines de investigación declarados. [2]
La idea detrás de Google Flu Trends era que, al monitorear los comportamientos de seguimiento de salud de millones de usuarios en línea, la gran cantidad de consultas de búsqueda de Google recopiladas se puede analizar para revelar si existe la presencia de una enfermedad similar a la gripe en una población. Google Flu Trends comparó estos hallazgos con un nivel de referencia histórico de actividad de influenza para su región correspondiente y luego informa el nivel de actividad como mínimo, bajo, moderado, alto o intenso. Estas estimaciones han sido generalmente consistentes con los datos de vigilancia convencionales recopilados por las agencias de salud, tanto a nivel nacional como regional.
Roni Zeiger ayudó a desarrollar Google Flu Trends. [3]
Se describió que Google Flu Trends utiliza el siguiente método para recopilar información sobre las tendencias de la gripe. [4] [5]
En primer lugar, se calcula una serie temporal para aproximadamente 50 millones de consultas comunes ingresadas semanalmente en los Estados Unidos desde 2003 hasta 2008. La serie temporal de una consulta se calcula por separado para cada estado y se normaliza en una fracción dividiendo el número de cada consulta por el número de todas las consultas en ese estado. Al identificar la dirección IP asociada con cada búsqueda, se puede determinar el estado en el que se ingresó esa consulta.
Se utiliza un modelo lineal para calcular las probabilidades logarítmicas de una visita al médico por enfermedad similar a la influenza (EII) y las probabilidades logarítmicas de una consulta de búsqueda relacionada con EII:
P es el porcentaje de visitas al médico por ILI y Q es la fracción de consultas relacionadas con ILI calculada en los pasos anteriores. β 0 es la intersección y β 1 es el coeficiente, mientras que ε es el término de error. [ cita requerida ]
Cada una de las 50 millones de consultas se prueba como Q para ver si el resultado calculado a partir de una sola consulta podría coincidir con los datos históricos reales de ILI obtenidos de los Centros para el Control y la Prevención de Enfermedades (CDC) de EE. UU. Este proceso produce una lista de las consultas principales que brinda las predicciones más precisas de los datos de ILI de los CDC cuando se utiliza el modelo lineal. Luego, se eligen las 45 consultas principales porque, cuando se agregan, estas consultas se ajustan a los datos históricos con mayor precisión. Utilizando la suma de las 45 consultas principales relacionadas con ILI, el modelo lineal se ajusta a los datos semanales de ILI entre 2003 y 2007 para que se pueda obtener el coeficiente. Finalmente, el modelo entrenado se utiliza para predecir el brote de gripe en todas las regiones de los Estados Unidos.
Google revisó posteriormente este algoritmo, en parte como respuesta a preocupaciones sobre su precisión, y los intentos de replicar sus resultados sugirieron que los desarrolladores del algoritmo "sintieron una necesidad no articulada de ocultar los términos de búsqueda reales identificados". [6]
Google Flu Trends intenta evitar violaciones de la privacidad agregando únicamente millones de consultas de búsqueda anónimas, sin identificar a las personas que realizaron la búsqueda. [1] [7] Su registro de búsqueda contiene la dirección IP del usuario, que podría usarse para rastrear la región donde se envió originalmente la consulta de búsqueda. Google ejecuta programas en computadoras para acceder y calcular los datos, por lo que no hay ningún ser humano involucrado en el proceso. Google también implementó la política de anonimizar la dirección IP en sus registros de búsqueda después de 9 meses. [8]
Sin embargo, Google Flu Trends ha suscitado inquietudes en algunos grupos de defensa de la privacidad. El Electronic Privacy Information Center y Patient Privacy Rights enviaron una carta a Eric Schmidt en 2008, entonces director ejecutivo de Google. [9] Reconocieron que el uso de datos generados por los usuarios podría contribuir significativamente a la labor de salud pública, pero expresaron su preocupación por que "se pudieran exigir investigaciones específicas de los usuarios, incluso a pesar de la objeción de Google, por orden judicial o por autoridad presidencial".
Una motivación inicial para GFT fue que poder identificar la actividad de la enfermedad de manera temprana y responder rápidamente podría reducir el impacto de la influenza estacional y pandémica. Un informe indicaba que Google Flu Trends podía predecir brotes regionales de gripe hasta 10 días antes de que los informara el CDC (Centros para el Control y la Prevención de Enfermedades). [10]
En la pandemia de gripe de 2009, Google Flu Trends hizo un seguimiento de la información sobre la gripe en los Estados Unidos. [11] En febrero de 2010, los CDC identificaron un aumento repentino de los casos de gripe en la región del Atlántico medio de los Estados Unidos. Sin embargo, los datos de Google sobre las consultas de búsqueda sobre los síntomas de la gripe pudieron mostrar ese mismo aumento dos semanas antes de que se publicara el informe de los CDC. [ cita requerida ]
“Cuanto antes se dé la alerta, antes se podrán poner en marcha medidas de prevención y control, y esto podría prevenir casos de gripe”, afirmó la Dra. Lyn Finelli , responsable de vigilancia de la división de gripe de los CDC. “Entre el 5 y el 20 por ciento de la población del país contrae la gripe cada año, lo que provoca unas 36.000 muertes de media”. [10]
Google Flu Trends es un ejemplo de inteligencia colectiva que se puede utilizar para identificar tendencias y calcular predicciones. Los datos recopilados por los motores de búsqueda son significativamente esclarecedores porque las consultas de búsqueda representan los deseos y necesidades sin filtrar de las personas. “Parece una forma muy inteligente de utilizar datos creados involuntariamente por los usuarios de Google para ver patrones en el mundo que de otro modo serían invisibles”, dijo Thomas W. Malone, profesor de la Sloan School of Management del MIT. “Creo que apenas estamos arañando la superficie de lo que es posible con la inteligencia colectiva”. [10]
El artículo inicial de Google afirmó que las predicciones de Google Flu Trends tenían una precisión del 97% en comparación con los datos de los CDC. [4] Sin embargo, los informes posteriores afirmaron que las predicciones de Google Flu Trends han sido muy inexactas, especialmente en dos casos de alto perfil. Google Flu Trends no pudo predecir la pandemia de primavera de 2009 [12] y durante el intervalo 2011-2013 sobreestimó sistemáticamente la incidencia relativa de la gripe, [6] prediciendo el doble de visitas al médico durante un intervalo en la temporada de gripe 2012-2012 de lo que registró el CDC. [6] [13] Un estudio de 2022 publicado (con comentarios) en el International Journal of Forecasting [14] encontró que Google Flu Trends fue superado por la heurística de actualidad, un ejemplo de la llamada previsión "ingenua", donde la incidencia de gripe prevista es igual a la incidencia de gripe observada más recientemente. Durante todas las semanas del 18 de marzo de 2007 al 9 de agosto de 2015 (el horizonte para el cual están disponibles las predicciones de Google Flu Trends), el error absoluto medio de Google Flu Trends fue de 0,38 y el de la heurística de actualidad, de 0,20 (ambos en puntos porcentuales; la regresión lineal con un único predictor, la incidencia de gripe observada más recientemente, tuvo un error absoluto medio de también 0,20, y el punto de referencia de la predicción aleatoria tuvo 1,80).
Una fuente de problemas es que las personas que realizan búsquedas relacionadas con la gripe en Google pueden saber muy poco sobre cómo diagnosticar la gripe; las búsquedas de gripe o síntomas de gripe pueden estar investigando síntomas de enfermedades que son similares a la gripe, pero que en realidad no son gripe. [15] Además, el análisis de términos de búsqueda que supuestamente rastrea Google, como "fiebre" y "tos", así como los efectos de los cambios en su algoritmo de búsqueda a lo largo del tiempo, han generado inquietudes sobre el significado de sus predicciones. [6] En el otoño de 2013, Google comenzó a intentar compensar los aumentos en las búsquedas debido a la prominencia de la gripe en las noticias, que se encontró que había sesgado los resultados anteriormente. [16] Sin embargo, un análisis concluyó que "al combinar GFT y datos rezagados de los CDC, así como recalibrar dinámicamente GFT, podemos mejorar sustancialmente el rendimiento de GFT o de los CDC solos". [6] Un estudio posterior también demuestra que los datos de búsqueda de Google pueden de hecho usarse para mejorar las estimaciones, reduciendo los errores observados en un modelo que usa solo datos de los CDC hasta en un 52,7 por ciento. [17]
Al reevaluar el modelo GFT original, los investigadores descubrieron que el modelo estaba agregando consultas sobre diferentes condiciones de salud, algo que podría llevar a una sobrepredicción de las tasas de ILI; en el mismo trabajo, se han propuesto una serie de enfoques lineales y no lineales más avanzados y de mejor rendimiento para el modelado de ILI. [18]
Sin embargo, el trabajo de seguimiento pudo mejorar sustancialmente la precisión de GFT mediante el uso de un modelo de regresión de bosque aleatorio entrenado tanto en la incidencia de enfermedades similares a la influenza como en el resultado del modelo GFT original. [19]
Proyectos similares, como el proyecto de predicción de la gripe [20] del Instituto de Ciencias Cognitivas de la Universidad de Osnabrück, llevan adelante la idea básica al combinar datos de redes sociales , por ejemplo Twitter , con datos de los CDC y modelos estructurales que infieren la propagación espacial y temporal [21] de la enfermedad.