Hancock es un lenguaje de programación basado en C , desarrollado por primera vez por investigadores de AT&T Labs en 1998, para analizar flujos de datos . [1] El lenguaje fue creado por sus creadores para mejorar la eficiencia y la escala de la minería de datos. Hancock funciona creando perfiles de individuos, utilizando datos para proporcionar información sobre redes sociales y comportamiento.
El desarrollo de Hancock fue parte del uso de procesos de minería de datos por parte de la industria de las telecomunicaciones para detectar fraudes y mejorar el marketing. Sin embargo, tras los ataques del 11 de septiembre de 2001 y el aumento de la vigilancia gubernamental de las personas, Hancock y otras tecnologías de minería de datos similares pasaron a ser objeto de escrutinio público, especialmente en relación con su percepción de amenaza a la privacidad individual. [2]
La investigación en minería de datos, incluida la de Hancock, creció durante la década de 1990, a medida que aumentaba el interés científico, comercial y médico en la recopilación, el almacenamiento y la gestión de datos masivos. [3] A principios de la década de 1990, las empresas transaccionales se interesaron cada vez más en el almacenamiento de datos, que proporcionaba capacidades de almacenamiento, consulta y gestión para la totalidad de los datos transaccionales registrados. La investigación en minería de datos centrada en las bases de datos se centró en la creación de estructuras y algoritmos de datos eficientes, en particular para los datos que se encontraban fuera del almacenamiento de la memoria principal, en un disco, por ejemplo. Padharic Smyth creía que los investigadores en minería de datos tenían como objetivo escribir algoritmos que pudieran escalar las enormes cantidades de datos en períodos de tiempo más cortos. [3]
Los investigadores de AT&T Labs , incluida Corinna Cortes , fueron pioneros en el lenguaje de programación Hancock entre 1998 y 2004. Hancock, un lenguaje de programación específico de dominio basado en C , tenía como objetivo hacer que el código de programa para calcular firmas a partir de grandes flujos de datos transaccionales fuera más fácil de leer y mantener, sirviendo así como una mejora con respecto a los complejos programas de minería de datos escritos en C. Hancock también manejó cuestiones de escala para los programas de minería de datos. [1]
Los flujos de datos que analizaban los programas de Hancock estaban pensados para manejar cientos de millones de firmas diariamente, lo que resultaba ideal para transacciones como llamadas telefónicas, compras con tarjeta de crédito o solicitudes a sitios web. [1] En la época en que se desarrolló Hancock, estos datos se solían recopilar con fines de facturación o seguridad y, cada vez más, para analizar el comportamiento de los participantes en las transacciones. [1] La minería de datos también puede ser útil para identificar patrones atípicos en los datos de los participantes en las transacciones. En lo que respecta a las actividades antiterroristas, la ayuda de la minería de datos para la búsqueda de patrones puede ayudar a encontrar vínculos entre sospechosos de terrorismo, a través de la financiación o las transferencias de armas, por ejemplo. [4]
Las aplicaciones de flujo de datos también incluyen el monitoreo de redes, el monitoreo financiero, como compras con tarjeta de crédito, [5] el monitoreo de los efectos de medicamentos recetados, [5] y el comercio electrónico . [6] Las empresas pueden utilizar la minería de datos para encontrar a sus consumidores más rentables o para realizar análisis de abandono . La minería de datos también puede ayudar a las empresas a tomar decisiones de otorgamiento de crédito mediante el diseño de modelos que determinan la solvencia crediticia de un cliente. [7] Estos modelos tienen como objetivo minimizar los préstamos de crédito riesgosos y maximizar los ingresos por ventas. [7]
Además de Hancock, otros sistemas de flujo de datos que existían en 2003 incluían Aurora, Gigascope, Niagara, STREAM, Tangram, Tapestry, Telegraph y Tribeca. [6]
Hancock es un lenguaje para programas de minería de datos en flujo . Los flujos de datos se diferencian de las bases de datos almacenadas tradicionales en que manejan volúmenes muy altos de datos y permiten a los analistas actuar sobre dichos datos casi en tiempo real. Las bases de datos almacenadas, por otro lado, implican que se ingresen datos para realizar consultas fuera de línea. [6] Los almacenes de datos , que almacenan datos interseccionales de diferentes sistemas, pueden ser costosos de construir y largos de implementar. Los almacenes de datos simplificados pueden tardar meses en construirse. [5]
La escala de la minería de datos masiva plantea problemas a los mineros de datos. Por ejemplo, la minería de datos de Internet y de redes telefónicas podría tener como tarea encontrar elementos persistentes, que son elementos que aparecen regularmente en el flujo. [8] Sin embargo, estos elementos pueden estar enterrados en una gran cantidad de datos transaccionales de la red; si bien los elementos pueden encontrarse eventualmente, los mineros de datos buscan una mayor eficiencia en el tiempo de su búsqueda. [8]
En la tecnología de bases de datos, los usuarios no necesariamente saben dónde se encuentran los datos que están buscando. Estos usuarios sólo tienen que realizar consultas de datos, que el sistema de gestión de bases de datos devuelve. En un conjunto de datos grande, los datos pueden estar contenidos en la memoria de acceso aleatorio (RAM), que es el almacenamiento primario, o en el almacenamiento en disco, que es el almacenamiento secundario. En 2000, Padharic Smyth estimó que, utilizando la tecnología más reciente, se podía acceder a los datos ubicados en la RAM con relativa rapidez, “del orden de 10 −7 -10 −8 segundos”, mientras que el acceso a los datos del almacenamiento secundario tardaba significativamente más, “del orden de 10 4 -10 5 ” segundos. [3]
La minería de datos se puede dividir en los procesos de entrada, análisis y presentación de resultados; utiliza algoritmos para encontrar patrones y relaciones entre los sujetos y ha sido utilizada por empresas comerciales para encontrar patrones en el comportamiento de los clientes. [9] Se necesitan analistas de datos para recopilar y organizar datos y entrenar algoritmos. [4]
KianSing Ng y Huan Liu opinan que incluso con objetivos de minería de datos sencillos, el proceso real sigue siendo complejo. Por ejemplo, sostienen que la minería de datos del mundo real puede verse desafiada por fluctuaciones de datos, que harían que los patrones anteriores fueran “parcialmente inválidos”. Otra complicación es que la mayoría de las bases de datos existentes en 2000 se caracterizaban por una alta dimensionalidad, lo que significa que contenían datos sobre muchos atributos. Como señalan Ng y Liu, la alta dimensionalidad produce tiempos de computación prolongados; esto se puede resolver mediante la reducción de datos en la etapa de preprocesamiento. [10]
El proceso de Hancock es el siguiente:
Los investigadores de AT&T afirmaron que, como el código Hancock funcionaba de manera eficiente incluso con grandes cantidades de datos, permitía a los analistas crear aplicaciones "que antes se consideraban inviables". [1]
Los investigadores de AT&T Labs analizaron los flujos de datos de telecomunicaciones, incluido todo el flujo de larga distancia de la empresa, que incluía alrededor de 300 millones de registros de 100 millones de cuentas de clientes diariamente. [1] En 2004, la totalidad de las firmas de registros de llamadas telefónicas de larga distancia de AT&T estaban escritas en Hancock y la empresa usaba el código Hancock para examinar nueve gigabytes de tráfico de red, todas las noches. [1] [2]
Las empresas de telecomunicaciones comparten información derivada de la minería de datos del tráfico de la red con fines de investigación, seguridad y reglamentación. [14]
Los programas de Hancock ayudaron a AT&T en sus esfuerzos de marketing. [2] En la década de 1990, la minería de grandes flujos de datos y la mayor automatización de los sistemas de registros públicos del gobierno permitieron a las corporaciones comerciales de los Estados Unidos personalizar el marketing. [15] Los perfiles de firmas se desarrollaron a partir de registros de transacciones y fuentes de registros públicos. [15] Ng y Liu, por ejemplo, aplicaron la minería de datos al análisis de retención de clientes y descubrieron que la minería de reglas de asociación permitía a una empresa predecir las salidas de clientes influyentes y sus asociados. Argumentaron que ese conocimiento posteriormente permite al equipo de marketing de la empresa dirigirse a esos clientes, ofreciendo propuestas más atractivas. [10]
La minería de datos ayudó a las empresas de telecomunicaciones en el marketing viral , también conocido como marketing de boca en boca o marketing de boca en boca, que utiliza las redes sociales de los consumidores para mejorar el conocimiento de la marca y las ganancias. [16] El marketing viral depende de las conexiones entre los consumidores para aumentar la defensa de la marca, que puede ser explícita, como amigos que recomiendan un producto a otros amigos, o implícita, como consumidores influyentes que compran un producto. [16] Para las empresas, uno de los objetivos del marketing viral es encontrar consumidores influyentes que tengan redes más grandes. Otro método de marketing viral es dirigirse a los vecinos de los consumidores anteriores, conocido como "segmentación de red". [16] Utilizando los programas de Hancock, los analistas de AT&T pudieron encontrar "comunidades de interés", o usuarios interconectados que presentaban rasgos de comportamiento similares. [12]
Uno de los problemas que encontraron los promotores del marketing viral fue el gran tamaño de los conjuntos de datos de marketing, que, en el caso de las empresas de telecomunicaciones, pueden incluir información sobre los participantes en las transacciones y sus atributos descriptivos y transacciones. [16] Los conjuntos de datos de marketing, cuando ascienden a cientos de millones, pueden superar la capacidad de memoria del software de análisis estadístico. [16] Los programas de Hancock abordaron los problemas de escalabilidad de los datos y permitieron a los analistas tomar decisiones a medida que los datos fluían hacia los almacenes de datos. [2]
Si bien el desarrollo de dispositivos de comunicación inalámbrica permitió a las fuerzas del orden rastrear la ubicación de los usuarios, también permitió a las empresas mejorar el marketing de consumo, por ejemplo, enviando mensajes según la proximidad de los usuarios inalámbricos a determinadas empresas. [15] A través de los datos de ubicación de los sitios celulares, los programas de Hancock fueron capaces de rastrear los movimientos de los usuarios inalámbricos. [2]
Según el académico Alan Westin , el aumento del telemarketing durante este período también aumentó el enojo de los consumidores. [15] Los estadísticos Murray Mackinnon y Ned Glick plantearon la hipótesis en 1999 de que las empresas ocultaban su uso de minería de datos comerciales debido a la posible reacción negativa de los consumidores por la minería de registros de clientes. [5] Como ejemplo, Mackinnon y Glick citaron una demanda de junio de 1999 en la que el estado de Minnesota demandó a US Bancorp por revelar información de clientes a una empresa de telemarketing; Bancorp respondió rápidamente a la demanda restringiendo su uso de los datos de los clientes. [5]
Los investigadores de AT&T, incluido Cortes , demostraron que los programas de minería de datos relacionados con Hancock podrían utilizarse para detectar fraudes en las telecomunicaciones. [14]
La detección de fraudes en telecomunicaciones incluye fraudes de suscripción, uso no autorizado de tarjetas de llamada y fraudes de PBX . [17] Es similar a las comunicaciones móviles y al fraude con tarjetas de crédito: en los tres, las empresas deben procesar grandes cantidades de datos para obtener información; deben lidiar con la imprevisibilidad del comportamiento humano, lo que dificulta la búsqueda de patrones en los datos; y sus algoritmos deben estar entrenados para detectar los casos relativamente raros de fraude entre las muchas transacciones legítimas. [17] Según Daskalaki et al. , en 1998, el fraude en telecomunicaciones generó miles de millones de dólares en pérdidas anuales a nivel mundial. [17]
Como los casos de fraude eran relativamente pocos en comparación con los cientos de millones de transacciones telefónicas diarias que ocurrían, los algoritmos para la extracción de datos de registros de telecomunicaciones debían proporcionar resultados de manera rápida y eficiente. [12] Los investigadores demostraron que las comunidades de interés podían identificar a los defraudadores, ya que los nodos de datos de las cuentas fraudulentas suelen estar ubicados más cerca entre sí que de un nodo de una cuenta legítima. [14]
Mediante análisis de redes sociales y análisis de enlaces, también descubrieron que el conjunto de números que eran el objetivo de las cuentas fraudulentas, que luego se desconectaban, a menudo eran llamados por estafadores desde diferentes números; dichas conexiones podrían usarse para identificar cuentas fraudulentas. Los métodos de análisis de enlaces se basan en el supuesto de que los estafadores rara vez se desvían de sus hábitos de llamadas. [12]
En 2007, la revista Wired publicó un artículo en línea en el que se afirmaba que Hancock había sido creado por investigadores de AT&T con "fines de vigilancia". El artículo destacaba los trabajos de investigación escritos por Cortes et al. , en particular el concepto de los investigadores de "comunidades de interés". El artículo relacionaba el concepto de Hancock con los recientes hallazgos públicos de que el Buró Federal de Investigaciones (FBI) había estado haciendo solicitudes sin orden judicial de registros de "comunidades de interés" a empresas de telecomunicaciones en virtud de la Ley Patriota de los Estados Unidos . [2]
El artículo afirma que AT&T "inventó el concepto y la tecnología" de crear registros de "comunidad de interés", citando la propiedad de la empresa de patentes de minería de datos relacionadas. Por último, el artículo señalaba que AT&T, junto con Verizon , estaba siendo demandada en ese momento en un tribunal federal por proporcionar a la Agencia de Seguridad Nacional (NSA) acceso a miles de millones de registros telefónicos pertenecientes a estadounidenses. La NSA, afirma el artículo, obtuvo dichos datos con la intención de extraerlos para encontrar sospechosos de terrorismo y objetivos de escuchas telefónicas sin orden judicial . [2]
La vigilancia federal de las telecomunicaciones no es un desarrollo histórico reciente en los Estados Unidos. Según el académico Colin Agur, la vigilancia telefónica por parte de las fuerzas del orden en los Estados Unidos se volvió más común en la década de 1920. [18] En particular, las escuchas telefónicas se convirtieron en una forma predominante de recolección de evidencia por parte de los funcionarios encargados de hacer cumplir la ley, especialmente los agentes federales, durante la Prohibición. [18] Agur sostiene que la Ley de Comunicaciones de 1934, que estableció la Comisión Federal de Comunicaciones, controló el abuso de la vigilancia telefónica por parte de las fuerzas del orden. [18] Según la ley, las empresas de telecomunicaciones podían mantener registros e informar a la FCC sobre las solicitudes ilegales de interceptación de telecomunicaciones. Después de la Ley Federal de Interceptación de Telecomunicaciones de 1968 y la decisión de la Corte Suprema en Katz v. United States , que extendieron las protecciones de la Cuarta Enmienda a las comunicaciones telefónicas, la vigilancia federal de las telecomunicaciones requirió órdenes judiciales. [18]
El FBI fue autorizado por primera vez a obtener cartas de seguridad nacional (NSL, por sus siglas en inglés) para registros de facturación de comunicaciones, incluidas las de los servicios telefónicos, después de que el Congreso aprobara la Ley de Privacidad de las Comunicaciones Electrónicas de 1986. Las cartas obligaban a las compañías telefónicas a proporcionar al FBI información de los clientes, como nombres, direcciones y registros de llamadas de larga distancia. Con el tiempo, el Congreso ampliaría la autoridad de las NSL para incluir también las órdenes judiciales para los registros de llamadas de larga distancia local. [19]
Después de los ataques del 11 de septiembre de 2001 , el Congreso aprobó la Ley Patriota de los Estados Unidos , que facilitó que los investigadores del FBI recibieran cartas de seguridad nacional para investigaciones de terrorismo (NSL, por sus siglas en inglés). Los académicos William Bendix y Paul Quirk sostienen que la Ley Patriota permitió al FBI acceder y recopilar los datos privados de muchos ciudadanos, sin la aprobación de un juez. Se le permitió al FBI mantener una colección de registros, sin límite de tiempo para su posesión. También podía obligar a los destinatarios de NSL a permanecer en silencio mediante el uso de órdenes de silencio. [19]
El artículo de Wired afirmaba que el FBI había comenzado a realizar solicitudes sin orden judicial a las empresas de telecomunicaciones para que facilitaran registros de sospechosos pertenecientes a "comunidades de interés" en virtud de la Ley Patriota de los Estados Unidos. El artículo afirmaba que las fuerzas del orden habían descubierto la existencia de dichos registros gracias a las investigaciones realizadas por los creadores de Hancock. [2]
En 2005, las filtraciones del gobierno revelaron el abuso de las NSL por parte del FBI. En 2006, cuando se renovó la Ley Patriota, se incluyeron disposiciones que exigían al inspector general del Departamento de Justicia que revisara anualmente el uso de la NSL. El primer informe del inspector general concluyó que entre 2003 y 2005 se habían concedido 140.000 solicitudes de NSL a agentes del FBI, correspondientes a casi 24.000 ciudadanos estadounidenses. Los datos se añadieron después a bancos de datos a disposición de miles de agentes. [19]
La relación público-privada de las empresas de telecomunicaciones se extiende al ámbito de la seguridad nacional . Las empresas de telecomunicaciones, incluidas AT&T , Verizon y BellSouth , cooperaron con las solicitudes de la NSA para acceder a los registros transaccionales. [20] Las empresas de telecomunicaciones, incluida AT&T, han mantenido asociaciones con agencias gubernamentales, como el Departamento de Seguridad Nacional, para colaborar en el intercambio de información y resolver problemas nacionales de ciberseguridad. [21] Los representantes de AT&T forman parte de la junta directiva de la National Cyber Security Alliance (NCSA), que promueve la concienciación sobre la ciberseguridad y la protección de los usuarios de computadoras. [21]
Los analistas de la NSA, bajo la autoridad del Programa de Vigilancia del Terrorismo , también utilizaron la minería de datos para encontrar sospechosos y simpatizantes del terrorismo. En esta búsqueda, la NSA interceptó comunicaciones, incluidas llamadas telefónicas, que salían y entraban en los Estados Unidos. Los agentes analizaron la información en busca de posibles vínculos con el terrorismo, como el deseo de aprender a pilotar aviones o las ubicaciones específicas de los destinatarios de la comunicación, como Pakistán. [20]
En 2005, el New York Times informó sobre la existencia del programa, que la administración Bush defendió como necesario en sus esfuerzos antiterroristas y limitado a sospechosos y asociados terroristas. [20]
Sin embargo, en 2007, el artículo de Wired señaló cómo AT&T y Verizon estaban siendo demandados en un tribunal federal por proporcionar a la NSA acceso a miles de millones de registros telefónicos pertenecientes a estadounidenses para actividades antiterroristas, como el uso de minería de datos para localizar a sospechosos de terrorismo y objetivos de escuchas telefónicas sin orden judicial . [2]
En 2013, tras las filtraciones de Snowden , se reveló que el programa también había interceptado las comunicaciones no sólo de sospechosos de terrorismo, sino también de millones de ciudadanos estadounidenses. Una auditoría independiente realizada en 2014 por la Junta de Supervisión de Privacidad y Libertades Civiles concluyó que el programa tenía beneficios limitados en materia de lucha contra el terrorismo. [20]