Elaboración de perfiles (ciencia de la información)

En ciencias de la información , la elaboración de perfiles se refiere al proceso de construcción y aplicación de perfiles de usuarios generados mediante análisis de datos computarizados .

Se trata del uso de algoritmos u otras técnicas matemáticas que permiten el descubrimiento de patrones o correlaciones en grandes cantidades de datos, agregados en bases de datos . Cuando estos patrones o correlaciones se utilizan para identificar o representar a personas, pueden denominarse perfiles . Aparte de una discusión sobre tecnologías de elaboración de perfiles o de elaboración de perfiles de población , la noción de elaboración de perfiles en este sentido no se refiere únicamente a la construcción de perfiles, sino que también se refiere a la aplicación de perfiles de grupo a individuos, por ejemplo, en los casos de calificación crediticia , discriminación de precios o identificación de riesgos de seguridad (Hildebrandt y Gutwirth 2008) (Elmer 2004).

La elaboración de perfiles se utiliza en la prevención del fraude , la inteligencia ambiental y el análisis de consumidores . Los métodos estadísticos de elaboración de perfiles incluyen el descubrimiento de conocimientos en bases de datos (KDD).

El proceso de elaboración de perfiles

El proceso técnico de elaboración de perfiles se puede dividir en varios pasos:

Fundamentación preliminar: El proceso de elaboración del perfil comienza con una especificación del dominio del problema aplicable y la identificación de los objetivos del análisis.
Recopilación de datos : el conjunto de datos o base de datos de destino para el análisis se forma seleccionando los datos relevantes a la luz del conocimiento del dominio existente y la comprensión de los datos.
Preparación de datos : Los datos se preprocesan para eliminar el ruido y reducir la complejidad mediante la eliminación de atributos.
Minería de datos : Los datos se analizan con el algoritmo o la heurística desarrollados para adaptarse a los datos, el modelo y los objetivos.
Interpretación: Los patrones extraídos son evaluados en cuanto a su relevancia y validez por especialistas y/o profesionales en el dominio de aplicación (por ejemplo, excluyendo correlaciones espurias).
Aplicación: Los perfiles construidos se aplican, por ejemplo a categorías de personas, para probar y ajustar los algoritmos.
Decisión institucional: La institución decide qué acciones o políticas aplicar a grupos o individuos cuyos datos coinciden con un perfil relevante.

La recopilación, preparación y extracción de datos pertenecen a la fase en la que se construye el perfil. Sin embargo, la elaboración de perfiles también se refiere a la aplicación de perfiles, es decir, al uso de perfiles para la identificación o categorización de grupos o personas individuales. Como se puede ver en el paso seis (aplicación), el proceso es circular. Existe un ciclo de retroalimentación entre la construcción y la aplicación de perfiles. La interpretación de los perfiles puede conducir al ajuste reiterado, posiblemente en tiempo real, de pasos previos específicos en el proceso de elaboración de perfiles. La aplicación de perfiles a personas cuyos datos no se utilizaron para construir el perfil se basa en la comparación de datos, que proporciona nuevos datos que permiten realizar ajustes adicionales. El proceso de elaboración de perfiles es dinámico y adaptativo. Un buen ejemplo de la naturaleza dinámica y adaptativa de la elaboración de perfiles es el Proceso estándar intersectorial para la minería de datos ( CRISP-DM ).

Tipos de prácticas de elaboración de perfiles

Para aclarar la naturaleza de las tecnologías de elaboración de perfiles, es necesario hacer algunas distinciones cruciales entre los distintos tipos de prácticas de elaboración de perfiles, además de la distinción entre la construcción y la aplicación de perfiles. Las principales distinciones son las que se establecen entre la elaboración de perfiles de abajo a arriba y de arriba a abajo (o aprendizaje supervisado y no supervisado), y entre perfiles individuales y grupales.

Aprendizaje supervisado y no supervisado

Los perfiles pueden clasificarse según la forma en que han sido generados (Fayyad, Piatetsky-Shapiro & Smyth 1996) (Zarsky & 2002-3) . Por un lado, los perfiles pueden generarse probando una correlación hipotetizada. Esto se llama elaboración de perfiles de arriba hacia abajo o aprendizaje supervisado . Esto es similar a la metodología de la investigación científica tradicional en que comienza con una hipótesis y consiste en probar su validez. El resultado de este tipo de elaboración de perfiles es la verificación o refutación de la hipótesis. También se podría hablar de elaboración de perfiles deductivos. Por otro lado, los perfiles pueden generarse explorando una base de datos, utilizando el proceso de minería de datos para detectar patrones en la base de datos que no se habían hipotetizado previamente. En cierto modo, se trata de generar hipótesis: encontrar correlaciones que uno no esperaba o ni siquiera pensaba. Una vez que se han extraído los patrones, entrarán en el bucle –descrito anteriormente– y se probarán con el uso de nuevos datos. Esto se llama aprendizaje no supervisado .

Dos aspectos son importantes en relación con esta distinción. En primer lugar, los algoritmos de aprendizaje no supervisado parecen permitir la construcción de un nuevo tipo de conocimiento, que no se basa en hipótesis desarrolladas por un investigador ni en relaciones causales o motivacionales, sino exclusivamente en correlaciones estocásticas. En segundo lugar, los algoritmos de aprendizaje no supervisado parecen permitir una construcción de conocimiento de tipo inductivo que no requiere justificación teórica o explicación causal (Custers 2004).

Algunos autores afirman que si la aplicación de perfiles basados en el reconocimiento computacional de patrones estocásticos "funciona", es decir, permite predicciones confiables de comportamientos futuros, la explicación teórica o causal de estos patrones ya no importa (Anderson 2008). Sin embargo, la idea de que los algoritmos "ciegos" proporcionan información confiable no implica que la información sea neutral. En el proceso de recopilación y agregación de datos en una base de datos (los primeros tres pasos del proceso de construcción de perfiles), se realizan traducciones de eventos de la vida real a datos legibles por máquina . Luego, estos datos se preparan y depuran para permitir la computabilidad inicial. El sesgo potencial tendrá que ubicarse en estos puntos, así como en la elección de los algoritmos que se desarrollen. No es posible extraer de una base de datos todas las correlaciones lineales y no lineales posibles, lo que significa que las técnicas matemáticas desarrolladas para buscar patrones determinarán los patrones que se puedan encontrar. En el caso de la elaboración de perfiles por máquina, el sesgo potencial no se basa en prejuicios de sentido común o en lo que los psicólogos llaman estereotipos, sino en las técnicas informáticas empleadas en los pasos iniciales del proceso. Estas técnicas son en su mayoría invisibles para aquellos a quienes se les aplican los perfiles (porque sus datos coinciden con los perfiles del grupo pertinente).

Perfiles individuales y grupales

Los perfiles también deben clasificarse según el tipo de sujeto al que se refieren. Este sujeto puede ser un individuo o un grupo de personas. Cuando un perfil se construye con los datos de una sola persona, esto se llama perfil individual (Jaquet-Chiffelle 2008). Este tipo de perfil se utiliza para descubrir las características particulares de un individuo determinado, para permitir una identificación única o la prestación de servicios personalizados. Sin embargo, la prestación de servicios personalizados también se basa en la mayoría de los casos en perfiles de grupo, que permiten categorizar a una persona como un cierto tipo de persona, basándose en el hecho de que su perfil coincide con un perfil construido sobre la base de cantidades masivas de datos sobre un número masivo de otras personas. Un perfil de grupo puede referirse al resultado de la minería de datos en conjuntos de datos que hacen referencia a una comunidad existente que se considera a sí misma como tal, como un grupo religioso, un club de tenis, una universidad, un partido político, etc. En ese caso, puede describir patrones de comportamiento previamente desconocidos u otras características de dicho grupo (comunidad). Un perfil de grupo también puede referirse a una categoría de personas que no forman una comunidad, pero que comparten patrones de comportamiento u otras características previamente desconocidos (Custers 2004). En ese caso, el perfil de grupo describe comportamientos específicos u otras características de una categoría de personas, como por ejemplo mujeres con ojos azules y cabello rojo, o adultos con brazos y piernas relativamente cortos. Estas categorías pueden correlacionarse con riesgos para la salud, capacidad de generar ingresos, tasas de mortalidad, riesgos crediticios, etc.

Si se aplica un perfil individual al individuo del que se extrajo, se trata de un perfil individual directo. Si se aplica un perfil de grupo a un individuo cuyos datos coinciden con el perfil, se trata de un perfil individual indirecto, porque el perfil se generó utilizando datos de otras personas. De manera similar, si se aplica un perfil de grupo al grupo del que se extrajo, se trata de un perfil de grupo directo (Jaquet-Chiffelle 2008). Sin embargo, en la medida en que la aplicación de un perfil de grupo a un grupo implica la aplicación del perfil de grupo a los miembros individuales del grupo, tiene sentido hablar de un perfil de grupo indirecto, especialmente si el perfil de grupo no es distributivo.

Perfiles distributivos y no distributivos

Los perfiles de grupo también pueden dividirse en términos de su carácter distributivo (Vedder 1999). Un perfil de grupo es distributivo cuando sus propiedades se aplican por igual a todos los miembros de su grupo: todos los solteros no están casados, o todas las personas con un gen específico tienen un 80% de posibilidades de contraer una enfermedad específica. Un perfil es no distributivo cuando el perfil no se aplica necesariamente a todos los miembros del grupo: el grupo de personas con un código postal específico tiene una capacidad de ingresos promedio de XX, o la categoría de personas con ojos azules tiene una probabilidad promedio de 37% de contraer una enfermedad específica. Nótese que en este caso la probabilidad de que un individuo tenga una capacidad de ingresos particular o de contraer la enfermedad específica dependerá de otros factores, por ejemplo, sexo, edad, antecedentes de los padres, salud previa, educación. Debería ser obvio que, aparte de los perfiles tautológicos como el de los solteros, la mayoría de los perfiles de grupo generados por medio de técnicas informáticas son no distributivos. Esto tiene implicaciones de largo alcance para la precisión de la elaboración indirecta de perfiles individuales basada en la comparación de datos con perfiles de grupos no distributivos. Aparte del hecho de que la aplicación de perfiles precisos puede ser injusta o causar una estigmatización indebida, la mayoría de los perfiles de grupo no serán precisos.

Aplicaciones

En el sector financiero, las instituciones utilizan tecnologías de elaboración de perfiles para la prevención del fraude y la calificación crediticia . Los bancos quieren minimizar los riesgos al conceder créditos a sus clientes. Sobre la base del amplio grupo, a los clientes de la elaboración de perfiles se les asigna un determinado valor de puntuación que indica su solvencia. Las instituciones financieras, como los bancos y las compañías de seguros, también utilizan la elaboración de perfiles grupales para detectar el fraude o el blanqueo de dinero . Las bases de datos con transacciones se buscan con algoritmos para encontrar comportamientos que se desvían del estándar, lo que indica transacciones potencialmente sospechosas. ^[1]

En el contexto del empleo, los perfiles pueden ser de utilidad para el seguimiento de los empleados mediante el control de su comportamiento en línea , para la detección de fraudes por parte de ellos y para el despliegue de recursos humanos mediante la puesta en común y clasificación de sus habilidades. (Leopold & Meints 2008) ^[2]

La elaboración de perfiles también puede utilizarse para ayudar a las personas en el trabajo y también en el aprendizaje, interviniendo en el diseño de sistemas hipermedia adaptativos que personalicen la interacción. Por ejemplo, esto puede ser útil para apoyar la gestión de la atención (Nabeth 2008).

En la ciencia forense , existe la posibilidad de vincular distintas bases de datos de casos y sospechosos y extraer de ellas patrones comunes. Esto podría utilizarse para resolver casos existentes o con el fin de establecer perfiles de riesgo de sospechosos potenciales (Geradts y Sommer, 2008) (Harcourt, 2006).

Perfiles de consumidores

El perfilado de consumidores es una forma de análisis de clientes , donde los datos de los clientes se utilizan para tomar decisiones sobre la promoción de productos , el precio de los productos, así como la publicidad personalizada . ^[3] Cuando el objetivo es encontrar el segmento de clientes más rentable, el análisis de consumidores se basa en datos demográficos , datos sobre el comportamiento del consumidor , datos sobre los productos comprados, el método de pago y encuestas para establecer perfiles de consumidores. Para establecer modelos predictivos sobre la base de bases de datos existentes , se utiliza el método estadístico Knowledge Discovery in Databases (KDD). KDD agrupa datos de clientes similares para predecir el comportamiento futuro del consumidor. Otros métodos para predecir el comportamiento del consumidor son la correlación y el reconocimiento de patrones . Los perfiles de consumidores describen a los clientes en función de un conjunto de atributos ^[4] y, por lo general, los consumidores se agrupan según los ingresos , el nivel de vida , la edad y la ubicación. Los perfiles de consumidores también pueden incluir atributos de comportamiento que evalúan la motivación de un cliente en el proceso de decisión de compra . Ejemplos bien conocidos de perfiles de consumidores son la clasificación geodemográfica de hogares Mosaic de Experian , Acorn de CACI y Personicx de Acxiom . ^[5]

Inteligencia ambiental

En un entorno construido con inteligencia ambiental , los objetos cotidianos tienen sensores incorporados y sistemas integrados que les permiten reconocer y responder a la presencia y las necesidades de las personas. La inteligencia ambiental se basa en la creación de perfiles automatizados y en diseños de interacción entre humanos y computadoras . ^[6] Los sensores monitorean las acciones y los comportamientos de un individuo, generando, recopilando, analizando, procesando y almacenando datos personales . Los primeros ejemplos de productos electrónicos de consumo con inteligencia ambiental incluyen aplicaciones móviles , realidad aumentada y servicios basados en la ubicación . ^[7]

Riesgos y problemas

Las tecnologías de elaboración de perfiles han planteado una serie de cuestiones éticas, jurídicas y de otro tipo, como la privacidad , la igualdad , el debido proceso , la seguridad y la responsabilidad . Numerosos autores han advertido sobre las posibilidades de una nueva infraestructura tecnológica que podría surgir sobre la base de tecnologías de elaboración de perfiles semiautónomas (Lessig 2006) (Solove 2004) (Schwartz 2000).

La privacidad es una de las principales cuestiones planteadas. Las tecnologías de elaboración de perfiles permiten un seguimiento de gran alcance del comportamiento y las preferencias de un individuo. Los perfiles pueden revelar información personal o privada sobre individuos que tal vez ni siquiera ellos mismos conozcan (Hildebrandt y Gutwirth 2008).

Las tecnologías de elaboración de perfiles son, por su propia naturaleza, herramientas discriminatorias. Permiten una clasificación y segmentación social sin precedentes que puede tener efectos injustos. Las personas que son objeto de este perfil pueden tener que pagar precios más altos ^[8] , pueden perder ofertas u oportunidades importantes y pueden correr mayores riesgos porque atender sus necesidades es menos rentable (Lyon 2003). En la mayoría de los casos, no serán conscientes de ello, ya que las prácticas de elaboración de perfiles son en su mayoría invisibles y los propios perfiles suelen estar protegidos por propiedad intelectual o secreto comercial. Esto supone una amenaza para la igualdad y la solidaridad de los ciudadanos. A mayor escala, puede provocar la segmentación de la sociedad ^{[9] .}

Uno de los problemas que subyacen a las posibles violaciones de la privacidad y la no discriminación es que el proceso de elaboración de perfiles suele ser invisible para quienes lo sufren. Esto crea dificultades, ya que resulta difícil, si no imposible, impugnar la aplicación de un perfil de grupo determinado. Esto perturba los principios del debido proceso: si una persona no tiene acceso a la información en base a la cual se le niegan beneficios o se le atribuyen ciertos riesgos, no puede impugnar la forma en que se la trata (Steinbock 2005).

Los perfiles pueden utilizarse en contra de personas cuando terminan en manos de personas que no tienen derecho a acceder o utilizar la información. Un problema importante relacionado con estas brechas de seguridad es el robo de identidad .

Cuando la aplicación de perfiles causa daños, es necesario determinar quién es responsable de dichos daños: ¿el programador del software, el proveedor del servicio de elaboración de perfiles o el usuario perfilado? Esta cuestión de la responsabilidad es especialmente compleja en el caso de que la aplicación y las decisiones sobre los perfiles también se hayan automatizado, como en el caso de la computación autónoma o las decisiones de inteligencia ambiental basadas en la elaboración de perfiles.

Véase también

Busque perfil en Wikcionario, el diccionario libre.

Referencias

Anderson, Chris (2008). "El fin de la teoría: el diluvio de datos vuelve obsoleto el método científico". Revista Wired . 16 (7).
Custers, BHM (2004). "El poder del conocimiento" (Documento). Tilburg: Wolf Legal Publishers.
Elmer, G. (2004). "Máquinas de elaboración de perfiles. Mapeo de la economía de la información personal" (Documento). MIT Press.
Fayyad, UM; Piatetsky-Shapiro, G.; Smyth, P. (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF) . AI Magazine . 17 (3): 37–54. Archivado desde el original (PDF) el 2009-12-16 . Consultado el 2009-02-09 .
Geradts, Zeno; Sommer, Peter (2008). "D6.7c: Perfiles forenses" (PDF) . Entregables de FIDIS . 6 (7c).
Harcourt, BE (2006). "Contra la predicción. Perfilación, vigilancia y castigo en una era actuarial" (Documento). The University of Chicago Press, Chicago y Londres.
Hildebrandt, Mireille; Gutwirth, Serge (2008). Perfiles del ciudadano europeo. Perspectivas interdisciplinarias . Springer, Dordrecht. doi :10.1007/978-1-4020-6914-7. ISBN . 978-1-4020-6913-0.
Jaquet-Chiffelle, David-Olivier (2008). "Respuesta: elaboración de perfiles directos e indirectos a la luz de las personas virtuales. A: Definición de elaboración de perfiles: ¿un nuevo tipo de conocimiento?". En Hildebrandt, Mireille; Gutwirth, Serge (eds.). Elaboración de perfiles del ciudadano europeo . Springer Netherlands. págs. 17–45. doi :10.1007/978-1-4020-6914-7_2.
Kephart, JO; Chess, DM (2003). "La visión de la computación autónoma" (PDF) . Computer . 36 (1 de enero): 96–104. CiteSeerX 10.1.1.70.613 . doi :10.1109/MC.2003.1160055. Archivado desde el original (PDF) el 10 de agosto de 2014.
Leopold, N.; Meints, M. (2008). "Elaboración de perfiles en situaciones de empleo (fraude)". En Hildebrandt, Mireille; Gutwirth, Serge (eds.). Elaboración de perfiles del ciudadano europeo . Springer Netherlands. págs. 217–237. doi :10.1007/978-1-4020-6914-7_12. ISBN 978-1-4020-6913-0.
Lessig, L. (2006). "Code 2.0" (Documento). Basic Books, Nueva York.
Lyon, D. (2003). "La vigilancia como clasificación social: privacidad, riesgo y discriminación digital" (Documento). Routledge.
Nabeth, Thierry (2008). "Perfiles de usuario para el apoyo a la atención en la escuela y el trabajo". En Hildebrandt, Mireille; Gutwirth, Serge (eds.). Perfiles del ciudadano europeo . Springer Netherlands. págs. 185–200. doi :10.1007/978-1-4020-6914-7_10. ISBN 978-1-4020-6913-0.
Schwartz, P. (2000). "Más allá del Código de Lessig para la privacidad en Internet: filtros del ciberespacio, control de la privacidad y prácticas justas de información". Wisconsin Law Review . 743 : 743–788.
Solove, DJ (2004). La persona digital. Tecnología y privacidad en la era de la información . Nueva York, New York University Press.
Steinbock, D. (2005). "Cotejo de datos, minería de datos y debido proceso". Georgia Law Review . 40 (1): 1–84.
Vedder, A. (1999). "KDD: El desafío al individualismo". Ética y tecnología de la información . 1 (4): 275–281. doi :10.1023/A:1010016102284. S2CID 10377988.
Weiser, M. (1991). "La computadora para el siglo XXI". Scientific American . 265 (3): 94–104. doi :10.1038/scientificamerican0991-94.
" Zarsky, T. (2002). ""¡Extraiga su propio negocio!": Argumentos a favor de las implicaciones de la minería de datos o información personal en el foro de opinión pública". Yale Journal of Law and Technology . 5 (4): 17–47.

Notas y otras referencias

^ Canhoto, AI (2007). "Elaboración de perfiles de conducta: la construcción social de categorías en la detección de delitos financieros, tesis doctoral en la London School of Economics" (PDF) . lse.ac.uk .
^ Centro de información sobre privacidad electrónica. "EPIC - Privacidad en el lugar de trabajo". epic.org . {{cite web}}: |author=tiene nombre genérico ( ayuda )
^ Reyes, Matthew (2020). Comportamiento del consumidor y marketing . IntechOpen. p. 10. ISBN 9781789238556.
^ Reyes, Matthew (2020). Comportamiento del consumidor y marketing . IntechOpen. p. 11. ISBN 9781789238556.
^ Reyes, Matthew (2020). Comportamiento del consumidor y marketing . IntechOpen. p. 12. ISBN 9781789238556.
^ De Hert, Paul; Leenes, Ronald; Gutwirth, Serge; Poullet, Yves (2011). Computadoras, privacidad y protección de datos: un elemento de elección . Springer Netherlands. p. 80. ISBN 9789400706415.
^ De Hert, Paul; Leenes, Ronald; Gutwirth, Serge; Poullet, Yves (2011). Computadoras, privacidad y protección de datos: un elemento de elección . Springer Netherlands. p. 80. ISBN 9789400706415.
^ Odlyzko, A. (2003). "Privacidad, economía y discriminación de precios en Internet", A. M. Odlyzko. ICEC2003: Quinta Conferencia Internacional sobre Comercio Electrónico, N. Sadeh, ed., ACM, págs. 355-366 (PDF) .
^ Gandy, O. (2002). "Mineración de datos y vigilancia en el entorno posterior al 11 de septiembre, presentación en el IAMCR, Barcelona" (PDF) . asc.upenn.edu .