Análisis de datos para la detección de fraudes

El fraude representa un problema importante para los gobiernos y las empresas y se requieren técnicas de análisis especializadas para descubrir el fraude a través de ellas. Algunos de estos métodos incluyen el descubrimiento de conocimiento en bases de datos (KDD), la minería de datos , el aprendizaje automático y las estadísticas . Ofrecen soluciones aplicables y exitosas en diferentes áreas de delitos de fraude electrónico. ^[1]

En general, la razón principal para utilizar técnicas de análisis de datos es abordar el fraude, ya que muchos sistemas de control interno tienen graves debilidades. Por ejemplo, el enfoque predominante actualmente empleado por muchas agencias de aplicación de la ley para detectar empresas involucradas en posibles casos de fraude consiste en recibir evidencia circunstancial o quejas de denunciantes. ^[2] Como resultado, una gran cantidad de casos de fraude permanecen sin detectar ni procesar. Para probar, detectar, validar, corregir errores y monitorear eficazmente los sistemas de control contra actividades fraudulentas, las empresas, entidades y organizaciones dependen de técnicas especializadas de análisis de datos, como la minería de datos, la comparación de datos, la función de sonidos similares , el análisis de regresión, el análisis de agrupamiento y el análisis de brechas. ^[3] Las técnicas utilizadas para la detección de fraude se dividen en dos clases principales: técnicas estadísticas e inteligencia artificial . ^[4]

Técnicas estadísticas

Ejemplos de técnicas de análisis de datos estadísticos son:

Técnicas de preprocesamiento de datos para la detección, validación, corrección de errores y llenado de datos faltantes o incorrectos.
Cálculo de diversos parámetros estadísticos como promedios , cuantiles , métricas de rendimiento, distribuciones de probabilidad, etc. Por ejemplo, los promedios pueden incluir la duración promedio de las llamadas, la cantidad promedio de llamadas por mes y los retrasos promedio en el pago de facturas.
Modelos y distribuciones de probabilidad de diversas actividades comerciales, ya sea en términos de diversos parámetros o distribuciones de probabilidad.
Cálculo de perfiles de usuario .
Análisis de series temporales de datos dependientes del tiempo. ^[5]
Agrupamiento y clasificación para encontrar patrones y asociaciones entre grupos de datos. ^[5]
Comparación de datos La comparación de datos se utiliza para comparar dos conjuntos de datos recopilados. El proceso se puede realizar en base a algoritmos o bucles programados. Se trata de intentar hacer coincidir conjuntos de datos entre sí o comparar tipos de datos complejos. La comparación de datos se utiliza para eliminar registros duplicados e identificar vínculos entre dos conjuntos de datos para fines de marketing, seguridad u otros usos. ^[3]
La función Sounds like se utiliza para buscar valores que suenan similares. La similitud fonética es una forma de localizar posibles valores duplicados o falta de ortografía en datos introducidos manualmente. La función 'Sounds like' convierte las cadenas de comparación en códigos Soundex estadounidenses de cuatro caracteres, que se basan en la primera letra y las tres primeras consonantes después de la primera letra de cada cadena. ^[3]
El análisis de regresión permite examinar la relación entre dos o más variables de interés. El análisis de regresión estima las relaciones entre las variables independientes y una variable dependiente. Este método se puede utilizar para ayudar a comprender e identificar las relaciones entre las variables y predecir los resultados reales. ^[3]
El análisis de brechas se utiliza para determinar si se están cumpliendo los requisitos del negocio y, de no ser así, cuáles son los pasos que se deben seguir para cumplirlos con éxito.
Algoritmos de comparación para detectar anomalías en el comportamiento de las transacciones o usuarios en comparación con modelos y perfiles previamente conocidos. También se necesitan técnicas para eliminar falsas alarmas , estimar riesgos y predecir el futuro de las transacciones o usuarios actuales.

Algunos contadores forenses se especializan en análisis forense , que consiste en la obtención y el análisis de datos electrónicos para reconstruir, detectar o respaldar de otro modo una denuncia por fraude financiero. Los pasos principales del análisis forense son la recopilación de datos , la preparación de los datos , el análisis de los datos y la elaboración de informes. Por ejemplo, el análisis forense se puede utilizar para revisar la actividad de la tarjeta de compra de un empleado y evaluar si alguna de las compras se desvió o se podía desviar para uso personal.

Inteligencia artificial

La detección de fraudes es una actividad que requiere un gran conocimiento. Las principales técnicas de IA que se utilizan para la detección de fraudes incluyen:

Minería de datos para clasificar, agrupar y segmentar los datos y encontrar automáticamente asociaciones y reglas en los datos que puedan significar patrones interesantes, incluidos aquellos relacionados con el fraude.
Sistemas expertos para codificar la experiencia para detectar fraude en forma de reglas.
Reconocimiento de patrones para detectar clases aproximadas, grupos o patrones de comportamiento sospechoso, ya sea de forma automática (sin supervisión) o para que coincidan con entradas dadas.
Técnicas de aprendizaje automático para identificar automáticamente características del fraude.
Redes neuronales para generar de forma independiente clasificación, agrupamiento, generalización y previsión que luego puedan compararse con conclusiones planteadas en auditorías internas o documentos financieros formales como el 10-Q . ^[5]

También se utilizan otras técnicas como el análisis de enlaces , las redes bayesianas , la teoría de decisiones y la comparación de secuencias para la detección de fraudes. ^[4] También se ha empleado una técnica nueva y novedosa llamada enfoque de propiedades del sistema dondequiera que haya datos de clasificación disponibles. ^[6]

El análisis estadístico de los datos de investigación es el método más completo para determinar si existe fraude de datos. El fraude de datos, según la definición de la Oficina de Integridad de la Investigación (ORI), incluye la invención, la falsificación y el plagio.

Aprendizaje automático y minería de datos

Las primeras técnicas de análisis de datos se orientaron a extraer características cuantitativas y estadísticas de los datos. Estas técnicas facilitan interpretaciones útiles de los datos y pueden ayudar a obtener una mejor comprensión de los procesos que se encuentran detrás de ellos. Aunque las técnicas tradicionales de análisis de datos pueden conducirnos indirectamente al conocimiento, este sigue siendo creado por analistas humanos. ^[7]

Para ir más allá, un sistema de análisis de datos debe estar equipado con una cantidad sustancial de conocimiento de fondo y ser capaz de realizar tareas de razonamiento que involucren ese conocimiento y los datos proporcionados. ^[7] En un esfuerzo por cumplir este objetivo, los investigadores han recurrido a ideas del campo del aprendizaje automático. Esta es una fuente natural de ideas, ya que la tarea de aprendizaje automático puede describirse como la conversión de conocimientos de fondo y ejemplos (entrada) en conocimiento (salida).

Si la minería de datos da como resultado el descubrimiento de patrones significativos, los datos se convierten en información. La información o los patrones que son nuevos, válidos y potencialmente útiles no son simplemente información, sino conocimiento. Se habla de descubrir conocimiento, antes oculto en la enorme cantidad de datos, pero ahora revelado.

Las soluciones de aprendizaje automático e inteligencia artificial pueden clasificarse en dos categorías: aprendizaje “supervisado” y “no supervisado”. Estos métodos buscan cuentas, clientes, proveedores, etc. que se comporten de manera “inusual” para generar puntajes sospechosos, reglas o anomalías visuales, según el método. ^[8]

Independientemente de si se utilizan métodos supervisados o no, cabe señalar que el resultado solo nos da una indicación de la probabilidad de fraude. Ningún análisis estadístico independiente puede asegurar que un objeto en particular sea fraudulento, pero sí puede identificarlos con un alto grado de precisión. Como resultado, la colaboración eficaz entre el modelo de aprendizaje automático y los analistas humanos es vital para el éxito de las aplicaciones de detección de fraudes. ^[9]

Aprendizaje supervisado

En el aprendizaje supervisado, se toma una submuestra aleatoria de todos los registros y se clasifica manualmente como "fraudulento" o "no fraudulento" (la tarea se puede descomponer en más clases para cumplir con los requisitos del algoritmo). Es posible que sea necesario realizar un sobremuestreo de eventos relativamente raros, como el fraude, para obtener un tamaño de muestra lo suficientemente grande. ^[10] Estos registros clasificados manualmente se utilizan luego para entrenar un algoritmo de aprendizaje automático supervisado. Después de construir un modelo utilizando estos datos de entrenamiento, el algoritmo debería poder clasificar los nuevos registros como fraudulentos o no fraudulentos.

Las redes neuronales supervisadas, las redes neuronales difusas y las combinaciones de redes neuronales y reglas se han explorado y utilizado ampliamente para detectar fraudes en redes de telefonía móvil y fraudes en estados financieros. ^[11]^[12]

La red neuronal de aprendizaje bayesiano se implementa para la detección de fraudes con tarjetas de crédito, fraudes en telecomunicaciones, fraudes en reclamos de automóviles y fraudes en seguros médicos. ^[13]

Los sistemas híbridos basados en conocimiento y estadística, en los que se integra el conocimiento experto con el poder estadístico, utilizan una serie de técnicas de minería de datos con el fin de detectar el fraude mediante clones celulares. En concreto, se implementa un programa de aprendizaje de reglas para descubrir indicadores de comportamiento fraudulento a partir de una gran base de datos de transacciones de clientes. ^[14]

Cahill et al. (2000) diseñaron una firma de fraude, basada en datos de llamadas fraudulentas, para detectar fraudes en telecomunicaciones. Para calificar una llamada como fraudulenta, se compara su probabilidad bajo la firma de la cuenta con su probabilidad bajo una firma de fraude. La firma de fraude se actualiza secuencialmente, lo que permite la detección de fraudes basada en eventos.

El análisis de vínculos comprende un enfoque diferente. Relaciona a los estafadores conocidos con otros individuos, utilizando métodos de vinculación de registros y redes sociales. ^[15]^[16]

Este tipo de detección solo es capaz de detectar fraudes similares a los que han ocurrido anteriormente y que han sido clasificados por un humano. Para detectar un nuevo tipo de fraude puede ser necesario el uso de un algoritmo de aprendizaje automático no supervisado.

Aprendizaje no supervisado

Por el contrario, los métodos no supervisados no utilizan registros etiquetados.

Bolton y Hand utilizan el análisis de grupos de pares y el análisis de puntos de ruptura aplicados al comportamiento de gasto en cuentas de tarjetas de crédito. ^[17] El análisis de grupos de pares detecta objetos individuales que comienzan a comportarse de una manera diferente a los objetos a los que previamente habían sido similares. Otra herramienta que Bolton y Hand desarrollan para la detección del fraude conductual es el análisis de puntos de ruptura. ^[17] A diferencia del análisis de grupos de pares, el análisis de puntos de ruptura opera a nivel de cuenta. Un punto de ruptura es una observación donde se detecta un comportamiento anómalo para una cuenta en particular. Ambas herramientas se aplican al comportamiento de gasto en cuentas de tarjetas de crédito.

En Carcillo et al (2019) se presenta una combinación de métodos supervisados y no supervisados para la detección de fraudes con tarjetas de crédito. ^[18]

Geolocalización

Los minoristas en línea y los procesadores de pagos utilizan la geolocalización para detectar posibles fraudes con tarjetas de crédito comparando la ubicación del usuario con la dirección de facturación de la cuenta o la dirección de envío proporcionada. Una discrepancia (un pedido realizado desde los EE. UU. con un número de cuenta de Tokio, por ejemplo) es un fuerte indicador de un posible fraude. La geolocalización de la dirección IP también se puede utilizar en la detección de fraudes para hacer coincidir la dirección de facturación con el código postal o el código de área. ^[19] Los bancos pueden prevenir ataques de " phishing ", lavado de dinero y otras violaciones de seguridad al determinar la ubicación del usuario como parte del proceso de autenticación. Las bases de datos Whois también pueden ayudar a verificar las direcciones IP y los registrantes. ^[20]

Los equipos gubernamentales, policiales y de seguridad corporativa utilizan la geolocalización como herramienta de investigación, rastreando las rutas de Internet de los atacantes en línea para encontrar a los perpetradores y prevenir futuros ataques desde la misma ubicación.

Conjuntos de datos disponibles

Una limitación importante para la validación de los métodos de detección de fraude existentes es la falta de conjuntos de datos públicos. ^[21] Uno de los pocos ejemplos es el conjunto de datos de detección de fraude de tarjetas de crédito ^[22] puesto a disposición por el Grupo de aprendizaje automático de ULB. ^[23]

Véase también

Referencias

^ Chuprina, Roman (13 de abril de 2020). "Guía detallada de 2020 para la detección de fraudes en el comercio electrónico". www.datasciencecentral.com . Consultado el 24 de mayo de 2020 .
^ Velasco, Rafael B.; Carpanese, Igor; Interián, Rubén; Paulo Neto, Octávio CG; Ribeiro, Celso C. (28/05/2020). "Un sistema de apoyo a la decisión para la detección de fraude en la contratación pública". Transacciones Internacionales en Investigación Operativa . 28 : 27–47. doi : 10.1111/itor.12811 . ISSN 0969-6016.
^ abcd Bolton, R. y Hand, D. (2002). Detección de fraude estadístico: una revisión. Statistical Science 17 (3), págs. 235-255
^ ab GK Palshikar, La verdad oculta: fraudes y su control: una aplicación crítica para la inteligencia empresarial, Intelligent Enterprise, vol. 5, núm. 9, 28 de mayo de 2002, págs. 46-51.
^ abc Al-Khatib, Adnan M. (2012). "Técnicas de detección de fraudes en pagos electrónicos". Revista Mundial de Ciencias de la Computación y Tecnología de la Información . 2 . S2CID 214778396.
^ Vani, GK (febrero de 2018). "Cómo detectar fraudes en la recopilación de datos utilizando el enfoque de propiedades del sistema". Multilogic in Science . VII (NÚMERO ESPECIAL ICAAASTSD-2018). ISSN 2277-7601 . Consultado el 2 de febrero de 2019 .
^ ab Michalski, RS, I. Bratko y M. Kubat (1998). Aprendizaje automático y minería de datos: métodos y aplicaciones. John Wiley & Sons Ltd.
^ Bolton, R. y Hand, D. (2002). Detección de fraude estadístico: una revisión (con discusión). Statistical Science 17(3): 235–255.
^ Tax, N. y de Vries, KJ y de Jong, M. y Dosoula, N. y van den Akker, B. y Smith, J. y Thuong, O. y Bernardi, L. Aprendizaje automático para la detección de fraudes en el comercio electrónico: una agenda de investigación. Actas del taller internacional de KDD sobre aprendizaje automático implementable para la defensa de la seguridad (ML hat). Springer, Cham, 2021.
^ Dal Pozzolo, A. y Caelen, O. y Le Borgne, Y. y Waterschoot, S. y Bontempi, G. (2014). Lecciones aprendidas en la detección de fraudes con tarjetas de crédito desde la perspectiva de un profesional. Sistemas expertos con aplicaciones 41: 10 4915–4928.
^ Green, B. y Choi, J. (1997). Evaluación del riesgo de fraude en la gestión mediante tecnología de redes neuronales. Auditoría 16(1): 14–28.
^ Estevez, P., C. Held y C. Perez (2006). Prevención del fraude de suscripción en telecomunicaciones mediante reglas difusas y redes neuronales. Expert Systems with Applications 31, 337–344.
^ Bhowmik, Rekha Bhowmik. "35 técnicas de minería de datos para la detección de fraudes". Revista de informática forense, seguridad y derecho . Universidad de Texas en Dallas.
^ Fawcett, T. (1997). Enfoques de inteligencia artificial para la detección de fraudes y la gestión de riesgos: Documentos del taller AAAI de 1997. Informe técnico WS-97-07. AAAI Press.
^ Phua, C.; Lee, V.; Smith-Miles, K.; Gayler, R. (2005). "Un estudio exhaustivo de la investigación sobre detección de fraudes basada en minería de datos". arXiv : 1009.6119 . doi :10.1016/j.chb.2012.01.002. S2CID 50458504. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Cortes, C. y Pregibon, D. (2001). Métodos basados en firmas para flujos de datos. Minería de datos y descubrimiento de conocimiento 5: 167–182.
^ ab Bolton, R. y Hand, D. (2001). Métodos de elaboración de perfiles no supervisados para la detección de fraudes. Calificación crediticia y control crediticio VII.
^ Carcillo, Fabricio; Le Borgne, Yann-Aël; Caelen, Olivier; Kessaci, Yacine; Oblé, Frédéric; Bontempi, Gianluca (16 de mayo de 2019). "Combinación del aprendizaje supervisado y no supervisado en la detección de fraudes con tarjetas de crédito". Ciencias de la Información . 557 : 317–331. doi :10.1016/j.ins.2019.05.042. ISSN 0020-0255. S2CID 181839660.
^ Vacca, John R. (2003). Robo de identidad . Prentice Hall Professional . pág. 400. ISBN 9780130082756.
^ Barba, Robert (18 de noviembre de 2017). «Compartir tu ubicación con tu banco parece espeluznante, pero es útil». The Morning Call . Archivado desde el original el 11 de enero de 2018. Consultado el 10 de enero de 2018 .
^ Le Borgne, Yann-Aël; Bontempi, Gianluca (2021). "Machine Learning for Credit Card Fraud Detection - Practical Handbook" (Aprendizaje automático para la detección de fraudes con tarjetas de crédito: manual práctico) . Consultado el 26 de abril de 2021 .
^ "Detección de fraude con tarjetas de crédito". kaggle.com .
^ "Grupo de aprendizaje automático de la ULB". mlg.ulb.ac.be .