El fraude representa un problema importante para los gobiernos y las empresas y se requieren técnicas de análisis especializadas para descubrir el fraude utilizándolas. Algunos de estos métodos incluyen el descubrimiento de conocimiento en bases de datos (KDD), la minería de datos , el aprendizaje automático y la estadística . Ofrecen soluciones aplicables y exitosas en diferentes áreas de delitos de fraude electrónico. [1]
En general, la razón principal para utilizar técnicas de análisis de datos es combatir el fraude, ya que muchos sistemas de control interno tienen graves debilidades. Por ejemplo, el enfoque actualmente predominante empleado por muchos organismos encargados de hacer cumplir la ley para detectar empresas involucradas en posibles casos de fraude consiste en recibir pruebas circunstanciales o denuncias de denunciantes. [2] Como resultado, un gran número de casos de fraude siguen sin ser detectados ni procesados. Para probar, detectar, validar, corregir errores y monitorear de manera efectiva los sistemas de control contra actividades fraudulentas, las entidades y organizaciones comerciales se basan en técnicas especializadas de análisis de datos, como minería de datos, comparación de datos, funciones similares, análisis de regresión, análisis de agrupamiento y análisis de las deficiencias. [3] Las técnicas utilizadas para la detección de fraude se dividen en dos clases principales: técnicas estadísticas e inteligencia artificial . [4]
Ejemplos de técnicas de análisis de datos estadísticos son:
Algunos contadores forenses se especializan en análisis forense , que es la adquisición y análisis de datos electrónicos para reconstruir, detectar o respaldar de otro modo un reclamo de fraude financiero. Los pasos principales del análisis forense son la recopilación de datos , la preparación de datos , el análisis de datos y la generación de informes. Por ejemplo, se pueden utilizar análisis forenses para revisar la actividad de la tarjeta de compras de un empleado para evaluar si alguna de las compras fue desviada o desviable para uso personal.
La detección de fraudes es una actividad que requiere muchos conocimientos. Las principales técnicas de IA utilizadas para la detección de fraude incluyen:
Para la detección de fraude también se utilizan otras técnicas como el análisis de enlaces , las redes bayesianas , la teoría de la decisión y la coincidencia de secuencias . [4] También se ha empleado una técnica nueva y novedosa llamada enfoque de propiedades del sistema siempre que haya datos de clasificación disponibles. [6]
El análisis estadístico de los datos de la investigación es el método más completo para determinar si existe fraude de datos. El fraude de datos, según lo define la Oficina de Integridad de la Investigación (ORI), incluye fabricación, falsificación y plagio.
Las primeras técnicas de análisis de datos estaban orientadas a extraer características de datos cuantitativos y estadísticos. Estas técnicas facilitan interpretaciones de datos útiles y pueden ayudar a obtener mejores conocimientos sobre los procesos detrás de los datos. Aunque las técnicas tradicionales de análisis de datos pueden conducirnos indirectamente al conocimiento, este todavía es creado por analistas humanos. [7]
Para ir más allá, un sistema de análisis de datos debe estar equipado con una cantidad sustancial de conocimientos previos y ser capaz de realizar tareas de razonamiento que involucren ese conocimiento y los datos proporcionados. [7] En un esfuerzo por alcanzar este objetivo, los investigadores han recurrido a ideas del campo del aprendizaje automático. Esta es una fuente natural de ideas, ya que la tarea de aprendizaje automático puede describirse como convertir conocimientos previos y ejemplos (entradas) en conocimientos (salidas).
Si la minería de datos da como resultado el descubrimiento de patrones significativos, los datos se convierten en información. La información o los patrones que son novedosos, válidos y potencialmente útiles no son simplemente información, sino conocimiento. Se habla de descubrir conocimientos, antes ocultos en la ingente cantidad de datos, pero ahora revelados.
Las soluciones de aprendizaje automático e inteligencia artificial se pueden clasificar en dos categorías: aprendizaje "supervisado" y "no supervisado". Estos métodos buscan cuentas, clientes, proveedores, etc. que se comportan "inusualmente" para generar puntuaciones de sospecha, reglas o anomalías visuales, según el método. [8]
Ya sea que se utilicen métodos supervisados o no supervisados, tenga en cuenta que el resultado sólo nos da una indicación de la probabilidad de fraude. Ningún análisis estadístico independiente puede garantizar que un objeto en particular sea fraudulento, pero sí pueden identificarlo con niveles muy altos de precisión. Como resultado, la colaboración eficaz entre el modelo de aprendizaje automático y los analistas humanos es vital para el éxito de las aplicaciones de detección de fraude. [9]
En el aprendizaje supervisado, se toma una submuestra aleatoria de todos los registros y se clasifica manualmente como "fraudulenta" o "no fraudulenta" (la tarea se puede descomponer en más clases para cumplir con los requisitos del algoritmo). Es posible que sea necesario realizar un muestreo excesivo de eventos relativamente raros, como el fraude, para obtener un tamaño de muestra lo suficientemente grande. [10] Estos registros clasificados manualmente se utilizan luego para entrenar un algoritmo de aprendizaje automático supervisado. Después de construir un modelo utilizando estos datos de entrenamiento, el algoritmo debería poder clasificar nuevos registros como fraudulentos o no fraudulentos.
Las redes neuronales supervisadas, las redes neuronales difusas y las combinaciones de reglas y redes neuronales se han explorado y utilizado ampliamente para detectar fraude en redes de telefonía móvil y fraude en estados financieros. [11] [12]
La red neuronal de aprendizaje bayesiano se implementa para la detección de fraudes con tarjetas de crédito, fraudes en telecomunicaciones, detección de fraudes en reclamos de automóviles y fraudes en seguros médicos. [13]
Los sistemas híbridos basados en conocimiento/estadística, donde el conocimiento experto se integra con el poder estadístico, utilizan una serie de técnicas de extracción de datos con el fin de detectar el fraude de clones celulares. Específicamente, se implementa un programa de aprendizaje de reglas para descubrir indicadores de comportamiento fraudulento a partir de una gran base de datos de transacciones de clientes. [14]
Cahill y cols. (2000) diseñan una firma de fraude, basada en datos de llamadas fraudulentas, para detectar fraudes en telecomunicaciones. Para calificar una llamada de fraude, su probabilidad bajo la firma de la cuenta se compara con su probabilidad bajo la firma de fraude. La firma de fraude se actualiza secuencialmente, lo que permite la detección de fraude basada en eventos.
El análisis de enlaces comprende un enfoque diferente. Relaciona a estafadores conocidos con otras personas, utilizando enlaces de registros y métodos de redes sociales. [15] [16]
Este tipo de detección sólo es capaz de detectar fraudes similares a los que han ocurrido anteriormente y han sido clasificados por un humano. Detectar un nuevo tipo de fraude puede requerir el uso de un algoritmo de aprendizaje automático no supervisado.
Por el contrario, los métodos no supervisados no utilizan registros etiquetados.
Bolton y Hand utilizan el análisis de grupo de pares y el análisis de punto de ruptura aplicados al comportamiento de gasto en cuentas de tarjetas de crédito. [17] El análisis de grupo de pares detecta objetos individuales que comienzan a comportarse de una manera diferente a los objetos a los que anteriormente habían sido similares. Otra herramienta que Bolton y Hand desarrollan para la detección de fraude conductual es el análisis de puntos de interrupción. [17] A diferencia del análisis de grupo de pares, el análisis de punto de ruptura opera a nivel de cuenta. Un punto de interrupción es una observación en la que se detecta un comportamiento anómalo para una cuenta en particular. Ambas herramientas se aplican al comportamiento de gasto en cuentas de tarjetas de crédito.
Carcillo et al (2019) presentan una combinación de métodos supervisados y no supervisados para la detección de fraudes con tarjetas de crédito. [18]
Los minoristas en línea y los procesadores de pagos utilizan la geolocalización para detectar posibles fraudes con tarjetas de crédito comparando la ubicación del usuario con la dirección de facturación en la cuenta o la dirección de envío proporcionada. Una discrepancia (por ejemplo, un pedido realizado desde Estados Unidos con un número de cuenta de Tokio) es un fuerte indicador de un posible fraude. La geolocalización de direcciones IP también se puede utilizar en la detección de fraude para hacer coincidir el código postal o el código de área de la dirección de facturación. [19] Los bancos pueden prevenir ataques de " phishing ", lavado de dinero y otras violaciones de seguridad determinando la ubicación del usuario como parte del proceso de autenticación. Las bases de datos Whois también pueden ayudar a verificar las direcciones IP y los registrantes. [20]
Los equipos gubernamentales, policiales y de seguridad corporativa utilizan la geolocalización como herramienta de investigación, rastreando las rutas de Internet de los atacantes en línea para encontrar a los perpetradores y prevenir futuros ataques desde el mismo lugar.Una limitación importante para la validación de los métodos de detección de fraude existentes es la falta de conjuntos de datos públicos. [21] Uno de los pocos ejemplos es el conjunto de datos de detección de fraude con tarjetas de crédito [22] puesto a disposición por el ULB Machine Learning Group. [23]
{{cite journal}}
: Citar diario requiere |journal=
( ayuda )