CRM114 (programa)

CRM114 (nombre completo: "El Discriminador CRM114") es un programa basado en un enfoque estadístico para clasificar datos , y se utiliza especialmente para filtrar correo no deseado (spam) .

Origen del nombre

El nombre proviene del discriminador CRM-114 de la película Dr. Strangelove de Stanley Kubrick : un equipo de radio diseñado para filtrar mensajes que carecen de un prefijo de código específico.

Operación

Mientras que otros han realizado un filtrado de spam bayesiano estadístico basado en la frecuencia de ocurrencia de una sola palabra en el correo electrónico, CRM114 logra una mayor tasa de reconocimiento de spam mediante la creación de resultados basados en frases de hasta cinco palabras de longitud. Estas frases se utilizan para formar un campo aleatorio de Markov que representa los textos entrantes. Con este reconocimiento contextual adicional, es uno de los filtros de spam más precisos disponibles. Las pruebas iniciales en 2002 realizadas por el autor Bill Yerazunis ^[1] dieron una precisión del 99,87%; ^[2] Holden ^[3] y TREC 2005 y 2006 ^[4]^[5] dieron resultados superiores al 99%, con una variación significativa según el corpus en particular.

El clasificador de CRM114 también se puede cambiar para utilizar el algoritmo Winnow de Littlestone, la correlación carácter por carácter , una variante de la clasificación KNN ( algoritmo de los K vecinos más cercanos ) llamada Hyperspace, un clasificador entrópico de bits que utiliza la codificación de entropía para determinar la similitud, un SVM , por compresibilidad mutua calculada por un algoritmo LZ77 modificado y otros clasificadores más experimentales. Las características reales coincidentes se basan en una generalización de los skip-grams .

Los algoritmos CRM114 son multilingües (compatibles con codificaciones UTF-8 ) y no admiten valores nulos. Se ha demostrado que un conjunto de clasificadores CRM114 con votación detecta documentos confidenciales y no confidenciales escritos en japonés con una tasa de detección superior al 99,9 % y una tasa de falsas alarmas del 5,3 %. ^[6]

CRM114 es un buen ejemplo de software de reconocimiento de patrones que demuestra cómo se puede lograr el aprendizaje automático con un algoritmo razonablemente simple. El código fuente en C del programa está disponible bajo la licencia GPL .

En un nivel más profundo, CRM114 es también un lenguaje de comparación de patrones de cadenas, similar a grep o incluso a Perl ; aunque es Turing completo , está altamente ajustado para la comparación de texto, e incluso una definición simple (recursiva) del factorial ocupa casi diez líneas. Parte de esto se debe a que la sintaxis del lenguaje crm114 no es posicional , sino declinal . Como lenguaje de programación, se puede utilizar para muchas otras aplicaciones además de detectar spam. CRM114 utiliza el motor de expresiones regulares de coincidencia aproximada TRE , por lo que es posible escribir programas que no dependen de la coincidencia de cadenas absolutamente idénticas para funcionar correctamente.

CRM114 se ha aplicado al filtrado de correo electrónico en el cliente KMail ^[7]^[8] y en varias otras aplicaciones, incluida la detección de bots en Twitter y Yahoo, ^[9]^[10] así como el filtro de primer nivel en el sistema de detección de defectos de vehículos del Departamento de Transporte de EE. UU. ^[11] También se ha utilizado como método predictivo para clasificar módulos de software propensos a fallas. ^[12]

Véase también

Coincidencia de cadenas

Referencias

^ Garretson, Cara (19 de marzo de 2007). "El hombre antispam". Network World .
^ "CRM114 obtiene el 99,87%". Sitio web de Paul Graham . 16 de octubre de 2002.
^ Filtrado de spam II
^ Resumen de la ruta de spam (2005) - TREC 2005
^ Resumen de la ruta de spam (2006) - TREC 2005
^ "Copia archivada" (PDF) . media.blackhat.com . Archivado desde el original (PDF) el 8 de julio de 2011.{{cite web}}: CS1 maint: archived copy as title (link)
^ "Eliminación de correo no deseado con CRM114 y KMail". Archivado desde el original el 2019-10-01 . Consultado el 2019-10-01 .
^ "kmail.antispamrc en KDE/kdepim-addons". GitHub . 12 de junio de 2022.
^ Chu, Zi; Gianvecchio, Steven; Wang, Haining; Jajodia, Sushil (noviembre de 2012). "Detección de la automatización de cuentas de Twitter: ¿eres un humano, un robot o un cíborg?". IEEE Transactions on Dependable and Secure Computing . 9 (6): 811–824. doi :10.1109/TDSC.2012.75. ISSN 1545-5971. S2CID 351844.
^ "Medición y clasificación de humanos y bots en chats de Internet". Usenix . Consultado el 16 de enero de 2023 .
^ Scovel III, Calvin L. (18 de junio de 2015). Datos y análisis inadecuados socavan los esfuerzos de la NHTSA por identificar e investigar problemas de seguridad de los vehículos (PDF) (Informe). Oficina del Inspector General - Departamento de Transporte de los EE. UU.
^ Mizuno, Osamu; Ikami, Shiro; Nakaichi, Shuya; Kikuno, Tohru (mayo de 2007). "Enfoque basado en filtros de spam para encontrar módulos de software propensos a fallas". Cuarto taller internacional sobre minería de repositorios de software (MSR'07: talleres ICSE 2007) . pág. 4. doi :10.1109/MSR.2007.29. ISBN 978-0-7695-2950-9. Número de identificación del sujeto 5867386.

Enlaces externos

La página de inicio de CRM114 en SourceForge
Página de inicio del comparador de expresiones regulares aproximado TRE