El spam basado en imágenes , [3] [4] o spam de imágenes , es un tipo de correo electrónico spam en el que el mensaje de spam de texto se incrusta en imágenes, que luego se adjuntan a los correos electrónicos spam. [5] Dado que la mayoría de los clientes de correo electrónico mostrarán el archivo de imagen directamente al usuario, el mensaje de spam se transmite tan pronto como se abre el correo electrónico (no es necesario abrir más el archivo de imagen adjunto).
El objetivo del spam de imágenes es claramente eludir el análisis del contenido textual del correo electrónico realizado por la mayoría de los filtros de spam [5] (por ejemplo, SpamAssassin, RadicalSpam, Bogofilter, SpamBayes). En consecuencia, por la misma razón, junto con la imagen adjunta, los spammers a menudo agregan algún texto "falso" al correo electrónico, es decir, una serie de palabras que es más probable que aparezcan en correos electrónicos legítimos y no en spam. Los primeros correos electrónicos de spam de imágenes contenían imágenes spam en las que el texto estaba limpio y era fácilmente legible, como se muestra en la Figura 1.
En consecuencia, se utilizaron herramientas de reconocimiento óptico de caracteres para extraer el texto incrustado en imágenes de spam, que luego podría procesarse junto con el texto en el cuerpo del correo electrónico por el filtro de spam o, más generalmente, por técnicas de categorización de texto más sofisticadas. [3] [6] Además, también se generaron firmas (por ejemplo, hash MD5) para detectar y bloquear fácilmente las imágenes de spam ya conocidas. Los spammers, a su vez, reaccionaron aplicando algunas técnicas de ofuscación a las imágenes de spam, de manera similar a los CAPTCHA , tanto para evitar que el texto incrustado sea leído por herramientas de OCR como para engañar a la detección basada en firmas. Algunos ejemplos se muestran en la Figura 2.
Esto planteó la cuestión de mejorar la detección de spam de imágenes mediante técnicas de visión artificial y reconocimiento de patrones. [3] [4] [7] [8]
En particular, varios autores investigaron la posibilidad de reconocer spam de imágenes con imágenes ofuscadas mediante el uso de características genéricas de imagen de bajo nivel (como número de colores, cobertura de color predominante, relación de aspecto de la imagen, área de texto), metadatos de imagen, etc. [7] [8] [9] [10] (consulte [4] para una encuesta completa). Cabe destacar que algunos autores también intentaron detectar la presencia de texto en imágenes adjuntas con artefactos que denotan un intento adversario de ofuscarlo. [11] [12] [13] [14]
El spam de imágenes comenzó en 2004 y alcanzó su punto máximo a finales de 2006, cuando más del 50% del spam era spam de imágenes. A mediados de 2007, comenzó a declinar y prácticamente desapareció en 2008. [1] La razón detrás de este fenómeno no es fácil de entender. La disminución del spam de imágenes probablemente se pueda atribuir tanto a la mejora de las contramedidas propuestas (por ejemplo, detectores rápidos de spam de imágenes basados en características visuales) como a los mayores requisitos en términos de ancho de banda del spam de imágenes que obligan a los spammers a enviar una cantidad menor de spam en un intervalo de tiempo determinado. Ambos factores pueden haber hecho que el spam de imágenes sea menos conveniente para los spammers que otros tipos de spam. Sin embargo, a finales de 2011 se detectó un renacimiento del spam de imágenes y el spam de imágenes alcanzó el 8% de todo el tráfico de spam, aunque por un período corto. [2]