Problema causado por filtros de malas palabras en Internet
Un ejemplo del problema de Scunthorpe en Wikipedia debido a una expresión regular que identifica " cunt " en el nombre de usuario.
El problema de Scunthorpe es el bloqueo involuntario de contenido en línea por parte de un filtro de spam o un motor de búsqueda porque su texto contiene una cadena (o subcadena ) de letras que parecen tener un significado obsceno o inaceptable. Los nombres, abreviaturas y términos técnicos que se citan con mayor frecuencia como afectados por el problema.
El problema surge porque las computadoras pueden identificar fácilmente cadenas de texto dentro de un documento, pero interpretar palabras de este tipo requiere una habilidad considerable para interpretar una amplia gama de contextos , posiblemente en muchas culturas , lo cual es una tarea extremadamente difícil. Como resultado, las reglas de bloqueo amplias pueden generar falsos positivos que afecten a muchas frases inocentes.
Etimología y origen
El problema recibió su nombre de un incidente ocurrido en 1996 en el que el filtro de malas palabras de AOL impidió a los residentes de la ciudad de Scunthorpe , en el norte de Lincolnshire , Inglaterra, crear cuentas en AOL, porque el nombre de la ciudad contiene la subcadena " cunt ". [1] A principios de la década de 2000, los filtros SafeSearch de Google cometieron el mismo error, y los servicios y empresas locales que incluían a Scunthorpe en sus nombres o URL se encontraban entre los excluidos por error de aparecer en los resultados de búsqueda. [2]
Soluciones alternativas
El problema de Scunthorpe es difícil de resolver por completo debido a la dificultad de crear un filtro capaz de comprender palabras en contexto. [3] [4]
Una solución implica crear una lista blanca de falsos positivos conocidos. El filtro puede ignorar cualquier palabra que aparezca en la lista blanca, aunque contenga texto que de otro modo no estaría permitido. [5]
Otros ejemplos
Las decisiones equivocadas tomadas por los filtros de obscenidad incluyen:
Nombres de dominio web y registros de cuentas rechazados
En abril de 1998, Jeff Gold intentó registrar el nombre de dominio shitakemushrooms.com, pero debido a la subcadena mierda fue bloqueado por un filtro InterNIC que prohibía las " siete palabras sucias ". [6] ( Shiitake , también comúnmente escrito shitake , es el nombre japonés del hongo comestible Lentinula edodes ).
En 2000, un noticiero de la televisión canadiense sobre un software de filtrado web descubrió que el sitio web de la Comunidad Urbana de Montreal ( Communauté Urbaine de Montréal , en francés) estaba completamente bloqueado porque su nombre de dominio era el acrónimo francés CUM (www.cum.qc.ca). ); [7] "cum" (entre otros significados) es un término del argot vulgar en inglés para semen .
En febrero de 2004, en Escocia, Craig Cockburn informó que no podía utilizar su apellido (pronunciado "Coburn", IPA : / ˈkoʊbərn / ) con Hotmail porque contiene la subcadena cock , una palabra del argot para referirse al pene . Por otra parte, tuvo problemas con el correo electrónico de su trabajo porque su puesto de trabajo, especialista en software , contenía la subcadena Cialis , un medicamento para la disfunción eréctil que se menciona comúnmente en los correos electrónicos no deseados . Hotmail inicialmente le dijo que deletreara su nombre C0ckburn (con un cero en lugar de la letra "o") pero luego revocó la prohibición. [8] En 2010, tuvo un problema similar al registrarse en el sitio web de la BBC, donde nuevamente los primeros cuatro caracteres de su apellido causaron un problema para el filtro de contenido. [9]
En febrero de 2006, a Linda Callahan se le impidió inicialmente registrar su nombre en Yahoo! como dirección de correo electrónico ya que contenía la subcadena Allah . Yahoo! Más tarde revocó la prohibición. [10]
En julio de 2008, Herman I. Libshitz no pudo registrar una dirección de correo electrónico que contenía su nombre en Verizon porque su apellido contenía la subcadena mierda , y Verizon inicialmente rechazó su solicitud de excepción. En una declaración posterior, una portavoz de Verizon se disculpó por no aprobar la dirección de correo electrónico que deseaba. [11]
Búsquedas web bloqueadas
En los meses previos a enero de 1996, algunas búsquedas web sobre el Super Bowl XXX se estaban filtrando, porque el número romano para el juego y el sitio (XXX) también se utiliza para identificar pornografía . [12]
Gareth Roelofse, diseñador web de RomansInSussex.co.uk , señaló en 2004: "Encontramos que muchas bibliotecas, redes escolares y cibercafés bloquean sitios con la palabra 'sexo' en el nombre de dominio. Esto fue un desafío para RomansInSussex. co.uk porque su público objetivo son los escolares." [2]
En julio de 2011, las búsquedas web en China sobre el nombre de Jiang fueron bloqueadas tras las afirmaciones en el sitio de microblogging Sina Weibo de que el ex secretario general del Partido Comunista Chino (PCC), Jiang Zemin, había muerto. Dado que la palabra "Jiang" que significa "río" está escrita con el mismo carácter chino (江), las búsquedas relacionadas con ríos incluido el Yangtze (Cháng Jiāng) produjeron el mensaje: "De acuerdo con las leyes, regulaciones y políticas pertinentes, los resultados de esta búsqueda no se puede mostrar." [14]
En febrero de 2018, se bloquearon las búsquedas web en la plataforma de compras de Google para artículos como pistolas de pegamento , Guns N' Roses y vino de Borgoña después de que Google parcheó apresuradamente su sistema de búsqueda que mostraba resultados de armas y accesorios que violaban las políticas establecidas por Google. [15]
Correos electrónicos bloqueados
En 2001, Yahoo! Mail introdujo un filtro de correo electrónico que reemplazaba automáticamente las cadenas relacionadas con JavaScript con versiones alternativas, para evitar la posibilidad de secuencias de comandos entre sitios en el correo electrónico HTML . El filtro dividiría con guiones los términos "JavaScript", " JScript ", " VBScript " y " LiveScript "; y reemplazó " eval ", "mocha" y " expression " con términos similares pero no sinónimos "review", "espresso" y "statement", respectivamente. Se hicieron suposiciones al escribir los filtros: no se intentó limitar estos reemplazos de cadenas a secciones y atributos del script , ni respetar los límites de las palabras, en caso de que esto dejara algunas lagunas abiertas. Esto dio lugar a errores como medireview en lugar de medieval . [16] [17] [18]
En febrero de 2003, miembros del Parlamento de la Cámara de los Comunes británica descubrieron que un nuevo filtro de spam bloqueaba los correos electrónicos que contenían referencias al proyecto de ley sobre delitos sexuales que entonces se estaba debatiendo, así como algunos mensajes relacionados con un documento de consulta de los demócratas liberales sobre la censura. [19] También bloqueó los correos electrónicos enviados en galés porque no reconocía el idioma. [20]
En octubre de 2004, se informó que el Museo Horniman de Londres no recibía algunos de sus correos electrónicos porque los filtros trataron erróneamente su nombre como una versión de las palabras horny man . [21]
Bloqueado para palabras con múltiples significados
En octubre de 2004, los correos electrónicos que anunciaban la pantomima que Dick Whittington envió a las escuelas del Reino Unido fueron bloqueados por las computadoras de las escuelas debido al uso del nombre Dick , a veces utilizado como jerga para referirse al pene . [22]
En mayo de 2006, un hombre de Manchester , Reino Unido, descubrió que los correos electrónicos que había escrito a su ayuntamiento para quejarse de una solicitud de planificación habían sido bloqueados porque contenían la palabra construcción al referirse a una estructura. [23]
Los correos electrónicos bloqueados y las búsquedas web relacionadas con The Beaver , una revista con sede en Winnipeg , hicieron que la editorial cambiara su nombre a Canada's History en 2010, después de 89 años de publicación. [24] [25] La editora Deborah Morrison comentó: "En 1920, The Beaver era un nombre perfectamente apropiado. Y aunque su otro significado [ vulva ] no es nada nuevo, su ambigüedad comenzó a plantear un desafío completamente nuevo con el avance de la Internet. El nombre se convirtió en un impedimento para nuestro crecimiento". [26]
En junio de 2010, Twitter bloqueó a un usuario de Luxemburgo 29 minutos después de haber abierto su cuenta y publicado su primer tuit. El tweet decía: "¡Por fin! ¡Un par de grandes tetas ( Parus major ) se han mudado a mi pajarera!". A pesar de incluir el nombre en latín para señalar que el tweet trataba sobre pájaros, cualquier intento de desbloquear la cuenta fue en vano. [27]
En 2011, un concejal de Dudley encontró un correo electrónico marcado como blasfemia por el software de seguridad de su consejo después de mencionar los maricones del plato Black Country (un tipo de albóndiga , pero también un término peyorativo para los hombres homosexuales ). [28]
A los residentes de Penistone en South Yorkshire se les han bloqueado los correos electrónicos porque el nombre de la ciudad incluye la subcadena pene . [29]
Los residentes de Clitheroe ( Lancashire , Inglaterra) se han visto molestados repetidamente porque el nombre de su ciudad incluye la subcadena clítoris , que es la abreviatura de " clítoris ". [30]
Los currículums que contienen referencias a graduarse con honores latinos como cum laude , magna cum laude y summa cum laude han sido bloqueados por filtros de spam debido a la inclusión de la palabra cum , que en latín significa con (en este uso), pero que a veces se usa como jerga para semen o eyaculación en el uso inglés. [31]
Artículos de noticias
En junio de 2008, un sitio de noticias dirigido por el grupo de presión anti -LGBT American Family Association filtró un artículo de Associated Press sobre el velocista Tyson Gay , reemplazando las palabras "gay" por " homosexual ", convirtiendo así su nombre en "Tyson Homosexual". [32] [33] Esta misma función había cambiado previamente el nombre del jugador de baloncesto Rudy Gay a "Rudy Homosexual". [34]
La palabra o cadena "ass" puede reemplazarse por "butt", lo que da como resultado "clbuttic" para "classic", "buttignment" para "assignment" y "buttbuttinate" para "assassinate". [35]
Otro
En 2008, Microsoft confirmó que su política para impedir el uso de palabras relacionadas con la orientación sexual había significado que el nombre de Richard Gaywood se considerara ofensivo y no pudiera usarse en su "gamertag" o en el campo "Nombre real" de su biografía. [36]
En 2011, el lanzamiento de Pokémon Blanco y Negro introdujo Cofagrigus , que no podía intercambiarse en línea con otros jugadores sin un apodo porque el nombre de su especie contenía la subcadena fag . Desde entonces, el sistema se actualizó para permitir a los jugadores intercambiarlo sin apodos. El mismo problema ocurrió con Nosepass , Probopass y Froslass debido a la inclusión de la subcadena ass . [37]
En 2013, las transferencias de archivos con el nombre de la ciudad sueca de Falun provocaron cortes de conexión web en Diakrit, una empresa con sede en China. Diakrit resolvió el problema cambiando el nombre de los archivos. Fredrik Bergman de Diakrit cree que los nombres de los archivos activaron los censores del Gran Cortafuegos utilizados para bloquear la discusión sobre Falun Gong , un movimiento religioso prohibido fundado en China. [38]
En noviembre de 2013, Facebook bloqueó temporalmente a los usuarios británicos por utilizar la palabra maricón en referencia al plato tradicional del mismo nombre . [39]
En enero de 2014, los archivos utilizados en el juego en línea League of Legends fueron supuestamente bloqueados por algunos filtros de ISP del Reino Unido debido a los nombres "VarusExpirationTimer .luaobj " y "XerathMageChainsExtended.luaobj", que contienen la subcadena sex . Esto fue corregido posteriormente. [40]
En mayo de 2018, el sitio web de la tienda de comestibles Publix no permitía pedir un pastel que contuviera la frase en latín summa cum laude . El cliente intentó rectificar el problema incluyendo instrucciones especiales, pero aún así terminó con un pastel que decía "Summa --- Laude". [41] [42]
En mayo de 2020, a pesar del amplio escrutinio de los medios, algunos hashtags que se referían directamente al asesor político británico Dominic Cummings no lograron ser tendencia en Twitter porque la subcadena cum activó un filtro anti-pornografía. [43]
En octubre de 2020, la plataforma de reunión virtual de una conferencia de paleontología bloqueó varias palabras, incluidas "hueso", " púbico " y "corriente". [44]
En enero de 2021, Facebook se disculpó por silenciar y prohibir a los usuarios después de haber marcado erróneamente el emblemático Plymouth Hoe de Devon como misógino. [45]
En abril de 2021, se eliminó la página oficial de Facebook de la comuna francesa de Bitche . En respuesta, los funcionarios de la comuna crearon una nueva página que hacía referencia al código postal, Mairie 57230 . Posteriormente, Facebook se disculpó y restauró la página original. Como medida de precaución, los funcionarios de Rohrbach-lès-Bitche cambiaron el nombre de su página de Facebook a Ville de Rohrbach . [46] [47]
Detección de spam : métodos para prevenir el spam en el correo electrónicoPáginas que muestran descripciones breves de los objetivos de redireccionamiento
Wordfilter – Script utilizado para censurar palabras o frases en Internet
Referencias
^ Clive Feather (25 de abril de 1996). Peter G. Neumann (ed.). "¡AOL censura el nombre de una ciudad británica!". El compendio de riesgos . 18 (7).
^ ab McCullagh, Declan (23 de abril de 2004). "El cinturón de castidad de Google está demasiado apretado". CNET . Archivado desde el original el 16 de junio de 2011.
^ Oberhaus, Daniel (29 de agosto de 2018). "La vida en Internet es difícil cuando tu apellido es 'Butts'". Vicio . Consultado el 31 de julio de 2022 .
^ Gellis, Cathy (31 de agosto de 2018). "El problema de Scunthorpe y por qué la IA no es la panacea para moderar el contenido de la plataforma a escala". Techdirt . Consultado el 31 de julio de 2022 .
^ Veale, Tony (2021). Tu ingenio es mi orden: construir IA con sentido del humor. Prensa del MIT. pag. 231.ISBN978-0-262-04599-5. OCLC 1221016857.
^ Festa, Paul (27 de abril de 1998). "Dominio alimentario encontrado" obsceno"". Noticias.com . Archivado desde el original el 10 de mayo de 2020.
^ "Foire aux preguntas". radio-canada.ca. Archivado desde el original el 21 de octubre de 2012 . Consultado el 24 de febrero de 2011 .
^ Barker, Garry (26 de febrero de 2004). "Cómo el señor C0ckburn luchó contra el spam". El Sydney Morning Herald . Archivado desde el original el 3 de septiembre de 2009.
^ Cockburn, Craig (9 de marzo de 2010). "La BBC falla: mi nombre correcto no está permitido". blog.siliconglen.com . Archivado desde el original el 30 de septiembre de 2020.
^ "¿Yahoo está prohibiendo a Alá?". El lugar de Kallahar. Archivado desde el original el 14 de enero de 2016 . Consultado el 24 de febrero de 2011 .
^ Rubin, Daniel. "Cuando tu nombre se vuelve en tu contra". El Philadelphia Inquirer . Archivado desde el original el 5 de agosto de 2008 . Consultado el 3 de agosto de 2008 .
^ "E-Rate y filtrado: una revisión de la Ley de protección infantil en Internet". Audiencias del Congreso. General. Energía y Comercio, Subcomité de Telecomunicaciones e Internet. 4 de abril de 2001.
^ "El nombre de F-Word Town es censurado por un filtro de Internet". Archivado desde el original el 1 de diciembre de 2008 . Consultado el 27 de julio de 2011 .{{cite news}}: Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace )
^ Chin, Josh (6 de julio de 2011). "Tras los rumores de muerte de Jiang, los ríos de China desaparecen" . El periodico de Wall Street . Archivado desde el original el 13 de agosto de 2011.
^ Molloy, Mark (27 de febrero de 2018). "Los amantes del vino no pueden comprar bebidas de Borgoña en Google mientras el gigante de Internet toma medidas enérgicas contra las búsquedas de 'armas'". El Telégrafo . Archivado desde el original el 2 de marzo de 2018 . Consultado el 27 de febrero de 2018 .
^ "Yahoo admite haber dañado el correo electrónico". Noticias de la BBC . 19 de julio de 2002. Archivado desde el original el 26 de enero de 2021 . Consultado el 21 de junio de 2013 .
^ "Noticias duras". Necesito saber 2002-07-12 . 12 de julio de 2002 . Consultado el 21 de junio de 2013 .
^ Caballero, Will (15 de julio de 2002). "El filtro de seguridad del correo electrónico genera nuevas palabras". Científico nuevo . Archivado desde el original el 24 de septiembre de 2020 . Consultado el 21 de junio de 2013 .
^ "La investigación de correo electrónico bloquea el debate sexual de los parlamentarios". Noticias de la BBC . 4 de febrero de 2003. Archivado desde el original el 4 de febrero de 2021.
^ "El software bloquea el correo electrónico galés de los parlamentarios". Noticias de la BBC . 5 de febrero de 2003. Archivado desde el original el 4 de febrero de 2021.
^ Kwintner, Adrian (5 de octubre de 2004). "Se confunde el nombre del museo con el porno". Comprador de noticias .
^ Jones, Sam (13 de octubre de 2004). "El correo electrónico de Panto falla en el filtro de suciedad". El guardián . Archivado desde el original el 4 de febrero de 2021.
^ "El filtro de correo electrónico bloquea la construcción'". 30 de mayo de 2006. Archivado desde el original el 4 de febrero de 2021.
^ "Se cambió el nombre de la revista Beaver para poner fin a la confusión con la pornografía". El Sydney Morning Herald . Agencia France-Presse . 13 de enero de 2010. Archivado desde el original el 9 de noviembre de 2020 . Consultado el 24 de febrero de 2021 .
^ Austen, Ian (24 de enero de 2010). "Los filtros web provocan un cambio de nombre en una revista". Los New York Times . Archivado desde el original el 9 de noviembre de 2020 . Consultado el 24 de febrero de 2021 .
^ Sheerin, Jude (29 de marzo de 2010). "Cómo los filtros de spam dictaron el destino de la revista canadiense". Noticias de la BBC . Archivado desde el original el 16 de enero de 2021.
^ "Luxemburger Twitter-Neubenutzer nach 29 Minuten blockiert" [Nuevo usuario de Twitter de Luxemburgo bloqueado después de 29 minutos]. Tageblatt (en alemán). 22 de junio de 2010 . Consultado el 12 de junio de 2010 .[ enlace muerto ]
^ "Concejal del país negro atrapado en una farsa de maricones". Correo de Birmingham . 24 de febrero de 2011.
^ Tom Chatfield (17 de abril de 2013). "Las 10 mejores palabras que Internet le ha dado al inglés". El guardián .
^ Keyes, Ralph (2010). Innombrables: de las joyas familiares al fuego amigo: lo que decimos en lugar de lo que queremos decir. Juan Murray. ISBN978-1-84854-456-7.
^ Maher, Kris. "No permita que los filtros de spam se apoderen de su currículum". Diario de carrera . Archivado desde el original el 23 de octubre de 2006 . Consultado el 11 de febrero de 2008 .
^ Frauenfelder, Mark (30 de junio de 2008). "El sitio de noticias homofóbico cambia al atleta Tyson Gay a Tyson Homosexual". Boing Boing . Archivado desde el original el 4 de febrero de 2021.
^ Arthur, Charles (30 de junio de 2008). "La computadora corrige automáticamente el apellido 'gay' a... no, adivinas". El guardián . Archivado desde el original el 13 de noviembre de 2020.
^ Mantyla, Kyle (30 de junio de 2008). "Los peligros del reemplazo automático". Vigilancia del ala derecha . Gente por el estilo americano . Archivado desde el original el 25 de octubre de 2020 . Consultado el 24 de febrero de 2021 .
^ Moore, Matthew (2 de septiembre de 2008). "El error clbuttico: cuando los filtros de obscenidad fallan". El Telégrafo . Archivado desde el original el 23 de febrero de 2020.
^ "Microsoft confirma que" Gaywood "es un apellido ofensivo, responde el Sr. Gaywood". Mayo de 2008. Archivado desde el original el 9 de noviembre de 2012.
^ Keating, Lauren (17 de febrero de 2016). "Estas son las palabras que los censores de Nintendo aparecen en la 3DS". Tiempos tecnológicos . Consultado el 14 de noviembre de 2023 .
^ Mozur, Pablo; Tejada, Carlos (13 de febrero de 2013). "El 'muro' de China golpea a los negocios". El periodico de Wall Street . Archivado desde el original el 10 de septiembre de 2013 . Consultado el 25 de mayo de 2013 .
^ "Los maricones y los guisantes caen en desgracia con los censores de Facebook". Expreso y estrella . Noviembre de 2013. Archivado desde el original el 10 de mayo de 2020.
^ Gibbs, Samuel (21 de enero de 2014). "El filtro de pornografía del Reino Unido bloquea la actualización del juego que contenía 'sexo'". El guardián . Londres. Archivado desde el original el 11 de noviembre de 2020.
^ Ferguson, Amber (22 de mayo de 2018). "Mamá orgullosa pide pastel 'Summa Cum Laude' en línea. Publix lo censura: Summa… Laude". El Washington Post . Archivado desde el original el 22 de mayo de 2018 . Consultado el 22 de mayo de 2018 .{{cite news}}: Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace )
^ Amatulli, Jenna (22 de mayo de 2018). "Pastel de graduación 'Summa Cum Laude' de Publix Censors Teen". El Correo Huffington . Archivado desde el original el 5 de septiembre de 2018.
^ Hern, Alex (27 de mayo de 2020). "Los filtros anti-porno impiden que Dominic Cummings sea tendencia en Twitter". El guardián . Archivado desde el original el 20 de febrero de 2021.
^ Ferreira, Becky (15 de octubre de 2020). "Un filtro de malas palabras prohibió la palabra 'hueso' en una conferencia de paleontología". Tarjeta madre . Archivado desde el original el 23 de febrero de 2021.
^ Morris, Steven (27 de enero de 2021). "Facebook se disculpa por marcar Plymouth Hoe como término ofensivo". El guardián . Archivado desde el original el 29 de enero de 2021.
^ Kempf, Cédric (12 de abril de 2021). "Insolite: Bitche est censurada por Facebook". Radio Mélodie (en francés).
^ Darmanin, Jules (13 de abril de 2021). "Facebook elimina la página oficial de la ciudad francesa de Bitche". POLITICO . Consultado el 3 de julio de 2021 .