Homoglifo

En ortografía y tipografía , un homoglifo es uno de dos o más grafemas , caracteres o glifos con formas que parecen idénticas o muy similares pero que pueden tener significados diferentes. La designación también se aplica a secuencias de caracteres que comparten estas propiedades.

En 2008, el Consorcio Unicode publicó su Informe Técnico nº 36 ^[1] sobre una serie de cuestiones derivadas de la similitud visual de personajes tanto en guiones únicos como entre personajes de guiones diferentes.

Ejemplos de símbolos homoglíficos son (a) la diéresis y la diéresis (ambos un par de puntos, pero con diferente significado, aunque codificados con el mismo código de puntos ); y (b) el guión y el signo menos (ambos un trazo horizontal corto, pero con significado diferente, aunque a menudo codificados con el mismo punto de código ). Entre los dígitos y las letras , el dígito 1 y la l minúscula siempre se codifican por separado, pero en muchos tipos de letra se les dan glifos muy similares, y el dígito 0 y la O mayúscula siempre se codifican por separado, pero en muchos tipos de letra se les dan glifos muy similares. Prácticamente todos los ejemplos de un par de caracteres homoglíficos pueden diferenciarse gráficamente con glifos claramente distinguibles y puntos de código separados, pero esto no siempre se hace. Los tipos de letra que no distinguen enfáticamente los homoglifos uno/el y cero/oh se consideran inadecuados para escribir fórmulas , URL , código fuente , identificaciones y otros textos donde los caracteres no siempre se pueden diferenciar sin contexto . Para esos usos se prefieren las fuentes que distinguen los glifos mediante un cero con barra diagonal .

Términos relacionados

El término homógrafo a veces se utiliza incorrectamente como sinónimo de homoglifo, pero en el sentido lingüístico habitual, los homógrafos son palabras que se escriben igual pero tienen significados diferentes, una propiedad de las palabras, no de caracteres.

Los alógrafos son variantes de diseño tipográfico que parecen diferentes pero significan lo mismo, por ejemplo, ⟨g⟩ y ⟨g⟩ , o un signo de dólar con uno o dos trazos. El término sinoglifo tiene un significado similar pero un poco más abstracto; por ejemplo, el símbolo ⟨£⟩ y la letra ⟨L⟩ (en Lsd ) significan la libra esterlina , ^[2] pero solo en ese contexto. Los alógrafos y los sinoglifos también se conocen informalmente como variantes de visualización .

Diéresis y diéresis

En la época de las primeras máquinas de escribir mecánicas, estas se escribían con la misma tecla (usando la técnica de "retroceso y sobreescritura"), que también se usaba para una doble coma invertida. Sin embargo, la diéresis se originó específicamente como un par de líneas verticales cortas (no dos puntos) (ver Sutterlin ). Por cierto, los dos puntos encima de la letra E en albanés se describen como diáresis, pero no cumplen la función de diáresis.^[3]

0 y O; 1, yo y yo

Dos conjuntos comunes e importantes de homoglifos que se utilizan hoy en día son el dígito cero y la letra O mayúscula (es decir, 0 y O); y el dígito uno, la letra L minúscula y la i mayúscula (es decir, 1, ly I). En los primeros días de las máquinas de escribir mecánicas había muy poca o ninguna diferencia visual entre estos glifos, y los mecanógrafos los trataban indistintamente como atajos de teclado. De hecho, la mayoría de los teclados ni siquiera tenían una tecla para el dígito "1", lo que obligaba a los usuarios a escribir la letra "l", y algunos también omitían el 0. A medida que estos mismos mecanógrafos pasaron en las décadas de 1970 y 1980 a ser operadores de teclados de computadora , sus viejos hábitos de mecanografía continuaron con ellos y fueron una fuente ocasional de confusión.

La mayoría de los diseños tipográficos actuales distinguen cuidadosamente entre estos homoglifos, generalmente dibujando el dígito cero más estrecho y dibujando el dígito uno con serifas prominentes . Las primeras impresiones por computadora fueron aún más lejos y marcaron el cero con una barra o un punto, lo que llevó a un nuevo conflicto entre la letra escandinava " Ø " y la letra griega Φ ( phi ). El rediseño de los tipos de personajes para diferenciarlos ha supuesto menos confusión. El grado en que dos personajes diferentes parecen iguales a un observador determinado se denomina "similitud visual". ^[4]

Algunos diseños tipográficos se ajustan al estándar de legibilidad DIN 1450 al diseñar cuidadosamente dichos caracteres para que sean fáciles de distinguir: cero diagonal para distinguirlo de la O mayúscula; l minúscula con cola y I mayúscula con serifas para distinguirla del dígito 1; distinguiendo el número 5 de la S mayúscula; etc. ^[5]

Un ejemplo de confusión debido a casi homoglifos surgió del uso de una ⟨y⟩ para representar una ⟨þ⟩ ( espina ). Los primeros tipógrafos ingleses importaron tipos holandeses que no contenían este último carácter, por lo que usaron la letra ⟨y⟩ porque (en el tipo de letra Blackletter ) se ven lo suficientemente similares. ^[6] Ha llevado en los tiempos modernos a fenómenos como Ye olde shoppe , implicando incorrectamente que la palabra the se escribía anteriormente ye / j iː / en lugar de þe . La ortografía del nombre Menzies (pronunciado Mengis y originalmente escrito Menʒies ) surgió por la misma razón: la letra ⟨z⟩ fue sustituida por ⟨ʒ⟩ ( yogh ).

Homoglifos de varias letras

Algunas otras combinaciones de letras se ven similares, por ejemplo, rn se parece a m , cl se parece a d y vv se parece a w .

En ciertas fuentes con espacios estrechos (como Tahoma ), colocar la letra c junto a una letra como j, lo i creará un homoglifo, como cj cl ci (gda).

Cuando algunos personajes se colocan uno al lado del otro, vistos juntos de un vistazo, dan la impresión visual de otro personaje no relacionado. Una forma más precisa de decir esto es que algunas ligaduras tipográficas pueden parecerse a glifos independientes. Por ejemplo, la ligadura ( fi ) puede parecerse a A en algunos tipos de letra o fuentes. Este potencial de confusión es a veces un argumento en contra del uso de ligaduras. ^[^{cita necesaria}^]

Homoglifos Unicode

El conjunto de caracteres Unicode contiene muchos caracteres fuertemente homoglíficos, conocidos como "confusables". ^[1] Estos presentan riesgos de seguridad en una variedad de situaciones (abordados en UTR#36) ^[7] y recientemente se les ha llamado especial atención con respecto a los nombres de dominio internacionalizados . Se podría falsificar deliberadamente un nombre de dominio reemplazando un carácter con su homóglifo, creando así un segundo nombre de dominio, que no se distingue fácilmente del primero, que puede explotarse en phishing ( consulte el artículo principal Ataque de homógrafo de IDN ). En muchas fuentes , la letra griega 'Α', la letra cirílica 'А' y la letra latina 'A' son visualmente idénticas, al igual que la letra latina 'a' y la letra cirílica 'а' (lo mismo se puede aplicar a las Las letras latinas "aBceHKopTxy" y las letras cirílicas " аВсеНКорТху "). Un nombre de dominio puede falsificarse simplemente sustituyendo una de estas formas por otra en un nombre registrado por separado. También hay muchos ejemplos de casi homoglifos dentro de la misma escritura, como 'í' (con acento agudo) y 'i', É (E-acute) y Ė (E punto arriba) y È (E-grave). Í (con acento agudo) y ĺ (L minúscula con acento agudo). Cuando se analiza esta cuestión de seguridad específica, dos secuencias cualesquiera de caracteres similares pueden evaluarse en términos de su potencial para ser tomadas como un 'par de homoglifos', o si las secuencias parecen claramente palabras, como 'pseudohomógrafos' (observando nuevamente (que estos términos pueden causar confusión en otros contextos). En el idioma chino , muchos caracteres chinos simplificados son homóglifos de los correspondientes caracteres chinos tradicionales .

Se están realizando esfuerzos por parte de los registros de TLD y los diseñadores de navegadores web para minimizar los riesgos de confusión homoglífica. Comúnmente, esto se logra prohibiendo nombres que combinen conjuntos de caracteres de varios idiomas ( toys-Я-us.org , usando la letra cirílica Я , no sería válido, pero wíkipedia.org y wikipedia.org todavía existen como sitios web diferentes); El registro .ca de Canadá va un paso más allá al exigir que los nombres que difieren sólo en signos diacríticos tengan el mismo propietario y el mismo registrador. ^[8] El manejo de los caracteres chinos varía: en .org y .info el registro de una variante hace que la otra no esté disponible para nadie, mientras que en .biz las versiones tradicional y simplificada del mismo nombre se entregan como un paquete de dos dominios que apunte al mismo servidor de nombres de dominio .

La documentación relevante se encontrará tanto en los sitios web de los desarrolladores como en un foro IDN ^[9] proporcionado por ICANN .

En cirílico, la C cirílica no solo se parece a la C latina , sino que también ocupa el mismo botón en los teclados de diseño híbrido JCUKEN-QWERTY. Este matiz de diseño se puede ver en el botón C/С representado en el Monumento al Teclado en Ekaterimburgo .

Canonicalización

Se pueden detectar homoglifos de todo tipo mediante un proceso llamado "canonicalización dual". ^[4] El primer paso en este proceso es identificar conjuntos de homoglifos, es decir, caracteres que parecen iguales para un observador determinado. A partir de aquí, se especifica un único token para representar el conjunto de homoglifos. Esta ficha se llama canon. El siguiente paso es convertir cada carácter del texto al canon correspondiente en un proceso llamado canonicalización . Si los cánones de dos series de texto son los mismos pero el texto original es diferente, entonces existe un homoglifo en el texto.

Prevención de homoglifos

Los ataques de homoglifos se pueden mitigar mediante una combinación de concienciación del usuario y medidas proactivas. Es crucial educar a los usuarios sobre los riesgos asociados con los ataques de homoglifos, instándolos a inspeccionar meticulosamente las URL antes de hacer clic. ^[10] El empleo de soluciones de seguridad avanzadas, particularmente aquellas capaces de escanear en busca de variaciones de homoglifos en nombres de dominio, puede automatizar la detección y prevención de amenazas potenciales. Además, la implementación de políticas estrictas de monitoreo y registro de nombres de dominio puede ayudar a identificar y neutralizar rápidamente los riesgos relacionados con los homoglifos. Al fomentar una cultura de cibervigilancia y aprovechar tecnologías de vanguardia, las organizaciones pueden fortalecer sus defensas contra ataques de homoglifos, garantizando un entorno en línea más seguro.

Ver también

Ataque homógrafo de IDN : letras visualmente similares en nombres de dominio
Caracteres duplicados en Unicode – Unicode 2.0
Las placas de matrícula de vehículos de Bosnia y Herzegovina utilizan únicamente números y letras que tienen el mismo aspecto en los alfabetos latino y cirílico.
Yaminjeongeum , juego de lengua surcoreana que consiste en sustituir intencionadamenteHangulpor homoglifos.

Referencias

^ ab "UTR n.° 36: consideraciones de seguridad de Unicode". www.unicode.org .
^ Walton, Chas (7 de octubre de 2020). "Una guía para escritores sobre signos diacríticos y caracteres especiales". Asistente de texto .
^ Describirlos como homoglifos es cuestionable ya que probablemente no haya idiomas en los que el glifo pueda cumplir ambas funciones. Sería igualmente válido describir, digamos, un acento grave como un homóglifo porque cumple diferentes funciones en diferentes idiomas.
^ ab Helfrich, James; Neff, Rick (2012). "Doble canonicalización: una respuesta al ataque homógrafo". 2012 e Cumbre de investigadores del crimen . Cumbre de investigadores de eCrime (eCrime), 2012, págs. 1–10. doi :10.1109/eCrime.2012.6489517. ISBN 978-1-4673-2543-1.
^ Nigel Tao, Chuck Bigelow y Rob Pike. Ir a fuentes: Estándar de legibilidad DIN ". 2016.
^ Hill, Will (30 de junio de 2020). "Capítulo 25: Tipografía y texto impreso en inglés" (PDF) . El manual de Routledge del sistema de escritura en inglés . pag. 6.ISBN _ 9780367581565. Los tipos utilizados por Caxton y sus contemporáneos se originaron en Holanda y Bélgica, y no preveían el uso continuo de elementos del alfabeto inglés antiguo como thorn <þ>, eth <ð> y yogh <ʒ>. La sustitución de formas tipográficas visualmente similares ha dado lugar a algunas anomalías que persisten hasta el día de hoy en la reimpresión de textos arcaicos y en la ortografía de palabras regionales. El ampliamente incomprendido 'ye' se produce a través de un hábito de uso de la imprenta que se origina en la época de Caxton, cuando los impresores sustituían la <y> (a menudo acompañada por un superíndice <e>) en lugar de la espina <þ> o la eth <ð. >, los cuales se utilizaron para denotar tanto los sonidos sonoros como los no sonoros, /ð/ y /θ/ (Anderson, D. (1969) The Art of Written Forms. Nueva York: Holt, Rinehart and Winston, p 169 )
^ "UTR n.° 36: consideraciones de seguridad de Unicode". unicode.org .
^ "¡Registre un .CA en francés!". Archivado desde el original el 28 de marzo de 2013 . Consultado el 29 de marzo de 2013 .
^ "Archivos de correo electrónico de la ICANN: [idn-guidelines]". foro.icann.org .
^ https://governance.dev/phishing-domain-check, consultado el 12 de febrero de 2024

enlaces externos

Busque homoglifo en Wikcionario, el diccionario gratuito.

https://www.unicode.org/Public/security/latest/confusables.txt: mapeo confuso recomendado para IDN.