El idioma vietnamita se escribe con un alfabeto latino con diacríticos ( tonos de acento ) que requiere varias adaptaciones al escribir en teléfonos o computadoras. Los sistemas basados en software son una forma de escribir vietnamita en teléfonos o computadoras con software que se puede instalar en el dispositivo o desde software de terceros como UniKey . El télex es el método de entrada más antiguo ideado para codificar el idioma vietnamita con sus tonos. Otros métodos de entrada también pueden incluir VNI (teclado basado en teclas numéricas) y VIQR . El método de entrada VNI no debe confundirse con la página de códigos VNI.
Históricamente, el vietnamita también se escribía en chữ Nôm , que se utiliza principalmente con fines ceremoniales y tradicionales en los últimos tiempos, y sigue siendo el campo de los historiadores y filólogos . Ha habido intentos de escribir chữ Hán y chữ Nôm con los métodos de entrada vietnamitas existentes, pero no están muy extendidos. [1] [2] A veces, el vietnamita se puede escribir sin marcas de tono, lo que los hablantes vietnamitas suelen poder adivinar según el contexto.
Existen hasta 46 codificaciones de caracteres para representar el alfabeto vietnamita . [3] Unicode se ha convertido en la forma más popular para muchos de los sistemas de escritura del mundo, debido a su gran compatibilidad y soporte de software. Los diacríticos pueden codificarse como caracteres combinados o como caracteres precompuestos , que se encuentran dispersos en los bloques Latin-1 Supplement , Latin Extended-A , Latin Extended-B y Latin Extended Further . El símbolo vietnamita đồng está codificado en el bloque Currency Symbols .
La cobertura de Unicode del vietnamita ha estado sujeta a varios cambios desde la década de 1990. Las primeras versiones de Unicode codificaban dấu huyền y dấu sắc como U+0340 ◌̀ COMBINACIÓN DE MARCA DE TONO GRAVE y U+0341 ◌́ COMBINACIÓN DE MARCA DE TONO AGUDO , respectivamente. En 2001, estos dos caracteres quedaron obsoletos como codificaciones duplicadas de U+0300 ◌̀ COMBINACIÓN DE ACENTO GRAVE y U+0301 ◌́ COMBINACIÓN DE ACENTO AGUDO ; [4] este cambio se incorporó a Unicode 3.2, lanzado en 2002. [5] Con el lanzamiento de Unicode 5.2 en 2009, U+0340 ◌̀ y U+0341 ◌́ no estaban en desuso, pero se desaconsejaban. [6] [7] Históricamente, el idioma vietnamita usaba otros caracteres además del alfabeto moderno. La letra B del vietnamita medio con floritura (ꞗ) está incluida en el bloque D extendido latino . El ápice no está codificado por separado en Unicode, porque deriva de la tilde portuguesa , mientras que dấu ngã , que deriva del griego perispomeni , siempre se ha codificado erróneamente como tilde. Como solución alternativa, U+1DC4 ◌᷄ COMBINING MACRON-ACUTE representa el ápice en Wikisource y Wikcionario .
Para los sistemas que carecen de soporte para Unicode, se han diseñado docenas de páginas de códigos vietnamitas de 8 bits . [3] Las más utilizadas de ellas fueron VISCII , VSCII (TCVN 5712:1993), VNI , VPS y Windows-1258 . [8] [9] Cuando se requiere ASCII , como para garantizar la legibilidad en un correo electrónico de texto sin formato, las letras vietnamitas a menudo se codifican según Vietnamese Quoted-Readable (VIQR) o VSCII Mnemonic (VSCII-MNEM), [10] aunque el uso de cualquiera de los esquemas de ancho variable ha disminuido drásticamente tras la adopción de Unicode en la World Wide Web . Por ejemplo, el soporte para todas las codificaciones de 8 bits mencionadas anteriormente, con la excepción de Windows-1258, se eliminó del software de Mozilla en 2014. [11]
Muchas fuentes vietnamitas destinadas a la autoedición están codificadas en VNI o TCVN3 ( VSCII ). [9] Estas fuentes se conocen como "fuentes ABC". [12] Los navegadores web populares no admiten codificaciones vietnamitas especiales, por lo que cualquier página web que utilice estas fuentes aparece como un mojibake ininteligible en sistemas que no las tengan instaladas.
Los vietnamitas suelen apilar diacríticos, por lo que los diseñadores de tipos de letra deben tener cuidado de evitar que los diacríticos apilados colisionen con letras o líneas adyacentes. Cuando se utiliza una marca de tono junto con otro diacrítico, desplazar la marca de tono hacia la derecha preserva la coherencia y evita ralentizar los movimientos sacádicos . [13] En la señalización publicitaria y en la escritura cursiva , los diacríticos suelen adoptar formas desconocidas para otros alfabetos latinos. Por ejemplo, la letra I minúscula conserva su título en ì , ỉ , ĩ e í . [14] Estos matices rara vez se tienen en cuenta en los entornos informáticos.
La escritura vietnamita requiere 134 letras adicionales (entre ambos casos) además de las 52 ya presentes en ASCII. [15] Esto supera los 128 caracteres adicionales disponibles en una codificación ASCII extendida convencional . Aunque esto se puede solucionar utilizando una codificación de ancho variable (como se hace con UTF-8 ), otras codificaciones han utilizado una serie de enfoques para admitir el vietnamita sin hacerlo:
La siguiente tabla proporciona puntos de código Unicode para todas las letras vietnamitas que no sean ASCII.
Muchas fuentes admiten un subconjunto del sistema de escritura latino que omite gran parte del alfabeto vietnamita. Debido a la alta densidad de caracteres específicos del idioma vietnamita en el texto vietnamita, los navegadores web que implementan la sustitución de fuentes producen de manera confiable un efecto de nota de rescate cuando la página web especifica una fuente inadecuada.
Unicode incluye más de 10.000 caracteres Nôm como parte del repertorio Unicode de Ideógrafos Unificados CJK . De estos caracteres, 10.082 se pueden encontrar en el bloque de Ideógrafos Unificados CJK Extensión B , mientras que el resto se distribuye entre los bloques de Ideógrafos Unificados CJK , Ideógrafos Unificados CJK Extensión A y Ideógrafos Unificados CJK Extensión C. Otros 1.028 caracteres, incluidos más de 400 caracteres específicos del idioma Tày , están codificados en el bloque de Ideógrafos Unificados CJK Extensión E. Los caracteres se toman de los estándares vietnamitas TCVN 5773:1993 y TCVN 6909:2001 [¿error para TCVN 6056:1995?], así como de la investigación del Instituto de Investigación Han-Nom y otros grupos. [18] Todos los caracteres en TCVN 5773:1993 y aproximadamente el 95% de los caracteres en TCVN 6909:2001 [¿error para TCVN 6056:1995?] tienen puntos de código correspondientes en Unicode 5.1, aunque TCVN 5773:1993 mismo mapeó la mayoría de sus caracteres al Área de Uso Privado de Unicode. [19] Unicode 13.0 agregó dos caracteres diacríticos al bloque de Símbolos ideográficos y puntuación que se usaban comúnmente para indicar caracteres prestados en chữ Nôm . [20] [21]
Las dos fuentes Nôm más completas son Nôm Na Tống Light [22] de la Fundación para la Preservación del Nôm de Vietnam y HAN NOM A / HAN NOM B , desarrolladas por la comunidad , [23] las cuales colocan una gran cantidad de caracteres no estandarizados en las áreas de uso privado .
La base de datos Unihan del Consorcio Unicode incluye lecturas vietnamitas de algunos caracteres, pero no distingue entre lecturas chino-vietnamitas y nôm .
Al igual que otros sistemas de escritura CJKV , el chữ Nôm se escribe tradicionalmente verticalmente , de arriba a abajo y de derecha a izquierda.
Chữ Hán y chữ Nôm también se pueden anotar usando caracteres rubí , que es lo mismo que chữ Quốc Ngữ para vietnamita. [24]
Un teclado vietnamita puramente físico sería poco práctico debido a la gran cantidad de combinaciones de letras y signos diacríticos en el alfabeto, por ejemplo, ờ, ị. En cambio, la entrada vietnamita se basa en diseños de teclado basados en software, teclados virtuales o métodos de entrada (también conocidos como IME).
Los diseños de teclado vietnamita se basan en teclas muertas para componer letras con diacríticos. La mayoría de los sistemas operativos de escritorio incluyen un diseño de teclado vietnamita similar al TCVN 6064:1995 , un estándar nacional vietnamita. Anteriormente, las máquinas de escribir usaban un diseño vietnamita basado en AZERTY (AĐERTY). [25]
Los tres métodos de entrada vietnamitas más comunes son Telex , VNI y VIQR . Telex indica los signos diacríticos mediante letras que es poco probable que aparezcan al final de una palabra, mientras que VNI reutiliza las teclas numéricas o de función y VIQR reutiliza varios signos de puntuación. Las convenciones Telex y VIQR se originaron en una era anterior a las máquinas de télex y las máquinas de escribir, respectivamente.
El soporte para estos métodos de entrada lo proporcionan los editores de métodos de entrada (IME), que en vietnamita se conocen como bộ gõ , que literalmente significa "picoteadores", "conjuntos de mecanografía" o "percusión" en términos más generales. Los IME pueden ser proporcionados por el sistema operativo, instalados como una aplicación de terceros, instalados como una extensión del navegador o proporcionados por un sitio web individual en forma de script . Las aplicaciones de terceros comunes incluyen GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey y xvnkb. En los sistemas operativos tipo Unix , los marcos IBus y SCIM admiten el vietnamita. Los scripts de IME como AVIM, Mudim y VietTyping se pueden encontrar en la mayoría de los foros de mensajes vietnamitas , la Wikipedia vietnamita y otros sitios web con uso intensivo de texto. El navegador web vietnamita Cốc Cốc viene con un método de entrada incorporado.
Los métodos de entrada permiten componer palabras en un orden más flexible que el que permiten las distribuciones de teclado. Por ejemplo, para ingresar la palabra " viết " utilizando la distribución de teclado TCVN 6064:1995, uno debe escribir , en ese orden. Por el contrario, la mayoría de los IME permiten al usuario insertar diacríticos al final de la palabra: en Telex, en VNI o en VIQR. Algunos IME incluso permiten que se ingresen diacríticos antes de sus letras base. Dependiendo de la implementación de un IME, también puede ser posible editar los diacríticos de una palabra existente sin volver a escribir la palabra.VI38TVIEETSVIET61VIET^'
Algunos teclados virtuales complementan las teclas estándar con teclas de acceso directo dedicadas. Por ejemplo, con el teclado VIQR integrado en iOS , es posible agregar una bocina a la "U" tocando una de las teclas dedicadas , que no tiene análogo en un teclado físico.123#+=+◌̛
Tomando prestada una característica común entre los métodos de entrada chinos , algunos IME vietnamitas permiten omitir los diacríticos por completo y, en su lugar, después de escribir las letras base, el usuario puede seleccionar la palabra acentuada de una lista de candidatos. Para proporcionar esta lista de autocompletado , el IME puede necesitar comunicarse con un servicio web . Algunos IME también utilizan listas de candidatos para permitir al usuario convertir texto del alfabeto vietnamita a chữ Nôm , porque no hay una correspondencia uno a uno entre las palabras alfabéticas y los caracteres nôm .
El texto típico vietnamita contiene una gran proporción de palabras compuestas. En el uso actual, las palabras compuestas nunca se dividen en sílabas, por lo que los correctores ortográficos se limitan a verificar sílabas individuales, a menos que se consulte un modelo estadístico del lenguaje .
El vietnamita tiene reglas ortográficas estrictas y pocas excepciones, por lo que los motores de conversión de texto a voz pueden evitar las búsquedas en el diccionario, excepto cuando encuentran una palabra prestada de un idioma extranjero. Los motores de conversión de texto a voz deben tener en cuenta los tonos , que son esenciales para el significado de cualquier palabra vietnamita, por ejemplo, má (madre) es una palabra diferente a mà (pero).
Las interfaces de usuario internacionalizadas generalmente no pueden utilizar la gama completa de pronombres vietnamitas que se esperaría en un entorno social tradicional, incluso cuando se sabe mucho sobre el usuario. En cambio, las interfaces de usuario suelen utilizar pronombres genéricos como tôi y bạn , algunos de los cuales hacen suposiciones potencialmente incorrectas sobre la edad del usuario y la relación con otros usuarios. Por ejemplo, cuando una plataforma de redes sociales notifica a un usuario sobre un usuario más joven, puede referirse a este último en tercera persona como anh ấy en lugar de em ấy , lo que lleva al usuario a malinterpretar la notificación como una referencia a otra persona. [26]
{{cite report}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )TCVN3 no es de doble byte, pero debido a la naturaleza de su codificación, las letras mayúsculas (vocales) se asignan a una fuente mayúscula separada que es similar a la fuente normal en minúsculas.