El idioma vietnamita y las computadoras

El idioma vietnamita se escribe con un alfabeto latino con diacríticos ( tonos de acento ) que requiere varias adaptaciones al escribir en teléfonos o computadoras. Los sistemas basados en software son una forma de escribir vietnamita en teléfonos o computadoras con software que se puede instalar en el dispositivo o desde software de terceros como UniKey . El télex es el método de entrada más antiguo ideado para codificar el idioma vietnamita con sus tonos. Otros métodos de entrada también pueden incluir VNI (teclado basado en teclas numéricas) y VIQR . El método de entrada VNI no debe confundirse con la página de códigos VNI.

Históricamente, el vietnamita también se escribía en chữ Nôm , que se utiliza principalmente con fines ceremoniales y tradicionales en los últimos tiempos, y sigue siendo el campo de los historiadores y filólogos . Ha habido intentos de escribir chữ Hán y chữ Nôm con los métodos de entrada vietnamitas existentes, pero no están muy extendidos. ^[1]^[2] A veces, el vietnamita se puede escribir sin marcas de tono, lo que los hablantes vietnamitas suelen poder adivinar según el contexto.

Fuentes y codificaciones de caracteres

Alfabeto vietnamita

Es habitual colocar dos diacríticos sobre una sola vocal vietnamita. Algunas fuentes apilan estos diacríticos, mientras que otras desplazan la marca de tono.

Codificaciones de caracteres

Existen hasta 46 codificaciones de caracteres para representar el alfabeto vietnamita . ^[3] Unicode se ha convertido en la forma más popular para muchos de los sistemas de escritura del mundo, debido a su gran compatibilidad y soporte de software. Los diacríticos pueden codificarse como caracteres combinados o como caracteres precompuestos , que se encuentran dispersos en los bloques Latin-1 Supplement , Latin Extended-A , Latin Extended-B y Latin Extended Further . El símbolo vietnamita đồng está codificado en el bloque Currency Symbols .

La cobertura de Unicode del vietnamita ha estado sujeta a varios cambios desde la década de 1990. Las primeras versiones de Unicode codificaban dấu huyền y dấu sắc como U+0340 ◌̀ COMBINACIÓN DE MARCA DE TONO GRAVE y U+0341 ◌́ COMBINACIÓN DE MARCA DE TONO AGUDO , respectivamente. En 2001, estos dos caracteres quedaron obsoletos como codificaciones duplicadas de U+0300 ◌̀ COMBINACIÓN DE ACENTO GRAVE y U+0301 ◌́ COMBINACIÓN DE ACENTO AGUDO ; ^[4] este cambio se incorporó a Unicode 3.2, lanzado en 2002. ^[5] Con el lanzamiento de Unicode 5.2 en 2009, U+0340 ◌̀ y U+0341 ◌́ no estaban en desuso, pero se desaconsejaban. ^[6]^[7] Históricamente, el idioma vietnamita usaba otros caracteres además del alfabeto moderno. La letra B del vietnamita medio con floritura (ꞗ) está incluida en el bloque D extendido latino . El ápice no está codificado por separado en Unicode, porque deriva de la tilde portuguesa , mientras que dấu ngã , que deriva del griego perispomeni , siempre se ha codificado erróneamente como tilde. Como solución alternativa, U+1DC4 ◌᷄ COMBINING MACRON-ACUTE representa el ápice en Wikisource y Wikcionario .

Para los sistemas que carecen de soporte para Unicode, se han diseñado docenas de páginas de códigos vietnamitas de 8 bits . ^[3] Las más utilizadas de ellas fueron VISCII , VSCII (TCVN 5712:1993), VNI , VPS y Windows-1258 . ^[8]^[9] Cuando se requiere ASCII , como para garantizar la legibilidad en un correo electrónico de texto sin formato, las letras vietnamitas a menudo se codifican según Vietnamese Quoted-Readable (VIQR) o VSCII Mnemonic (VSCII-MNEM), ^[10] aunque el uso de cualquiera de los esquemas de ancho variable ha disminuido drásticamente tras la adopción de Unicode en la World Wide Web . Por ejemplo, el soporte para todas las codificaciones de 8 bits mencionadas anteriormente, con la excepción de Windows-1258, se eliminó del software de Mozilla en 2014. ^[11]

Muchas fuentes vietnamitas destinadas a la autoedición están codificadas en VNI o TCVN3 ( VSCII ). ^[9] Estas fuentes se conocen como "fuentes ABC". ^[12]Los navegadores web populares no admiten codificaciones vietnamitas especiales, por lo que cualquier página web que utilice estas fuentes aparece como un mojibake ininteligible en sistemas que no las tengan instaladas.

Los vietnamitas suelen apilar diacríticos, por lo que los diseñadores de tipos de letra deben tener cuidado de evitar que los diacríticos apilados colisionen con letras o líneas adyacentes. Cuando se utiliza una marca de tono junto con otro diacrítico, desplazar la marca de tono hacia la derecha preserva la coherencia y evita ralentizar los movimientos sacádicos . ^[13] En la señalización publicitaria y en la escritura cursiva , los diacríticos suelen adoptar formas desconocidas para otros alfabetos latinos. Por ejemplo, la letra I minúscula conserva su título en ì , ỉ , ĩ e í . ^[14] Estos matices rara vez se tienen en cuenta en los entornos informáticos.

Enfoques para la codificación de caracteres

La escritura vietnamita requiere 134 letras adicionales (entre ambos casos) además de las 52 ya presentes en ASCII. ^[15] Esto supera los 128 caracteres adicionales disponibles en una codificación ASCII extendida convencional . Aunque esto se puede solucionar utilizando una codificación de ancho variable (como se hace con UTF-8 ), otras codificaciones han utilizado una serie de enfoques para admitir el vietnamita sin hacerlo:

Reemplazar al menos seis caracteres ASCII, seleccionados por ser poco comunes en vietnamita y/o por no ser invariables en ISO 646 o DEC NRCS ^[15] (como en VNI para DOS ).
Eliminar las letras mayúsculas que se usan con menos frecuencia ^[15] o todas las letras mayúsculas con marcas de tono (como en VSCII-3 (TCVN3)). Estas letras aún pueden suministrarse mediante fuentes en mayúsculas. ^[16]
Eliminar las formas de la letra Y con marcas de tono, lo que hace necesario el uso de la letra I en esas circunstancias . Este enfoque fue rechazado por los diseñadores de VISCII sobre la base de que una codificación de caracteres no debería intentar resolver un problema de reforma ortográfica. ^[15]
Reemplazar al menos seis caracteres de control C0 ^[15] (como en VISCII , VSCII-1 (TCVN1) y VPS ).
Utilice caracteres de combinación, lo que permite que una vocal con acentos se represente completamente mediante una secuencia de caracteres (como en VNI , VSCII-2 (TCVN2), Windows-1258 y ANSEL ).

Puntos de código Unicode

La siguiente tabla proporciona puntos de código Unicode para todas las letras vietnamitas que no sean ASCII.

Sustitución de fuentes

Muchas fuentes admiten un subconjunto del sistema de escritura latino que omite gran parte del alfabeto vietnamita. Debido a la alta densidad de caracteres específicos del idioma vietnamita en el texto vietnamita, los navegadores web que implementan la sustitución de fuentes producen de manera confiable un efecto de nota de rescate cuando la página web especifica una fuente inadecuada.

Nombre chino

Unicode incluye más de 10.000 caracteres Nôm como parte del repertorio Unicode de Ideógrafos Unificados CJK . De estos caracteres, 10.082 se pueden encontrar en el bloque de Ideógrafos Unificados CJK Extensión B , mientras que el resto se distribuye entre los bloques de Ideógrafos Unificados CJK , Ideógrafos Unificados CJK Extensión A y Ideógrafos Unificados CJK Extensión C. Otros 1.028 caracteres, incluidos más de 400 caracteres específicos del idioma Tày , están codificados en el bloque de Ideógrafos Unificados CJK Extensión E. Los caracteres se toman de los estándares vietnamitas TCVN 5773:1993 y TCVN 6909:2001 [¿error para TCVN 6056:1995?], así como de la investigación del Instituto de Investigación Han-Nom y otros grupos. ^[18] Todos los caracteres en TCVN 5773:1993 y aproximadamente el 95% de los caracteres en TCVN 6909:2001 [¿error para TCVN 6056:1995?] tienen puntos de código correspondientes en Unicode 5.1, aunque TCVN 5773:1993 mismo mapeó la mayoría de sus caracteres al Área de Uso Privado de Unicode. ^[19] Unicode 13.0 agregó dos caracteres diacríticos al bloque de Símbolos ideográficos y puntuación que se usaban comúnmente para indicar caracteres prestados en chữ Nôm . ^[20]^[21]

Las dos fuentes Nôm más completas son Nôm Na Tống Light ^[22] de la Fundación para la Preservación del Nôm de Vietnam y HAN NOM A / HAN NOM B , desarrolladas por la comunidad , ^[23] las cuales colocan una gran cantidad de caracteres no estandarizados en las áreas de uso privado .

La base de datos Unihan del Consorcio Unicode incluye lecturas vietnamitas de algunos caracteres, pero no distingue entre lecturas chino-vietnamitas y nôm .

Al igual que otros sistemas de escritura CJKV , el chữ Nôm se escribe tradicionalmente verticalmente , de arriba a abajo y de derecha a izquierda.

Chữ Hán y chữ Nôm también se pueden anotar usando caracteres rubí , que es lo mismo que chữ Quốc Ngữ para vietnamita.^[24]

Entrada de texto

Máquina de escribir Olympia Splendid 33, diseño AĐERTY (basado en AZERTY ), utilizada en Vietnam en la década de 1960, expuesta en el Museo de la ciudad de Ho Chi Minh

Un teclado vietnamita puramente físico sería poco práctico debido a la gran cantidad de combinaciones de letras y signos diacríticos en el alfabeto, por ejemplo, ờ, ị. En cambio, la entrada vietnamita se basa en diseños de teclado basados en software, teclados virtuales o métodos de entrada (también conocidos como IME).

Distribuciones de teclado

Los diseños de teclado vietnamita se basan en teclas muertas para componer letras con diacríticos. La mayoría de los sistemas operativos de escritorio incluyen un diseño de teclado vietnamita similar al TCVN 6064:1995 [vi] , un estándar nacional vietnamita. Anteriormente, las máquinas de escribir usaban un diseño vietnamita basado en AZERTY (AĐERTY). ^[25]

Métodos de entrada

xvnkb, un IME compatible con el marco del método de entrada X en sistemas Unix, admite salida en seis codificaciones de caracteres.

Los tres métodos de entrada vietnamitas más comunes son Telex , VNI y VIQR . Telex indica los signos diacríticos mediante letras que es poco probable que aparezcan al final de una palabra, mientras que VNI reutiliza las teclas numéricas o de función y VIQR reutiliza varios signos de puntuación. Las convenciones Telex y VIQR se originaron en una era anterior a las máquinas de télex y las máquinas de escribir, respectivamente.

El soporte para estos métodos de entrada lo proporcionan los editores de métodos de entrada (IME), que en vietnamita se conocen como bộ gõ , que literalmente significa "picoteadores", "conjuntos de mecanografía" o "percusión" en términos más generales. Los IME pueden ser proporcionados por el sistema operativo, instalados como una aplicación de terceros, instalados como una extensión del navegador o proporcionados por un sitio web individual en forma de script . Las aplicaciones de terceros comunes incluyen GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey y xvnkb. En los sistemas operativos tipo Unix , los marcos IBus y SCIM admiten el vietnamita. Los scripts de IME como AVIM, Mudim y VietTyping se pueden encontrar en la mayoría de los foros de mensajes vietnamitas , la Wikipedia vietnamita y otros sitios web con uso intensivo de texto. El navegador web vietnamita Cốc Cốc viene con un método de entrada incorporado.

Los métodos de entrada permiten componer palabras en un orden más flexible que el que permiten las distribuciones de teclado. Por ejemplo, para ingresar la palabra " viết " utilizando la distribución de teclado TCVN 6064:1995, uno debe escribir , en ese orden. Por el contrario, la mayoría de los IME permiten al usuario insertar diacríticos al final de la palabra: en Telex, en VNI o en VIQR. Algunos IME incluso permiten que se ingresen diacríticos antes de sus letras base. Dependiendo de la implementación de un IME, también puede ser posible editar los diacríticos de una palabra existente sin volver a escribir la palabra.VI38TVIEETSVIET61VIET^'

Algunos teclados virtuales complementan las teclas estándar con teclas de acceso directo dedicadas. Por ejemplo, con el teclado VIQR integrado en iOS , es posible agregar una bocina a la "U" tocando una de las teclas dedicadas , que no tiene análogo en un teclado físico.123#+=+◌̛

Tomando prestada una característica común entre los métodos de entrada chinos , algunos IME vietnamitas permiten omitir los diacríticos por completo y, en su lugar, después de escribir las letras base, el usuario puede seleccionar la palabra acentuada de una lista de candidatos. Para proporcionar esta lista de autocompletado , el IME puede necesitar comunicarse con un servicio web . Algunos IME también utilizan listas de candidatos para permitir al usuario convertir texto del alfabeto vietnamita a chữ Nôm , porque no hay una correspondencia uno a uno entre las palabras alfabéticas y los caracteres nôm .

Otras consideraciones

El texto típico vietnamita contiene una gran proporción de palabras compuestas. En el uso actual, las palabras compuestas nunca se dividen en sílabas, por lo que los correctores ortográficos se limitan a verificar sílabas individuales, a menos que se consulte un modelo estadístico del lenguaje .

El vietnamita tiene reglas ortográficas estrictas y pocas excepciones, por lo que los motores de conversión de texto a voz pueden evitar las búsquedas en el diccionario, excepto cuando encuentran una palabra prestada de un idioma extranjero. Los motores de conversión de texto a voz deben tener en cuenta los tonos , que son esenciales para el significado de cualquier palabra vietnamita, por ejemplo, má (madre) es una palabra diferente a mà (pero).

Las interfaces de usuario internacionalizadas generalmente no pueden utilizar la gama completa de pronombres vietnamitas que se esperaría en un entorno social tradicional, incluso cuando se sabe mucho sobre el usuario. En cambio, las interfaces de usuario suelen utilizar pronombres genéricos como tôi y bạn , algunos de los cuales hacen suposiciones potencialmente incorrectas sobre la edad del usuario y la relación con otros usuarios. Por ejemplo, cuando una plataforma de redes sociales notifica a un usuario sobre un usuario más joven, puede referirse a este último en tercera persona como anh ấy en lugar de em ấy , lo que lleva al usuario a malinterpretar la notificación como una referencia a otra persona. ^[26]

Véase también

Referencias

^ "¿Cómo escribir caracteres Hán Nôm?". winvnkey.sourceforge.net . Consultado el 8 de diciembre de 2022 .
^ "Recursos de Chu Nom". chunom.org . Consultado el 8 de diciembre de 2022 .
^ ab Ngô Đình Học; Trần Tư Bình (21 de julio de 2014). "Manual exprés para WinVNKey". WinVNKey . Consultado el 5 de octubre de 2014 .
^ ISO/IEC JTC1/SC2/WG2 (10 de octubre de 2001). Informe de enlace del Consorcio Unicode (Informe). Organización Internacional de Normalización . L2/01-378 . Consultado el 5 de julio de 2024 .{{cite report}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
^ Whistler, Ken (1 de agosto de 2001). Análisis de la depreciación de caracteres en el estándar Unicode (informe). Comité Técnico Unicode. L2/01-301 . Consultado el 5 de julio de 2024 .
^ "Combinación de signos diacríticos". Tablas de códigos de caracteres Unicode 7.0 . Consorcio Unicode . 16 de junio de 2014. Consultado el 5 de octubre de 2014 .
^ Buff, Charlotte (16 de septiembre de 2018). Inconsistencias de desuso en las anotaciones de los gráficos de códigos (PDF) (Informe). Comité Técnico Unicode. L2/18-301 . Consultado el 5 de julio de 2024 .
^ Ngo, Hoc Dinh; Tran, TuBinh. "5. ¿Por qué es necesario realizar una conversión de conjunto de caracteres vietnamita (codificación de conjunto de caracteres)? Algunas funciones especiales de WinVNKey .
^ ab "Chọn Font chữ, bảng mã để gõ tiếng Việt". Bộ gõ tiếng Việt.Com (en vietnamita). MangVN. 2009. Archivado desde el original el 20 de noviembre de 2010.
^ Lunde, Ken (2009). Procesamiento de información CJKV (2ª ed.). Medios O'Reilly . págs. 47–49. ISBN 978-0-596-51447-1– a través de Google Books.
^ Sivonen, Henri (26 de septiembre de 2014). "Los cambios en la codificación de caracteres en mc requieren la acción de cc". mozilla.dev.apps.thunderbird .
^ Hoàng Tô; Nguyễn Quan Sơn; Nguyễn Sơn Tùng; Phan Quang Minh; Phạm Thúc Trương Lương; Nguyễn Quang Hiệp; Bùi Văn Kiên; Nguyễn Ích Vinh (20 de julio de 2014). Sử ký Tinh Vân: 20 năm sẻ chia và sáng tạo [ Historia de Tinhvan: 20 años compartiendo y creando ] (en vietnamita). vol. 1. Grupo Tinhvan. pag. 37 - a través de Google Books.
^ Trương, Donny. «Desafíos de diseño». Tipografía vietnamita . Consultado el 10 de abril de 2018 .
^ Véase, por ejemplo: "Viết Thư". Selecciones de lecturas vietnamitas (en vietnamita) (2.ª ed.). Army Language School . 1956. págs. 98-100.
^ abcde "2. Revisión de las convenciones actuales". Informe de estandarización de la codificación de caracteres vietnamita: Especificaciones de codificación de caracteres VISCII y VIQR 1.1 (informe técnico). Viet-Std Group. 1992. pág. 10.
^ "Codificaciones de caracteres Unicode y vietnamitas heredadas". Preguntas frecuentes sobre Unicode vietnamita . TCVN3 no es de doble byte, pero debido a la naturaleza de su codificación, las letras mayúsculas (vocales) se asignan a una fuente mayúscula separada que es similar a la fuente normal en minúsculas.
^ Trần Văn Kiệm (2004). "phở". Giúp đọc Nôm và Hán Việt (en vietnamita) (4ª ed.).[1]
^ Nguyễn Quang Hồng. "Giới thiệu Kho chữ Hán Nôm mã hoá" [Introducción al repertorio de caracteres codificados de Hán Nôm] (en vietnamita). Fundación vietnamita para la preservación de Nôm.
^ Lunde 2009, págs. 152-153.
^ Collins, Lee; Ngô Thanh Nhàn (6 de noviembre de 2017). "Propuesta para codificar dos marcas de lectura alternativas vietnamitas" (PDF) .
^ "Propuesta de nuevos personajes: The Pipeline". Consorcio Unicode. 8 de mayo de 2019. Consultado el 26 de mayo de 2019 .
^ "Nôm Font". Fundación para la Preservación del Nôm Vietnamita . Consultado el 5 de octubre de 2014 .
^ Đỗ Quốc Bảo; Tô Minh Tâm; Thiền Viện Viên Chiếu (8 de diciembre de 2005). "Conjunto de fuentes UNICODE Han Nom" . Consultado el 5 de octubre de 2014 .
^ Lunde 2009, pág. 529.
^ Duncan, John William (22 de diciembre de 2005), Máquina de escribir vietnamita , consultado el 11 de julio de 2020
^ Jacob, Raquel (2 de febrero de 2022). «Pautas lingüísticas: vietnamita». Unbabel . Consultado el 18 de julio de 2022 .

Lectura adicional

Lunde, Ken (2009). Procesamiento de Información CJKV. Sebastopol, California: O'Reilly Media . ISBN 978-0-596-51447-1– a través de Google Books.

Enlaces externos

Informática en vietnamita: avances y desafíos – Presentación del Grupo Internacional de Usuarios de Macintosh 2005
Conversiones vietnamitas: herramienta en línea para recuperar el mojibake vietnamita