stringtranslate.com

Carácter chino IT

La TI es la tecnología de la información para el procesamiento informático de caracteres chinos . Mientras que el sistema de escritura inglés utiliza unas pocas docenas de caracteres diferentes, el idioma chino necesita un conjunto de caracteres mucho más grande. Hay más de diez mil caracteres en el Diccionario Xinhua . [1] En el conjunto de caracteres multilingües Unicode de 149.813 caracteres, 98.682 (aproximadamente dos tercios) son chinos. [2] Eso significa que el procesamiento informático de caracteres chinos es el más difícil entre otros idiomas.

El chino enfrenta problemas especiales en comparación con otros idiomas, incluida la tecnología de entrada de datos por computadora, la codificación interna y la salida de caracteres chinos. [3]

Entrada de caracteres

La introducción de caracteres chinos por ordenador no es tan sencilla como la del inglés. El inglés se escribe con 26 letras y un puñado de otros caracteres, y cada carácter está asignado a una tecla del teclado. El chino se puede introducir de forma similar, pero para ello se necesitaría un teclado enorme con al menos miles de teclas. Buscar un carácter en el teclado sería una tarea ardua. [4]

Se intentó "reducir" el tamaño del teclado chino colocando varios caracteres en una sola tecla. Esto convirtió el procedimiento original de entrada de un solo paso en dos pasos para el escritor:

  1. presionando la tecla del grupo de caracteres del personaje objetivo,
  2. seleccionando el personaje objetivo en el grupo.

El teclado resultante sigue siendo un poco complicado, porque si se colocan más caracteres en una tecla, la tecla se hace más grande para que los caracteres sean reconocibles, y resulta difícil seleccionar un carácter de un grupo grande. Además, no es fácil agrupar los caracteres de manera uniforme de una manera razonable y fácil de aprender. Otro inconveniente de un teclado chino para la entrada directa de caracteres completos es su inconsistencia con la entrada en inglés. [5]

Una forma alternativa es codificar cada carácter chino en caracteres ingleses, lo que permite la entrada en chino en un teclado inglés. De hecho, este método se ha vuelto predominante para la entrada de datos en chino por computadora. El software de un método de entrada de codificación incluye una tabla de códigos de caracteres (码表;碼表; mǎbiǎo ). Cuando se escribe un código de entrada ASCII en el teclado inglés, el software buscará caracteres chinos coincidentes en la tabla. Si hay varios caracteres que comparten el mismo código, se presentarán al usuario para su selección. Para que el método de entrada sea fácil de aprender, la codificación debe basarse en características distintivas en formas, sonidos o significados de los caracteres chinos. Debido a que los significados de los caracteres tienden a ser más abstractos y complicados, la codificación de entrada normalmente se basa en el sonido o la forma. [5]

Codificaciones basadas en sonido

La codificación basada en sonido normalmente se basa en un esquema de caracteres latinos existente para la fonética china, como pinyin para putonghua y jyutping para cantonés. El código de entrada de un carácter chino es su cadena de letras pinyin seguida de un número opcional que representa el tono. Por ejemplo, el código de entrada pinyin putonghua de香港(Hong Kong) es xianggang o xiang1gang3 , y el código Jyutping cantonés es hoenggong o hoeng1gong2 , todos los cuales se pueden ingresar fácilmente a través de un teclado inglés. En pinyin putonghua, hay dos letras que no aparecen en el teclado inglés: ê y ü. Según el estándar nacional, [6] ê debe representarse por 'ea' y ü por 'v' en el código de entrada pinyin. En algunos programas de entrada chinos, ê también se representa como 'e^' y ü como 'u:' o 'uu'. Los métodos de entrada basados ​​en sonido más populares en China incluyen Microsoft Pinyin, Sogou Pinyin, Google Pinyin y Jyutping en China continental y Hong Kong, y bopomofo en Taiwán.

La codificación basada en sonido tiene varias ventajas:

  1. Fácil de aprender porque la mayoría de los escritores chinos ya tienen un buen dominio del putonghua y el pinyin.
  2. Consistente con el aprendizaje del idioma chino.
  3. Permite ingresar caracteres chinos simplificados y tradicionales de manera similar.
  4. Permite escribir chino e inglés en el mismo teclado.

Las deficiencias de la codificación basada en el sonido radican en su alto grado de codificación duplicada, ya que los caracteres chinos homófonos comparten el mismo código. Un carácter chino normalmente se pronuncia con una sílaba. El chino putonghua solo tiene alrededor de 400 sílabas diferentes sin tener en cuenta los tonos, o aproximadamente 1200 sílabas cuando se consideran los tonos. Por otro lado, hay decenas de miles de caracteres chinos. Eso significa que, en promedio, cada sílaba tiene que cubrir más de 10 caracteres. Este problema se puede resolver en gran medida ingresando el chino palabra por palabra en lugar de carácter por carácter, porque la mayoría de las palabras en chino moderno constan de más de un carácter y la codificación duplicada es mucho menos frecuente a nivel de palabras. Por ejemplo, el pinyin de 香港 (Hong Kong) es exclusivo de la palabra, mientras que el carácter 香 o 港 comparte su pronunciación con muchos otros caracteres. Otra limitación de la entrada de chino basada en el sonido es que debe conocer la pronunciación de un carácter chino antes de poder ingresarlo en la computadora. Este problema se puede resolver con la codificación basada en la forma. [7]

Codificaciones basadas en formularios

Un carácter chino puede introducirse de forma alternativa según su forma y estructura. La mayoría de los caracteres chinos pueden dividirse en una secuencia de componentes, cada uno de los cuales está compuesto a su vez por una secuencia de trazos en orden de escritura. Por ejemplo, el carácter福('buena fortuna', 'felicidad') puede descomponerse como

Personaje: 福

Componentes: 礻, 一, 口, 田

Trazos: 丶㇇丨丶, 一, 丨𠃍一, 丨𠃍一丨一

Hay unos pocos cientos de componentes básicos, [8] mucho menos que la cantidad de caracteres. Al representar cada componente con una letra inglesa y ponerlos en orden de escritura del carácter, el creador del método de entrada puede obtener una cadena de letras lista para usarse como código de entrada en el teclado inglés. Por supuesto, el creador también puede diseñar una regla para seleccionar letras representativas de la cadena si es demasiado larga. Por ejemplo, en el método de entrada Cangjie , el carácter 疆 ('borde') se codifica como "NGMWM" correspondiente a los componentes "弓土一田一", con algunos componentes omitidos.

La codificación basada en trazos es más sencilla que la codificación basada en componentes. Pero los códigos tienden a ser más largos. Hay aproximadamente 30~40 trazos distintivos de caracteres chinos. [9] Por lo general, se clasifican en cinco categorías de heng (一), shu (丨), pie (丿), dian (丶) y zhe (𠃍) para la consulta de diccionarios y la entrada de chino en un teléfono móvil. Para la entrada de chino con un teclado ASCII, se pueden combinar 2 trazos para formar 5*5=25 pares diferentes para asignar a las letras en inglés. Por ejemplo, en el método de entrada ZYQ, [10] la secuencia de pares de trazos '一一, 一丨, 一丿, ..., 𠃍丿, 𠃍丶, 𠃍𠃍' se representan por 'a, b, c, ..., w, x, y' respectivamente. Los métodos de codificación basados ​​en formularios más populares incluyen Wubi en el continente y Cangjie en Taiwán y Hong Kong. [11]

Las ventajas y desventajas de los métodos de entrada basados ​​en la forma son complementarias a las de los métodos basados ​​en el sonido. La principal ventaja de los métodos basados ​​en la forma reside en su bajo grado de codificación duplicada, lo que permite una entrada de caracteres chinos a alta velocidad. Y la principal deficiencia es la dificultad de aprendizaje. Normalmente, los estudiantes tienen que recordar más de cien componentes y sus letras inglesas correspondientes. Además, tienen que aprender las complicadas reglas para dividir un carácter en una secuencia de componentes y hacer una selección entre ellos. [12]

Reconocimiento óptico de caracteres

Los caracteres chinos también se pueden introducir en el ordenador mediante reconocimiento óptico de caracteres (OCR), reconocimiento de escritura a mano y reconocimiento de voz basados ​​en una tecnología similar a la del inglés. [13] En comparación con el inglés, el reconocimiento de escritura a mano y OCR en chino es más difícil, porque hay miles de caracteres diferentes de uso común en lugar de 26 letras. En términos generales, el reconocimiento de caracteres impresos es más preciso que el de caracteres escritos a mano porque sus formas están más estandarizadas. Existen herramientas de OCR para diferentes fuentes, incluidas las populares Song, Kai y Hei. En comparación con la escritura a mano fuera de línea, el reconocimiento de escritura a mano en línea es más eficiente, porque el ordenador no solo "ve" el carácter escrito sino también el procedimiento para escribirlo. [14]

Reconocimiento de voz

El reconocimiento de voz convierte una señal de voz continua en una secuencia de palabras. Existen dos problemas: la variación en la pronunciación de las palabras por parte de diferentes hablantes y la existencia de homófonos como 'pair', 'pear' y 'pare' en inglés, y 攻势, 公式, 公示 (gong1shi4) en chino. El reconocimiento de voz se basa en métodos estadísticos de corpus y reglas lingüísticas. Una característica útil del chino es que cada carácter se pronuncia con una sílaba. [14]

Tanto el reconocimiento de caracteres chinos como el reconocimiento de voz han alcanzado el nivel de aplicación. Sin embargo, ninguno de ellos puede garantizar una exactitud del 100 % sin una corrección humana o una selección de caracteres en línea. [14]

Motores de entrada inteligentes

La característica más importante de la entrada inteligente es la aplicación de restricciones contextuales para la selección de caracteres candidatos. Por ejemplo, en Microsoft Pinyin, cuando el usuario escribe el código de entrada "daxuejiaoshou", obtendrá 大学教授 (profesor universitario), cuando escribe "daxuepiaopiao" la computadora sugerirá 大雪飘飘 (nieve intensa). Aunque las letras pinyin no diacríticas de 大学 y 大雪 son ambas "daxue", la computadora puede hacer una selección razonable en función de las palabras subsiguientes. [15]

El ingreso inteligente de texto chino también utiliza información del corpus y reglas lingüísticas. La selección que hace la computadora entre caracteres chinos ambiguos no siempre es correcta, por lo que se requieren mejoras adicionales. [15]

Otra entrada

En el sistema de escritura chino , hay grafemas distintos de los caracteres chinos completos, como los signos de puntuación (por ejemplo, '。', '、' y '《》'), trazos (por ejemplo, '丿', '𠃍' y '乚'), radicales (por ejemplo, '氵', '宀' y '刂') y letras utilizadas para la romanización, como las letras vocálicas con diacríticos utilizadas en el pinyin y la romanización de Yale del cantonés (por ejemplo, 'ā', 'á', 'ǎ', 'à').

Existen herramientas disponibles en Microsoft Windows, Office y la web que nos permitirán introducir casi todos estos caracteres auxiliares chinos, desde la introducción de signos de puntuación en métodos de entrada chinos generales, hasta la introducción de pinyin diacrítico con teclados suaves, pasando por la introducción de trazos y radicales desde el sitio web de Unicode y mediante la conversión de caracteres Unicode, así como la aplicación de herramientas especiales en la web para introducir pinyin y otros caracteres. Se puede encontrar más información sobre la entrada de caracteres no logográficos en el artículo [16], que incluye una lista de 280 caracteres no logográficos no ASCII, cada uno de los cuales está anotado con su punto de código Unicode y el código de entrada del diseño del autor. También es posible introducir un carácter en Microsoft Word escribiendo su punto de código Unicode y pulsando las teclas Alt+X.

Codificación de caracteres chinos para el intercambio de información

Dentro de la computadora, cada carácter está representado por un código interno. Cuando un carácter se envía entre dos máquinas, se trata de un código de intercambio de información. Hoy en día, los códigos de intercambio de información, como ASCII y Unicode, se emplean a menudo directamente como códigos internos. Las siguientes secciones presentarán los estándares de codificación más importantes utilizados en la tecnología de la información china, incluidos GB , Big5 y Unicode .

ES

GB significa Guobiao , "Guojia Biaozhun" (国家标准, o 'norma nacional') en mandarín , y es el prefijo para los números de referencia de las normas oficiales emitidas por la República Popular China .

El primer estándar de codificación de caracteres chinos GB es GB 2312 , que se publicó en 1980. Incluye 6763 caracteres chinos, con 3755 de uso frecuente ordenados por pinyin y el resto por radicales (componentes de indexación). GB2312 fue diseñado para caracteres chinos simplificados . Los caracteres tradicionales que se han simplificado no están cubiertos. El código de un carácter se representa mediante un número hexadecimal de dos bytes, por ejemplo, los códigos GB de香港(Hong Kong) son CFE3 y B8DB respectivamente. GB2312 todavía se usa en algunas computadoras y en la WWW, aunque se han publicado versiones más nuevas con conjuntos de caracteres extendidos, como GB13000.1 y GB18030. [17]

La última versión de la codificación GB es GB18030 . GB18030 admite caracteres chinos simplificados y tradicionales y es coherente con el conjunto de caracteres Unicode. [18]

Cinco grandes

La codificación Big5 fue diseñada por cinco grandes empresas de TI en Taiwán a principios de la década de 1980 y ha sido el estándar de facto para representar el chino tradicional en las computadoras desde entonces. Big5 se usa popularmente en Taiwán, Hong Kong y Macao. El estándar Big5 original incluía 13.053 caracteres chinos, sin caracteres simplificados de China continental. Cada carácter está codificado con un código hexadecimal de dos bytes, por ejemplo, 香 (ADBB) 港 (B4E4) 龍 (C073). Los caracteres chinos en el conjunto de caracteres Big5 están dispuestos en orden radical. Las versiones extendidas de Big5 incluyen Big-5E y Big5-2003, que incluyen algunos caracteres simplificados y caracteres cantoneses de Hong Kong. [19]

Unicode

Unicode es el estándar internacional más influyente para la codificación de caracteres multilingües. Es consistente con (o virtualmente equivalente a) el estándar ISO/IEC10646. La versión completa de Unicode representa un carácter con un código digital de 4 bytes, lo que proporciona un enorme espacio de codificación para cubrir todos los caracteres de todos los idiomas del mundo. El Plano Multilingüe Básico (BMP) es una versión de núcleo de 2 bytes de Unicode con 2^16=65.536 puntos de código para caracteres importantes de muchos idiomas. Hay 27.522 caracteres en el Área de Ideogramas CJKV (China, Japón, Corea y Vietnam), incluidos todos los caracteres chinos simplificados y tradicionales en GB2312 y Big5 tradicional. [20]

En Unicode 15.0, hay un conjunto de caracteres multilingües de 149.813 caracteres, entre los cuales 98.682, aproximadamente dos tercios, son chinos ordenados por radicales Kangxi . Incluso están disponibles caracteres muy poco utilizados. Los siguientes son algunos caracteres de ejemplo con su Unicode entre corchetes: H (0048) K (004B), 香 (9999), 港 (6E2F), 龍 (9F8D), 龙 (9F99), 龖 (9F96), 龘 (9F98), 𪚥 (2A6A5). [21]

Los 5009 caracteres del Conjunto de caracteres suplementarios de Hong Kong ( HKSCS ) [22] están incluidos en Unicode. El HKSCS fue desarrollado por el gobierno de Hong Kong como una colección de caracteres chinos específicos de cada zona que no estaban disponibles en los ordenadores en sus inicios, por ejemplo 咗 (ya), 嘢 (cosa), 脷 (lengua) y 曱甴 (cucaracha).

Como GB, Big5 y Unicode se utilizan simultáneamente en la codificación china, cuando el ordenador interpreta por error un texto con un estándar de codificación distinto de su código original, lo presentará con caracteres incorrectos, un fenómeno denominado "luànmǎ" (confusión de código), que a veces ocurre en la Web o en los correos electrónicos. Este problema suele solucionarse mediante la selección manual de la codificación o el conjunto de caracteres (como ocurre en los navegadores web) o mediante una conversión de código previa.

El código Unicode se está volviendo cada vez más popular. Se informa que el 98,1 % de todos los sitios web utilizan UTF-8 (Unicode). Se cree que Unicode reemplazará a todos los demás códigos de intercambio de información y códigos internos, y ya no habrá más confusión de códigos. [23]

Producción

Tipos de letra

Al igual que el inglés y otros idiomas, los caracteres chinos se imprimen en impresoras y pantallas en diferentes fuentes y estilos. Las fuentes chinas más populares son las familias Song (宋体), Kai (楷体), Hei (黑体) y Fangsong (仿宋体), [24] por ejemplo,

汉字字体[a] (Canción)汉字字体 (Kai)汉字字体 (Hei o Negro)Canción de Fang (汉字字体)

Tamaño de fuente

Las fuentes se presentan en distintos tamaños. Además del sistema de medición internacional de puntos , los caracteres chinos también se miden mediante números de tamaño (llamados zihao , 字号) inventados por un estadounidense para la impresión china en 1859. La Tabla 1 es una lista de todos los tamaños de fuente en números disponibles en la versión china de MS Word y sus puntos equivalentes. [25]

Tabla 1: Tamaños de fuentes chinas en números, puntos y mm

字号 (Número) 点数 (pt) 毫米 (mm) Ejemplo八号 (#8) 5 1.76 Chino [b]七号 (#7) 5.5 1.93 Chino小六号 (#small 6) 6.5 2.28 中文六号 (#6) 7.5 2.64 Chino小五号 (#small 5) 9 3.16 中文五号 (#5) 10.5 3.69 Chino小四号 (#small 4) 12 4.22 中文四号 (#4) 14 4.92 Chino小三号 (#small 3) 15 5.27 中文三号 (#3) 16 5.62 Chino小二号 (#small 2) 18 6.33 中文二号 (#2) 22 7.73 Chino小一号 (#small 1) 24 8.44 中文一号 (#1) 26 9.14 Chino小初号 (#primaria pequeña) 36 12,65 中文初号 (#primary) 42 14.76 中文

Esta tabla es particularmente útil para la composición tipográfica china en computadoras que no admiten tamaños de fuente en números. Por ejemplo, a partir de la tabla, sabemos que el tamaño chino número 3 (三号) es equivalente a 16 puntos, o 5,62 mm de alto, como lo muestran los caracteres de ejemplo.

La imagen de un carácter chino en una fuente particular se representa en la computadora mediante una matriz de puntos (llamadas fuentes de matriz de puntos o fuentes de mapa de bits ) o mediante contornos (llamadas fuentes de contorno ), nuevamente como el caso en inglés. [13]

Véase también

Notas

  1. ^ para configurar en la fuente de destino
  2. ^ para establecer el tamaño objetivo

Referencias

Citas

  1. ^ Instituto de Idiomas 2020.
  2. ^ "Estadísticas Unicode".
  3. ^ Fu 1999, págs. 5–232.
  4. ^ Su 2014, pág. 218.
  5. ^Ab Zhang 2016, pág. 421.
  6. ^ Comisión Nacional de Lengua de China 2001.
  7. ^ Li 2013, pág. 333.
  8. ^ Comisión Nacional de Idioma de China 1997.
  9. ^ https://www.unicode.org/charts/PDF/U31C0.pdf
  10. ^ Zhang 2003.
  11. ^ Zhang 2016, pág. 422.
  12. ^ Li 2013, págs. 333–334.
  13. ^ desde Blanco 2008.
  14. ^ abc Su 2014, pág. 225.
  15. ^ desde Su 2014, pág. 222.
  16. ^ Zhang 2012.
  17. ^ Su 2014, págs. 213–215.
  18. ^ Lunde, Ken (4 de agosto de 2022). "El estándar GB 18030-2022". Medio . Consultado el 7 de agosto de 2022 .
  19. ^ "[Mac chino] Conjuntos de caracteres". chinesemac.org . Consultado el 24 de noviembre de 2023 .
  20. ^ Consorcio Unicode 2023.
  21. ^ "Estadísticas Unicode".
  22. ^ "OGCIO: Conjunto de caracteres suplementarios de Hong Kong (HKSCS)".
  23. ^ "Estadísticas de uso y cuota de mercado de UTF-8 para sitios web, marzo de 2024".
  24. ^ Li 2013, pág. 62.
  25. ^ Zhang 2006.

Obras citadas