Esquema de codificación para los sistemas de escritura indios
El Código estándar indio para el intercambio de información ( ISCII ) es un esquema de codificación para representar varios sistemas de escritura de la India . Codifica las principales escrituras índicas y una transliteración romana. Las escrituras admitidas son: bengalí-asamés , devanagari , gujarati , gurmukhi , kannada , malabar , oriya , tamil y telugu . ISCII no codifica los sistemas de escritura de la India que se basan en el persa , pero sus códigos de cambio de sistema de escritura, no obstante, prevén el cachemiro , el sindhi , el urdu , el persa , el pastún y el árabe . Los sistemas de escritura basados en el persa se codificaron posteriormente en la codificación PASCII .
El sistema ISCII no se ha utilizado ampliamente fuera de ciertas instituciones gubernamentales, aunque se utilizó una variante sin el mecanismo ATR en el sistema operativo Mac OS Devanagari clásico [ 1] y ahora se ha vuelto prácticamente obsoleto gracias a Unicode . Unicode utiliza un bloque separado para cada sistema de escritura índico y conserva en gran medida el diseño ISCII dentro de cada bloque. [2] : 462
Fondo
Los sistemas de escritura derivados del brahmi tienen una estructura similar. [2] : 462 Por lo tanto, ISCII codifica letras con el mismo valor fonético en el mismo punto de código, superponiéndose a las distintas escrituras. Por ejemplo, los códigos ISCII 0xB3 0xDB representan [ki]. Esto se representará como കി en malabar , कि en devanagari, como ਕਿ en gurmukhi y como கி en tamil. El sistema de escritura se puede seleccionar en texto enriquecido mediante marcado o en texto simple mediante el código ATR que se describe a continuación.
Una de las motivaciones para el uso de una única codificación es la idea de que permitirá una fácil transliteración de un sistema de escritura a otro. [2] : 462 Sin embargo, existen suficientes incompatibilidades como para que esta no sea realmente una idea práctica.
ISCII es una codificación de 8 bits. [3] : 4 Los 128 puntos de código inferiores son ASCII simple , los 128 puntos de código superiores son específicos de ISCII. Además de los puntos de código que representan caracteres, ISCII hace uso de un punto de código con ATR mnemotécnico que indica que el siguiente byte contiene uno de dos tipos de información. Un conjunto de valores cambia el sistema de escritura hasta el siguiente indicador de sistema de escritura o fin de línea. Otro conjunto de valores selecciona modos de visualización como negrita y cursiva. ISCII no proporciona un medio para indicar el sistema de escritura predeterminado.
Disposición de la página de códigos
La siguiente tabla muestra el conjunto de caracteres del devanagari . Los conjuntos de códigos para asamés, bengalí, gujarati, gurmukhi, kannada, malabar, oriya, tamil y telugu son similares, y cada forma del devanagari se reemplaza por la forma equivalente en cada sistema de escritura [2] : 462 . Cada carácter se muestra con su código decimal y su equivalente Unicode .
Indefinido
Byte principal
Puntos de código especiales
- Carácter INV—punto de código D9 (217)
- El carácter INV (consonante invisible) se utiliza como pseudoconsonante para mostrar elementos combinados de forma aislada. Por ejemplo, क (ka) + ् (halant) + INV = क् (mitad de ka). El equivalente en Unicode es U+200D ZERO WIDTH JOINER ( ZWJ ). Sin embargo, como se indica a continuación, el carácter halant de ISCII se puede duplicar o combinar con el nukta de ISCII para lograr los efectos creados por ZWNJ o ZWJ en Unicode. Por este motivo, Apple asigna el carácter INV de ISCII a la marca de izquierda a derecha de Unicode , para garantizar el ida y vuelta . [1]
- Carácter ATR: punto de código EF (239)
- El carácter ATR (atributo) seguido de un código de byte se utiliza para cambiar a un atributo de fuente diferente (como negrita) o a un idioma ISCII o PASCII diferente (como bengalí), hasta la siguiente secuencia ATR o el final de la línea. Esto no tiene un equivalente Unicode directo, ya que los atributos de fuente no son parte de Unicode y cada escritura tiene un conjunto distinto de puntos de código.
- Carácter EXT: punto de código F0 (240)
- El carácter EXT (extensiones para el idioma védico) seguido de un código de byte indica un acento védico. No tiene un equivalente Unicode directo, ya que los acentos védicos se asignan a puntos de código distintos.
- Carácter de Halant ्—punto de código E8 (232)
- El carácter halant elimina la vocal implícita de una consonante y se usa entre consonantes para representar consonantes conjuntas. Por ejemplo, क (ka) + ् (halant) + त (ta) = क्त (kta). La secuencia ् (halant) + ् (halant) muestra una conjunción con un halant explícito, por ejemplo क (ka) + ् (halant) + ् (halant) + त (ta) = क्त. La secuencia ् (halant) + ़ (nukta) muestra una conjunción con medias consonantes, si están disponibles, por ejemplo क (ka) + ् (halant) + ़ (nukta) + त (ta) = क्त.
- Carácter Nukta ़—punto de código E9 (233)
- El carácter nukta que aparece después de otro carácter ISCII se utiliza para una serie de caracteres más raros que no existen en el conjunto ISCII principal. Por ejemplo, क (ka) + ़ (nukta) = क़ (qa). Estos caracteres tienen formas precompuestas en Unicode, como se muestra en la siguiente tabla.
Páginas de códigos para la conversión ISCII
Para convertir de Unicode (UTF-8) a una codificación ISCII / ANSI, se pueden utilizar las siguientes páginas de códigos:
- 57002: Devanagari (hindi, marathi, sánscrito, konkani)
- 57003: bengalí
- 57004: tamil
- 57005: Telugu
- 57006: Asamés
- 57007: Odia
- 57008: Canarés
- 57009: Malabar
- 57010: Gujarati
- 57011: Punjabi (Gurmukhi)
- 54654: gg
Puntos de código para todos los idiomas
Referencias
- ^ ab Apple (5 de abril de 2005) [5 de febrero de 1998]. "Mapa (versión externa) de la codificación Devanagari de Mac OS a Unicode 2.1 y posteriores". Consorcio Unicode .
- ^ abcd El estándar Unicode v15.0 Capítulo 12 (PDF) . El Consorcio Unicode . Consultado el 13 de agosto de 2024 .
- ^ abcde IS13194:1991 (Copia electrónica) (PDF) . Boletín de Normas de la India. 1999.
- ^
- Esta tabla se puede derivar de la correspondencia de las tablas 2 y 3 en el estándar ISCII aquí [3] y las tablas de códigos del estándar Unicode .
Enlaces externos
- Convertidores de/a ISCII a/desde varias fuentes
- Padma: extensión de Mozilla para transformar ISCII a Unicode Archivado el 1 de octubre de 2019 en Wayback Machine
- Padma: Transformador de ISCII a Unicode para telugu
- Script PHP para conversión de ISCII a Unicode y viceversa