ISO 639

La ISO 639 es una norma de la Organización Internacional de Normalización (ISO) que se ocupa de la representación de idiomas y grupos de idiomas . Actualmente consta de cuatro conjuntos (1-3, 5) de códigos, que reciben el nombre de cada parte que anteriormente describía el conjunto respectivo (la parte 4 eran directrices sin su propio sistema de codificación); se publicó una parte 6 pero se retiró. Se aprobó por primera vez en 1967 como una Recomendación ISO de una sola parte , ISO/R 639 , ^[1] reemplazada en 2002 por la parte 1 de la nueva serie, ISO 639-1 , ^[2] seguida de partes adicionales. Todas las partes existentes de la serie se consolidaron en una única norma en 2023, ^[3] basada en gran medida en el texto de la ISO 639-4.

Uso de códigos ISO 639

Los códigos de idioma definidos en las distintas secciones de la norma ISO 639 se utilizan con fines bibliográficos y, en entornos informáticos y de Internet, como un elemento clave de los datos locales . Los códigos también se utilizan en diversas aplicaciones, como las URL de Wikipedia para sus ediciones en diferentes idiomas.

Historia

La primera forma del sistema de codificación de idiomas de la ISO se manifestó en la norma ISO/R 639:1967 titulada Símbolos para idiomas, países y autoridades , cuyo objetivo principal era regular los vocabularios que significaban idiomas, países y agencias de normalización de los organismos miembros de la ISO. Sus "símbolos de idiomas" consistían en identificadores de longitud variable de una o dos letras en alfabetos latinos en mayúsculas, por ejemplo , Eo Enpara inglés; S, Spo Espara español; y para indonesio. También se permitió el uso de auxiliares numerales de UDCIn (la versión anterior a 1993) para indicar idiomas.

Después de desacoplar el código de país en la norma ISO 3166 en 1974, se publicó la primera edición del Código estándar ISO 639:1988 para la representación de nombres de idiomas, con un marco de identificadores uniformes de dos letras en alfabetos latinos minúsculas, en su mayoría idénticos en formato y vocabulario a los del actual Conjunto 1 de la norma ISO 639.

Desde entonces, la norma se ha adoptado como una tecnología fundamental de la industria informática en rápida expansión (RFC 1766), lo que ha llevado al desarrollo de un marco de tres letras más expresivo, publicado como ISO 639-2:1998, basado en gran medida en códigos MARC para idiomas. El sistema original de dos letras se redefinió como ISO 639-1 en 2001.

En la búsqueda de un soporte más amplio de idiomas para ampliar las aplicaciones, se establecieron superconjuntos separados del espacio de nombres ISO 639-2 que cubren idiomas y grupos individuales, como ISO 639-3 e ISO 639-5, respectivamente. También hubo un intento de codificar variantes de idiomas más precisas utilizando identificadores de cuatro letras, como ISO 639-6, que luego se retiró y se reorganizó bajo otro marco, ISO 21636.

Las actualizaciones relativamente constantes de partes de la norma ISO 639 habían sido manejadas por cada autoridad a cargo hasta la publicación de la norma ISO 639:2023, que armonizó y reunificó el cuerpo del texto de las normas anteriores y generó un cambio organizacional con una agencia de mantenimiento conjunta que supervisaba todos los conjuntos y emitía boletines informativos[1].

Conjuntos actuales y partes históricas de la norma

Cada conjunto de normas es actualizado por una agencia de mantenimiento, que agrega códigos y cambia el estado de los códigos cuando es necesario. La norma ISO 639-6 fue retirada en 2014 ^[8] y no se incluyó en la norma ISO 639:2023.

Características de los códigos individuales

Alcances:

Idiomas individuales
Macrolenguajes (Conjunto 3)
Colecciones de idiomas (conjuntos 1, 2, 5). Algunas colecciones ya estaban en el conjunto 2 y otras se agregaron solo en el conjunto 5:
- Grupos restantes: 36 colecciones tanto en el Conjunto 2 como en el Conjunto 5 son de este tipo; para compatibilidad con el Conjunto 2 cuando el Conjunto 5 aún no se había publicado, los grupos restantes no contienen ningún idioma ni colección que ya estuviera codificado en el Conjunto 2 (sin embargo, las nuevas aplicaciones compatibles con el Conjunto 5 pueden tratar estos grupos de manera inclusiva, siempre que respeten la jerarquía de contención publicada en el Conjunto 5 y utilicen la colección más específica al agrupar los idiomas);
  - La única colección a la que anteriormente se le había asignado un código de dos letras era Bihari (bh) durante la era de la Parte 1, que quedó obsoleta en junio de 2021. ^[9]
- Grupos regulares: 29 colecciones en los Conjuntos 2 y 5 son de este tipo; para compatibilidad con el Conjunto 2, no pueden contener otros grupos;
- Familias: 50 nuevas colecciones codificadas solo en el Conjunto 5 (incluida una que contiene un grupo regular ya codificado en el Conjunto 2); para compatibilidad con el Conjunto 2, pueden contener otras colecciones excepto grupos restantes.
Dialectos : estaban previstos para ser cubiertos por la antigua norma ISO 639-6 (propuesta pero ahora retirada).
Situaciones especiales (conjuntos 2, 3).
Reservado para uso local (conjuntos 2 y 3). También se utiliza a veces en aplicaciones que necesitan un código de dos letras, como los códigos estándar de los conjuntos 1 y 2 (donde el código especial misno es adecuado), o un código de tres letras para colecciones, como los códigos estándar del conjunto 5.

Tipos (para idiomas individuales): ^{[ necesita actualización ]}

Lenguas vivas (conjuntos 2, 3) (excepto el sánscrito, todas las demás macrolenguas son lenguas vivas) ^[10]
Lenguas extintas (conjuntos 2, 3) (599, ^[11] 5 de ellas están en el conjunto 2: chb, chg, cop, lui, sam; ninguna está en el conjunto 1)
Lenguas antiguas (Conjuntos 1, 2, 3) (124, ^[12] 19 de ellas están en el Conjunto 2; y 5 de ellas, a saber ave, , chu, lat, pliy san, también tienen un código en el Conjunto 1: ae, cu, la, pi, sa)
Lenguas históricas (conjuntos 2, 3) (89, ^[13] 16 de ellas están en el conjunto 2; ninguna está en el conjunto 1)
Lenguas construidas (Conjuntos 1, 2, 3) (23, ^[14] 9 de ellas en el Conjunto 2: afh, epo, ido, ile, ina, jbo, tlh, vol, zbl; 5 de ellas en el Conjunto 1: eo, ia, ie, io, vo)

Idiomas individuales y macroidiomas con dos códigos distintos de tres letras en el Conjunto 2:

Bibliográfico (algunos de ellos quedaron obsoletos, ninguno fue definido en el Conjunto 3): estos son códigos heredados (basados en nombres de idiomas en inglés).
Terminológico (también definido en el Conjunto 3): estos son los códigos preferidos (basados en los nombres de los idiomas nativos, romanizados si es necesario).
Todos los demás (incluidas colecciones de idiomas y códigos especiales/reservados) solo tienen un único código de tres letras para ambos usos.

Relaciones entre los conjuntos

Los diferentes conjuntos de la norma ISO 639 están diseñados para funcionar juntos, de modo que ningún código signifique una cosa en un conjunto y otra en otro. Sin embargo, no todos los idiomas están en todos los conjuntos, y hay una variedad de formas diferentes en que se tratan idiomas específicos y otros elementos en los diferentes conjuntos. Esto depende, por ejemplo, de si un idioma está incluido en los conjuntos 1 o 2, de si tiene códigos B/T separados en el conjunto 2, o si está clasificado como un macroidioma en el conjunto 3, etc.

Estos diversos tratamientos se detallan en el siguiente cuadro. En cada grupo de filas (una para cada ámbito del Conjunto 3), las últimas cuatro columnas contienen códigos para un idioma representativo que ejemplifica un tipo específico de relación entre los conjuntos de ISO 639, la segunda columna proporciona una explicación de la relación y la primera columna indica el número de elementos que tienen ese tipo de relación. Por ejemplo, hay cuatro elementos que tienen un código en el Conjunto 1, tienen un código B/T y están clasificados como macroidiomas en el Conjunto 3. Un representante de estos cuatro elementos es "Persa" fa/ per/ fas.

Estas diferencias se deben a los siguientes factores.

En el Conjunto 2 de la norma ISO 639 , se asignaron dos códigos distintos a 22 idiomas individuales, a saber, un código bibliográfico y un código terminológico (códigos B/T). ^[15] Los códigos B se incluyeron por razones históricas porque los sistemas bibliográficos ampliamente utilizados anteriormente utilizaban códigos de idioma basados en el nombre en inglés del idioma. Por el contrario, los códigos del Conjunto 1 se basaban en el nombre nativo del idioma, y también había un fuerte deseo de tener códigos del Conjunto 2 (códigos T) para estos idiomas que fueran similares al código de 2 caracteres correspondiente en el Conjunto 1.

Por ejemplo, el idioma alemán (Conjunto 1: de) tiene dos códigos en el Conjunto 2: ger(código B) y deu(código T), mientras que solo hay un código en el Conjunto 2, eng, para el idioma inglés .
Se retiraron 2 códigos B anteriores, quedando hoy sólo 20 pares de códigos B/T.

Los idiomas individuales del Conjunto 2 siempre tienen un código en el Conjunto 3 (allí solo se reutiliza el código terminológico del Conjunto 2), pero pueden o no tener un código en el Conjunto 1, como lo ilustran los siguientes ejemplos:

El conjunto 3 engcorresponde al conjunto 2 engy al conjunto 1en
El conjunto 3 astcorresponde al conjunto 2 astpero carece de un código en el conjunto 1.

Algunos códigos (62) del Conjunto 3 son macrolenguajes. Se trata de grupos que contienen múltiples idiomas individuales que tienen un buen entendimiento mutuo y que suelen mezclarse o confundirse. Algunos macrolenguajes desarrollaron una forma estándar predeterminada en uno de sus idiomas individuales (por ejemplo, el mandarín está implícito por defecto para el macrolenguaje chino, otros idiomas individuales pueden distinguirse de ser necesario, pero el código específico cmnpara el mandarín rara vez se utiliza).

1 macrolenguaje tiene un código del Conjunto 2 y un código del Conjunto 1, mientras que sus idiomas miembros individuales también tienen códigos en el Conjunto 1 y el Conjunto 2: nor/ nocontiene non/ nn, nob/ nb; o
4 macrolenguajes tienen dos códigos del Conjunto 2 (B/T) y un código del Conjunto 1: per/ fas/ fa, may/ msa/ ms, alb/ sqi/ sqy chi/ zho/ zh;
28 macrolenguajes tienen un código del Conjunto 2 pero ningún código del Conjunto 1;
Otros 29 macrolenguajes solo tienen códigos en el conjunto 3.

Los códigos colectivos del Conjunto 2 tienen un código en el Conjunto 5: por ejemplo, ausen los Conjuntos 2 y 5, que representa los idiomas australianos .

Se agregaron algunos códigos en el Conjunto 5 pero no tenían código en el Conjunto 2: por ejemplosqj

Los conjuntos 2 y 3 también tienen un rango reservado y cuatro códigos especiales:

Los códigos qaaa través qtzestán reservados para uso local.
Hay cuatro códigos especiales: mispara idiomas que aún no tienen código asignado, mulpara "múltiples idiomas", undpara "indefinido" y zxxpara "sin contenido lingüístico, no aplicable".

Espacio de código

Espacio de código de dos letras

En el Conjunto 1 se utilizan identificadores de dos letras (anteriormente denominados "Alpha-2") (para códigos compuestos por dos letras del alfabeto latino básico ISO ) . Cuando se deseaban códigos para una gama más amplia de idiomas, que pudieran abarcar más de dos combinaciones de letras (un máximo de 26 ² = 676), se desarrolló el Conjunto 2 utilizando códigos de tres letras. (Sin embargo, este último se publicó formalmente primero. ^[16]^[17] )

Espacio de código de tres letras

Los identificadores de tres letras (anteriormente "Alpha-3") (para códigos compuestos por 3 letras del alfabeto latino básico ISO ) se utilizan en el Conjunto 2 , el Conjunto 3 y el Conjunto 5. El número de idiomas y grupos de idiomas que se pueden representar de esta manera es 26 ³ = 17.576.

El uso común de códigos de tres letras por tres conjuntos de ISO 639 requiere cierta coordinación dentro de un sistema más amplio.

El conjunto 2 define cuatro códigos especiales mis, mul, und, zxx, un rango reservado qaa-qtz(20 × 26 = 520 códigos) y tiene 20 entradas dobles (los códigos B/T), más 2 entradas con códigos B obsoletos. Esto suma 520 + 22 + 4 = 546 códigos que no se pueden usar en el conjunto 3 para representar idiomas ni en el conjunto 5 para representar familias o grupos de idiomas. El resto es 17 576 – 546 = 17 030.

Hoy en día existen en la Tierra entre seis y siete mil idiomas. ^[18] Por lo tanto, esos 17.030 códigos son suficientes para asignar un código único a cada idioma, aunque algunos idiomas pueden terminar con códigos arbitrarios que no suenan como el nombre o los nombres tradicionales de ese idioma.

Espacio de código alfa-4 (retirado)

Los códigos "Alpha-4" (para códigos compuestos por 4 letras del alfabeto latino básico ISO ) fueron propuestos para su uso en la norma ISO 639-6 , que ha sido retirada. El límite superior para el número de idiomas y dialectos que se pueden representar es 26 ⁴ = 456.976.

Véase también

Etiquetas de idioma IETF (basadas en ISO 639)
ISO 3166 (códigos para países)
ISO 15924 (códigos para sistemas de escritura )
Códigos para lenguajes construidos
Código de idioma
Familias lingüísticas y lenguas
Lista de idiomas
Lista de idiomas oficiales
Listas de códigos ISO 639

Notas y referencias

^ "ISO/R 639:1967". Organización Internacional de Normalización. 1 de marzo de 1988. Consultado el 5 de agosto de 2012 .
^ "ISO 639:1988". Organización Internacional de Normalización . Consultado el 5 de agosto de 2012 .
^ "ISO 639:2023". Organización Internacional de Normalización . Consultado el 15 de noviembre de 2023 .
^ "Códigos ordenados alfabéticamente por código alfa-3/ISO 639-2". Biblioteca del Congreso. 25 de julio de 2013. Consultado el 10 de enero de 2019 .
^ "Códigos ISO-639-2". Biblioteca del Congreso . Consultado el 10 de enero de 2019 .
^ "Conjunto de códigos ISO 639-3 (UTF-8)". SIL International . Consultado el 12 de julio de 2023 .
^ "Códigos ISO 639-5 ordenados por identificador". Oficina de Desarrollo de Redes y Normas MARC . Biblioteca del Congreso . Consultado el 12 de diciembre de 2018 .
^ ISO 639-6:2009, ISO .
^ de SIL International (14 de junio de 2021). «Cambio del código de idioma de la Parte 1». ISO 639-3 .
^ "Tablas de códigos ISO 639: macrolenguajes". Sil.org . Consultado el 5 de agosto de 2012 .
^ "Tablas de códigos ISO 639: extintas". Sil.org . Consultado el 5 de agosto de 2012 .
^ "Tablas de códigos ISO 639: antiguas". Sil.org . Consultado el 10 de enero de 2019 .
^ "Tablas de códigos ISO 639: histórico". Sil.org . Consultado el 5 de agosto de 2012 .
^ "Tablas de códigos ISO 639: construcción". Sil.org . Consultado el 7 de febrero de 2022 .
^ "ISO 639-2 – Preguntas frecuentes". Biblioteca del Congreso. 2014-05-05 . Consultado el 2014-12-12 .
^ "Códigos para la representación de nombres de idiomas - Parte 2: Código Alfa-3". Organización Internacional de Normalización . ISO . Consultado el 10 de enero de 2019 . Fecha de publicación : 1998-10
^ "Códigos para la representación de nombres de idiomas - Parte 1: Código Alpha-2". Organización Internacional de Normalización . ISO . Consultado el 15 de febrero de 2018 . Fecha de publicación : 2002-07
^ "Resúmenes estadísticos". Ethnologue . Consultado el 5 de agosto de 2012 .

Enlaces externos

Término oficial de información ISO 639-1/RA (autoridad de registro)
Norma oficial ISO 639-2/RA (autoridad de registro) Biblioteca del Congreso
ISO 639-3/RA oficial (autoridad de registro) SIL International
Norma oficial ISO 693-5/RA (autoridad de registro) Biblioteca del Congreso
Repositorio de datos de configuración regional común que contiene traducciones de códigos ISO 639 en otros idiomas en formato XML. La herramienta de encuesta CLDR también contiene un formato más legible de los datos.