La norma DIN 91379 : "Caracteres y secuencias de caracteres definidos en Unicode para el procesamiento electrónico de nombres e intercambio de datos en Europa, con CD-ROM" [1] define un subconjunto normativo de caracteres latinos Unicode , secuencias de caracteres base y signos diacríticos , y caracteres especiales para su uso en nombres de personas, entidades jurídicas, productos, direcciones, etc. La norma define una correspondencia normativa de letras latinas con letras base AZ como una extensión de las recomendaciones de la OACI . [2]
En la parte informativa de la norma se define un conjunto de caracteres extendidos, que incluye letras griegas y cirílicas , así como otros caracteres especiales para nombres de entidades jurídicas y nombres de productos.
El subconjunto admite todos los idiomas oficiales de los países de la Unión Europea , así como los idiomas oficiales de Islandia , Liechtenstein , Noruega , Suiza y también los idiomas de la minoría alemana .
Para dar soporte a otros idiomas que no utilizan el sistema de escritura latino, el conjunto de letras normativas contiene todas las combinaciones de letras latinas con signos diacríticos que son necesarias para la transliteración de nombres al sistema de escritura latino de acuerdo con las normas ISO pertinentes en el momento de la publicación. [a]
La norma admite los caracteres necesarios para la inscripción en los registros del estado civil. Según la Ley sobre la Convención del 13 de septiembre de 1973 relativa a la inscripción de apellidos y nombres en los registros del estado civil [3] [4], la información en caracteres latinos debe reproducirse fielmente con todos los signos diacríticos y la información en otros caracteres debe reproducirse mediante transliteración, a ser posible de acuerdo con las normas ISO.
Este soporte no es completo; para los idiomas no europeos que utilizan el alfabeto latino, por ejemplo, el vietnamita , se admite, pero no, por ejemplo, el idioma oficial de Sudáfrica, el tshivenda (faltan ḓ, ḽ, ṋ, ṱ), el idioma nacional de Namibia, el khoekhoegowab ( faltan los sonidos de clic ) o el tongano (falta el fakauʻa ). Aunque los caracteres mencionados entre paréntesis aparecen en los nombres personales de los respectivos países, el estándar no menciona ninguna regla de transliteración o reglas de mapeo para escribir nombres en letras latinas básicas.
Además de los caracteres normativos, la norma define subconjuntos de caracteres extendidos que contienen letras griegas modernas para Grecia y Chipre , letras cirílicas para Bulgaria y caracteres especiales para nombres de productos y entidades jurídicas.
Las aplicaciones conformes pueden admitir caracteres adicionales; sin embargo, para acuerdos de interfaz o registros puede ser apropiado admitir solo un subconjunto final de caracteres y secuencias basados en este estándar. [5]
El texto de la norma predecesora, DIN SPEC 91379, [6] explicaciones y listas de caracteres y secuencias como archivos Excel y XML se pueden encontrar en Koordinierungsstelle für IT-Standards (KoSIT). [5] Esta referencia también contiene un archivo de esquema XML con patrones para comprobar la conformidad del texto con los subconjuntos definidos en esta norma. Las listas de caracteres y secuencias de DIN SPEC 91379 y DIN 91379 como archivos de texto sin formato están disponibles a través de GitHub en DIN 91379 Characters and Sequences . [7] La norma DIN contiene algunos caracteres y secuencias adicionales. [7] [1]
El cumplimiento de esta norma será obligatorio para las autoridades y organizaciones alemanas en el intercambio de datos entre autoridades o con ciudadanos y empresas a partir del 1 de noviembre de 2024. [8]
La directriz de arquitectura para la TI federal alemana exige en la versión a partir de julio de 2022 el uso de la norma anterior DIN SPEC 91379. [9]
El texto continuo y las cartas históricas no están dentro del ámbito de aplicación de esta norma. [1]
La norma DIN consta de una parte normativa [10] y una parte informativa [10] .
Los requisitos de la parte normativa son vinculantes para todos los sistemas compatibles. En la parte normativa se especifican las letras para el procesamiento de nombres con letras latinas básicas y signos diacríticos. Todos los sistemas compatibles deben admitir estas letras. Además, se define una correspondencia de las letras normativas con las letras latinas básicas AZ.
Un sistema compatible puede admitir letras adicionales además de las letras normativas.
Las recomendaciones de la parte informativa no son vinculantes para los sistemas compatibles. La parte informativa determina un subconjunto de letras UNICODE extendidas, por ejemplo, para entidades jurídicas, nombres de productos y para el intercambio de datos en la UE. Además, la parte informativa define los tipos de datos que se pueden utilizar para verificar los campos de datos.
Para cumplir con esta norma se requiere:
Todo sistema informático que cumpla con las normas debe ser capaz de procesar las cartas normativas en todos los campos de nombres, lo que incluye la recopilación, el almacenamiento, la transmisión, la visualización y la impresión.
A continuación se indican los grupos de caracteres normativos. Los caracteres correspondientes también se pueden encontrar en la norma DIN 91379 Caracteres y secuencias para el procesamiento a máquina. [7] Las siguientes tablas de caracteres se generaron a partir del archivo XML chars.xml del apéndice DIN.
Estas letras deben estar respaldadas por una representación de nombres, especialmente nombres personales.
Estos caracteres deben ser compatibles para representar nombres, especialmente nombres personales.
Estos caracteres deben ser compatibles para representar nombres en un sentido más amplio, por ejemplo, nombres de lugares, nombres de calles, números de casas, nombres de entidades legales y nombres de productos. No son adecuados para nombres personales.
Estas letras se incluyen para lograr compatibilidad con los caracteres latinos estándar de Unicode. Versión 1.1.1 . [11]
No son relevantes para nombres personales u otros nombres, solo para nombres de entidades jurídicas y nombres de productos.
Estas letras en blanco no son adecuadas para representar nombres, pero deben procesarse.
La letra NO-BREAK SPACE es necesaria para evitar saltos de línea en nombres especiales que podrían cambiar el significado. Las otras letras se incluyen para compatibilidad con los caracteres latinos estándar de Unicode. Versión 1.1.1 . [11]
Los documentos y registros existentes contienen letras obsoletas que ya no se utilizan. Estas letras deben estar respaldadas por sistemas informáticos compatibles. Al crear nuevas entradas, no se deben utilizar letras obsoletas.
A continuación se muestra una correspondencia normativa de todas las letras normativas con las letras latinas básicas A–Z. Esta correspondencia es necesaria, por ejemplo, para la zona legible por máquina de los pasaportes. Otra aplicación es la creación de formularios de búsqueda, de modo que se puedan encontrar los nombres incluso si están escritos de forma diferente o sin especificar los diacríticos.
La siguiente tabla se basa en la tabla 9 de la norma DIN 91379 y en el capítulo 6, tabla A de las especificaciones de la OACI para documentos de viaje legibles por máquina. [2] La tabla se creó con la información del archivo XML chars.xml del apéndice de la norma DIN 91379.
Las entradas que aparecen en la especificación ICAO y en la tabla 9 de DIN están marcadas con ICAO en la columna Mapping , las entradas adicionales en la tabla 9 de DIN están marcadas con EXT . En la columna Type , se especifica ID para las entradas que describen una asignación de identidad y MAP para otras asignaciones.
Each conforming IT system should be able to handle the extended letters for all name fields. This includes the collection, storage, transmission, display, and printout.
For cross-border data exchange, every IT system should support Greek letters in name fields.
For cross-border data exchange, every IT system should support Cyrillic letters in name fields for Bulgarian names.
These letters should be supported for legal entity names and product names.
For information, technical data types are defined as subsets of the letters defined in the standard. These can be used for interface agreements, for technical checks or as a basis for creating your own data types. An implementation as an XML schema type is included in the din-91379-datatypes.xsd file attached to the standard. This implementation is also freely available under the CC BY-ND license as part of the XOEV library.[12]
Compared to DIN SPEC 91379, some additional letters have been included, only two of these letters are not deprecated.
Current results of the standardization process include the specification DIN SPEC 91379 in March 2019 and final DIN standard in August 2022. Efforts are being made to further develop it into a European CEN standard.[5]
The German keyboard layouts E1 and E2 standardized in the DIN 2137-1 standard enable the entry of all characters listed in DIN 91379 except Cyrillic letters without recourse to their Unicode value or their decimal code. Achieving this was one of the main reasons for revising these keyboard layouts compared to the previous version DIN 2137-1:2018-12.[22][23]
The version of DIN 5009:2022-06 "“Word and information processing for office applications — Announcing and dictating of text and characters”" published in May 2022 together with its supplement "Announcing, naming and keyboard input of special letters and characters" contains German-language names, Spelling rules and spelling announcement words for all characters listed in DIN 91379 (except some outdated characters and the Greek and Cyrillic letters). This ensures that the characters can be reproduced correctly in oral communication (e.g. on the telephone).