DIN 91379

La norma DIN 91379 : "Caracteres y secuencias de caracteres definidos en Unicode para el procesamiento electrónico de nombres e intercambio de datos en Europa, con CD-ROM" ^[1] define un subconjunto normativo de caracteres latinos Unicode , secuencias de caracteres base y signos diacríticos , y caracteres especiales para su uso en nombres de personas, entidades jurídicas, productos, direcciones, etc. La norma define una correspondencia normativa de letras latinas con letras base AZ como una extensión de las recomendaciones de la OACI . ^[2]

En la parte informativa de la norma se define un conjunto de caracteres extendidos, que incluye letras griegas y cirílicas , así como otros caracteres especiales para nombres de entidades jurídicas y nombres de productos.

Idiomas y escrituras compatibles

El subconjunto admite todos los idiomas oficiales de los países de la Unión Europea , así como los idiomas oficiales de Islandia , Liechtenstein , Noruega , Suiza y también los idiomas de la minoría alemana .

Para dar soporte a otros idiomas que no utilizan el sistema de escritura latino, el conjunto de letras normativas contiene todas las combinaciones de letras latinas con signos diacríticos que son necesarias para la transliteración de nombres al sistema de escritura latino de acuerdo con las normas ISO pertinentes en el momento de la publicación. ^[a]

La norma admite los caracteres necesarios para la inscripción en los registros del estado civil. Según la Ley sobre la Convención del 13 de septiembre de 1973 relativa a la inscripción de apellidos y nombres en los registros del estado civil ^[3]^[4], la información en caracteres latinos debe reproducirse fielmente con todos los signos diacríticos y la información en otros caracteres debe reproducirse mediante transliteración, a ser posible de acuerdo con las normas ISO.

Este soporte no es completo; para los idiomas no europeos que utilizan el alfabeto latino, por ejemplo, el vietnamita , se admite, pero no, por ejemplo, el idioma oficial de Sudáfrica, el tshivenda (faltan ḓ, ḽ, ṋ, ṱ), el idioma nacional de Namibia, el khoekhoegowab ( faltan los sonidos de clic ) o el tongano (falta el fakauʻa ). Aunque los caracteres mencionados entre paréntesis aparecen en los nombres personales de los respectivos países, el estándar no menciona ninguna regla de transliteración o reglas de mapeo para escribir nombres en letras latinas básicas.

Además de los caracteres normativos, la norma define subconjuntos de caracteres extendidos que contienen letras griegas modernas para Grecia y Chipre , letras cirílicas para Bulgaria y caracteres especiales para nombres de productos y entidades jurídicas.

Las aplicaciones conformes pueden admitir caracteres adicionales; sin embargo, para acuerdos de interfaz o registros puede ser apropiado admitir solo un subconjunto final de caracteres y secuencias basados en este estándar. ^[5]

El texto de la norma predecesora, DIN SPEC 91379, ^[6] explicaciones y listas de caracteres y secuencias como archivos Excel y XML se pueden encontrar en Koordinierungsstelle für IT-Standards (KoSIT). ^[5] Esta referencia también contiene un archivo de esquema XML con patrones para comprobar la conformidad del texto con los subconjuntos definidos en esta norma. Las listas de caracteres y secuencias de DIN SPEC 91379 y DIN 91379 como archivos de texto sin formato están disponibles a través de GitHub en DIN 91379 Characters and Sequences . ^[7] La norma DIN contiene algunos caracteres y secuencias adicionales. ^[7]^[1]

Aplicación de la norma

El cumplimiento de esta norma será obligatorio para las autoridades y organizaciones alemanas en el intercambio de datos entre autoridades o con ciudadanos y empresas a partir del 1 de noviembre de 2024. ^[8]

La directriz de arquitectura para la TI federal alemana exige en la versión a partir de julio de 2022 el uso de la norma anterior DIN SPEC 91379. ^[9]

El texto continuo y las cartas históricas no están dentro del ámbito de aplicación de esta norma. ^[1]

Estructura de la norma

La norma DIN consta de una parte normativa ^[10] y una parte informativa ^[10] .

Los requisitos de la parte normativa son vinculantes para todos los sistemas compatibles. En la parte normativa se especifican las letras para el procesamiento de nombres con letras latinas básicas y signos diacríticos. Todos los sistemas compatibles deben admitir estas letras. Además, se define una correspondencia de las letras normativas con las letras latinas básicas AZ.

Un sistema compatible puede admitir letras adicionales además de las letras normativas.

Las recomendaciones de la parte informativa no son vinculantes para los sistemas compatibles. La parte informativa determina un subconjunto de letras UNICODE extendidas, por ejemplo, para entidades jurídicas, nombres de productos y para el intercambio de datos en la UE. Además, la parte informativa define los tipos de datos que se pueden utilizar para verificar los campos de datos.

Parte normativa

Cumplimiento

Para cumplir con esta norma se requiere:

Admitir todas las letras y secuencias normativas en todas las etapas de procesamiento,
utilizar la codificación UTF-8 en las interfaces, y
Normalizar los caracteres según la forma de normalización Unicode C ( NFC ). ^[1]

Cartas normativas

Todo sistema informático que cumpla con las normas debe ser capaz de procesar las cartas normativas en todos los campos de nombres, lo que incluye la recopilación, el almacenamiento, la transmisión, la visualización y la impresión.

A continuación se indican los grupos de caracteres normativos. Los caracteres correspondientes también se pueden encontrar en la norma DIN 91379 Caracteres y secuencias para el procesamiento a máquina. ^[7] Las siguientes tablas de caracteres se generaron a partir del archivo XML chars.xml del apéndice DIN.

Letras latinas (bll)

Estas letras deben estar respaldadas por una representación de nombres, especialmente nombres personales.

Letras no N1 (bnlreq)

Estos caracteres deben ser compatibles para representar nombres, especialmente nombres personales.

Letras no N2 (bnl)

Estos caracteres deben ser compatibles para representar nombres en un sentido más amplio, por ejemplo, nombres de lugares, nombres de calles, números de casas, nombres de entidades legales y nombres de productos. No son adecuados para nombres personales.

Letras no N3 (bnlopt)

Estas letras se incluyen para lograr compatibilidad con los caracteres latinos estándar de Unicode. Versión 1.1.1 . ^[11]

No son relevantes para nombres personales u otros nombres, solo para nombres de entidades jurídicas y nombres de productos.

Letras no N4 (bnlnot)

Estas letras en blanco no son adecuadas para representar nombres, pero deben procesarse.

La letra NO-BREAK SPACE es necesaria para evitar saltos de línea en nombres especiales que podrían cambiar el significado. Las otras letras se incluyen para compatibilidad con los caracteres latinos estándar de Unicode. Versión 1.1.1 . ^[11]

Letras obsoletas

Los documentos y registros existentes contienen letras obsoletas que ya no se utilizan. Estas letras deben estar respaldadas por sistemas informáticos compatibles. Al crear nuevas entradas, no se deben utilizar letras obsoletas.

Mapeo normativo de letras latinas a letras básicas (formulario de búsqueda)

A continuación se muestra una correspondencia normativa de todas las letras normativas con las letras latinas básicas A–Z. Esta correspondencia es necesaria, por ejemplo, para la zona legible por máquina de los pasaportes. Otra aplicación es la creación de formularios de búsqueda, de modo que se puedan encontrar los nombres incluso si están escritos de forma diferente o sin especificar los diacríticos.

La siguiente tabla se basa en la tabla 9 de la norma DIN 91379 y en el capítulo 6, tabla A de las especificaciones de la OACI para documentos de viaje legibles por máquina. ^[2] La tabla se creó con la información del archivo XML chars.xml del apéndice de la norma DIN 91379.

Las entradas que aparecen en la especificación ICAO y en la tabla 9 de DIN están marcadas con ICAO en la columna Mapping , las entradas adicionales en la tabla 9 de DIN están marcadas con EXT . En la columna Type , se especifica ID para las entradas que describen una asignación de identidad y MAP para otras asignaciones.

Informative part

Extended letters

Each conforming IT system should be able to handle the extended letters for all name fields. This includes the collection, storage, transmission, display, and printout.

Greek letters (gl)

For cross-border data exchange, every IT system should support Greek letters in name fields.

Cyrillic letters (cl)

For cross-border data exchange, every IT system should support Cyrillic letters in name fields for Bulgarian names.

Non-letters E1 (enl)

These letters should be supported for legal entity names and product names.

Technical data types (informative)

For information, technical data types are defined as subsets of the letters defined in the standard. These can be used for interface agreements, for technical checks or as a basis for creating your own data types. An implementation as an XML schema type is included in the din-91379-datatypes.xsd file attached to the standard. This implementation is also freely available under the CC BY-ND license as part of the XOEV library.^[12]

Added letters

Compared to DIN SPEC 91379, some additional letters have been included, only two of these letters are not deprecated.

Current state

Current results of the standardization process include the specification DIN SPEC 91379 in March 2019 and final DIN standard in August 2022. Efforts are being made to further develop it into a European CEN standard.^[5]

Open-source software supporting DIN 91379

Free Java library for creating and editing PDF supporting DIN 91379:
- OpenPDF^[13]^[14]
Free converter from XSL formatting objects to PDF
- Apache FOP ^[15]^[16]
Free Fonts for DIN 91379
- Arimo^[17]^[18]
- Noto Latin, Greek, Cyrillic,^[19] see also issue "Combining comma above right" at wrong position^[20]
- Sudo coding font^[21]

Related standards

Keyboard standard DIN 2137

The German keyboard layouts E1 and E2 standardized in the DIN 2137-1 standard enable the entry of all characters listed in DIN 91379 except Cyrillic letters without recourse to their Unicode value or their decimal code. Achieving this was one of the main reasons for revising these keyboard layouts compared to the previous version DIN 2137-1:2018-12.^[22]^[23]

Character naming and spelling standard DIN 5009

The version of DIN 5009:2022-06 "“Word and information processing for office applications — Announcing and dictating of text and characters”" published in May 2022 together with its supplement "Announcing, naming and keyboard input of special letters and characters" contains German-language names, Spelling rules and spelling announcement words for all characters listed in DIN 91379 (except some outdated characters and the Greek and Cyrillic letters). This ensures that the characters can be reproduced correctly in oral communication (e.g. on the telephone).

Notes

^ The ISO 233-3, newly published in 2023, changed the transliteration of the Arabic character ض from ż (z with dot above for Persian ) to z̤ (Z with combining diaresis below). The necessary character combinations <U+005A,U+0324> (Z̤) or <U+007A,U+0324> (z̤) are not listed in the 2022 version of DIN 91379.

References

^ a b c d "DIN 91379:2022-08: Characters and defined character sequences in Unicode for the electronic processing of names and data exchange in Europe, with CD-ROM" (in German). Beuth Verlag (now DIN Media GmbH). August 2022.
^ a b "Doc 9303, Machine Readable Travel Documents, Part 3 — Specifications Common to all MRTDs" (PDF). ICAO. Retrieved 2022-05-06.
^ "Gesetz zu dem Übereinkommen vom 13. September 1973 über die Angabe von Familiennamen und Vornamen in den Personenstandsbüchern" [Law on the Convention of September 13, 1973 on the recording of surnames and forenames in civil status registers] (PDF). Bundesgesetzblatt 1976 No. 48 (in German). Bundesanzeiger Verlag. 1976-09-03. Retrieved 2024-04-10.
^ "Convention (No.14) on the recording of surnames and forenames in civil status registers". www.ciec1.org. Berne: CIEC Commission Internationale de l'État Civil / ICCS International Commission on Civil Status. 1973-09-13. Retrieved 2024-05-01.
^ a b c Koordinierungsstelle für IT-Standards (KoSIT). "String.Latin+ 1.2: eine kommentierte und erweiterte Fassung der DIN SPEC 91379. Inklusive einer umfangreichen Liste häufig gestellter Fragen. Herausgegeben von der Fachgruppe String.Latin. (zip, 1.7 MB)" [String.Latin+ 1.2: Commented and extended version of DIN SPEC 91379.] (in German). Retrieved 2022-03-19.
^ "DIN SPEC 91379:2019-03: Characters in Unicode for the electronic processing of names and data exchange in Europe; with digital attachment" (in German). Beuth Verlag (now DIN Media GmbH). March 2019. Retrieved 2022-03-19.
^ a b c "DIN 91379 Characters and Sequences". 19 August 2022. Retrieved 2022-08-19 – via GitHub.
^ IT-Planungsrat (2022-11-10). "Beschluss 2022/51 – String.Latin" [Decision 2022/51 – String.Latin] (in German). Retrieved 2022-12-22.
^ Der Beauftragte der Bundesregierung für Informationstechnik. "Architekturrichtlinie für die IT des Bundes – Technische Spezifikationen zur Architekturrichtlinie –" [Architecture guideline for federal IT – Technical specifications for the architecture guideline –] (PDF) (in German). Retrieved 2022-10-08.
^ a b "Internal Regulations, Part 3: Principles and rules for the structure and drafting of CEN and CENELEC documents" (PDF). CEN-CENELEC. 2022. Retrieved 2023-05-13.
^ a b "Lateinische Zeichen in Unicode. Version 1.1.1" (PDF). Koordinierungsstelle für IT-Standards (KoSIT). 2012-01-27. Retrieved 2024-04-23.
^ "din-norm-91379-datatypes.xsd". XOEV-Bibliothek. Koordinierungsstelle für IT-Standards (KoSIT). 2022-10-14. Retrieved 2023-04-30.
^ "OpenPDF is an open source Java library for PDF files". March 19, 2022 – via GitHub.
^ "Accents, DIN 91379, non Latin scripts". May 10, 2022 – via GitHub.
^ "The Apache FOP Project". Feb 9, 2023.
^ "Mirror of Apache FOP". Feb 9, 2023 – via GitHub.
^ "Noto Arimo". GitHub.
^ "Arimo". Google Fonts.
^ "Noto Latin, Greek, Cyrillic". Feb 9, 2023 – via GitHub.
^ "Combining comma above right at wrong position · Issue #33 · notofonts/latin-greek-cyrillic". GitHub.
^ "Fuente de codificación Sudo". 30 de agosto de 2023.
^ DIN 2137-1:2023-08, sección “Vorwort”, subsección “Änderungen”, página 4
^ "DIN 2137-1:2023-08 | Tastaturen für die Daten- und Texteingabe - Teil 1: Deutsche Tastaturbelegung" [DIN 2137-1:2023-08 | Teclados para la entrada de datos y texto - Parte 1: Distribución del teclado alemán]. Beuth Verlag (ahora DIN Media GmbH). Agosto de 2023 . Consultado el 5 de julio de 2024 .(Texto completo sujeto a pago)

Enlaces externos

Tim Braatz. "Der neue Zeichensatz DIN SPEC 91379" [El nuevo conjunto de caracteres DIN SPEC 91379] (en alemán). revista pública . Consultado el 20 de marzo de 2022 .
"In 80 Tagen um die Welt: Unicode in der Verwaltung" [En 80 días en todo el mundo: Unicode en la administración] (en alemán). cit GmbH. 19 de noviembre de 2020 . Consultado el 20 de marzo de 2022 .
Lista de glifos de Adobe