stringtranslate.com

Medios y datos legibles por máquina

ISBN representado como código de barras EAN-13 que muestra barras legibles por máquinas y dígitos legibles por humanos

En comunicaciones e informática , un medio legible por máquina (o medio legible por computadora ) es un medio capaz de almacenar datos en un formato fácilmente legible por una computadora digital o un sensor . Contrasta con medios y datos legibles por humanos .

El resultado se denomina datos legibles por máquina o datos legibles por computadora , y los datos en sí pueden describirse como legibles por máquina .

Datos

Los datos legibles por máquina deben ser datos estructurados . [1]

Los intentos de crear datos legibles por máquinas se produjeron ya en la década de 1960. Al mismo tiempo que se lanzaban desarrollos fundamentales en lectura automática y procesamiento del lenguaje natural (como ELIZA de Weizenbaum ), la gente anticipaba el éxito de la funcionalidad legible por máquina e intentaba crear documentos legibles por máquina. Un ejemplo de ello fue la creación por parte de la musicóloga Nancy B. Reich de un catálogo legible por máquina de las obras del compositor William Jay Sydeman en 1966.

En los Estados Unidos, la Ley OPEN de Datos Gubernamentales del 14 de enero de 2019 define los datos legibles por máquina como "datos en un formato que una computadora puede procesar fácilmente sin intervención humana y al mismo tiempo garantiza que no se pierda ningún significado semántico". La ley ordena a las agencias federales de EE. UU. que publiquen datos públicos de tal manera [2] que garanticen que "cualquier activo de datos públicos de la agencia sea legible por máquina". [3]

Los datos legibles por máquina se pueden clasificar en dos grupos: datos legibles por humanos que están marcados para que también puedan ser leídos por máquinas (por ejemplo, microformatos , RDFa , HTML ) y formatos de archivos de datos destinados principalmente al procesamiento por máquinas ( CSV , RDF , XML , JSON ). Estos formatos sólo son legibles por máquina si los datos contenidos en ellos están estructurados formalmente; exportar un archivo CSV desde una hoja de cálculo mal estructurada no cumple con la definición.

Legible por máquina no es sinónimo de accesible digitalmente . Un documento accesible digitalmente puede estar en línea, lo que facilita el acceso a los humanos a través de computadoras, pero su contenido es mucho más difícil de extraer, transformar y procesar mediante la lógica de programación informática si no es legible por máquina. [4]

El lenguaje de marcado extensible (XML) está diseñado para ser legible tanto por humanos como por máquinas, y la transformación del lenguaje de hoja de estilo extensible (XSLT) se utiliza para mejorar la presentación de los datos para que sean legibles por humanos. Por ejemplo, XSLT se puede utilizar para representar automáticamente XML en formato de documento portátil ( PDF ). Los datos legibles por máquinas se pueden transformar automáticamente para que sean legibles por humanos pero, en términos generales, lo contrario no es cierto.

A los efectos de la implementación de la Ley de Modernización de la Ley de Desempeño y Resultados del Gobierno (GPRA), la Oficina de Gestión y Presupuesto (OMB) define el "formato legible por máquina" de la siguiente manera: "Formato en un lenguaje informático estándar (no texto en inglés) que puede ser leídos automáticamente por un navegador web o un sistema informático (p. ej., xml). Los documentos tradicionales de procesamiento de textos y los archivos en formato de documento portátil (PDF) son fácilmente leídos por los seres humanos, pero normalmente son difíciles de interpretar para las máquinas. Otros formatos, como el lenguaje de marcado extensible ( XML ), ( JSON ) u hojas de cálculo con columnas de encabezado que se pueden exportar como valores separados por comas (CSV) son formatos legibles por máquina. Como HTML es un lenguaje de marcado estructural, que etiqueta discretamente partes del documento, las computadoras pueden recopilar componentes del documento. para ensamblar tablas de contenidos, esquemas, bibliografías de búsqueda bibliográfica, etc. Es posible hacer que los documentos tradicionales de procesamiento de textos y otros formatos sean legibles por máquina, pero los documentos deben incluir elementos estructurales mejorados. [5]

Medios de comunicación

Ejemplos de medios legibles por máquinas incluyen medios magnéticos como discos , tarjetas, cintas y tambores magnéticos , tarjetas perforadas y cintas de papel , discos ópticos , códigos de barras y caracteres de tinta magnética .

Las tecnologías comunes legibles por máquinas incluyen grabación magnética, procesamiento de formas de onda y códigos de barras . El reconocimiento óptico de caracteres (OCR) se puede utilizar para permitir que las máquinas lean información disponible para los humanos. Cualquier información recuperable mediante cualquier forma de energía puede ser legible por máquina.

Ejemplos incluyen:

Aplicaciones

Documentos

Un documento legible por máquina es un documento cuyo contenido puede ser procesado fácilmente por computadoras . Dichos documentos se distinguen de los datos más generales legibles por máquina en virtud de que tienen una estructura adicional para proporcionar el contexto necesario para respaldar los procesos comerciales para los cuales se crean.

Catálogos

MARC (catalogación legible por máquina) es un conjunto estándar de formatos digitales para la descripción legible por máquina de elementos catalogados por bibliotecas, como libros, DVD y recursos digitales. Los catálogos de bibliotecas computarizados y el software de gestión de bibliotecas necesitan estructurar sus registros de catálogo según un estándar de toda la industria, que es MARC, para que la información bibliográfica pueda compartirse libremente entre computadoras. La estructura de los registros bibliográficos sigue casi universalmente el estándar MARC. Otros estándares funcionan en conjunto con MARC, por ejemplo, las Reglas de catalogación angloamericanas (AACR)/ Descripción y acceso a recursos (RDA) brindan pautas sobre la formulación de datos bibliográficos en la estructura de registros MARC, mientras que la Descripción bibliográfica estándar internacional (ISBD) proporciona pautas. para mostrar registros MARC en un formato estándar y legible por humanos.

Diccionarios

El diccionario legible por máquina (MRD) es un diccionario almacenado como datos legibles por máquina en lugar de imprimirse en papel. Es un diccionario electrónico y una base de datos léxica .

Un diccionario legible por máquina es un diccionario en formato electrónico que se puede cargar en una base de datos y consultar mediante un software de aplicación. Puede ser un diccionario explicativo de un solo idioma o un diccionario multilingüe para admitir traducciones entre dos o más idiomas o una combinación de ambos. Los software de traducción entre varios idiomas suelen utilizar diccionarios bidireccionales. Un MRD puede ser un diccionario con una estructura patentada que se consulta mediante software dedicado (por ejemplo, en línea a través de Internet) o puede ser un diccionario que tiene una estructura abierta y está disponible para cargarse en bases de datos informáticas y, por lo tanto, puede usarse a través de varios programas. aplicaciones. Los diccionarios convencionales contienen un lema con varias descripciones. Un diccionario legible por máquina puede tener capacidades adicionales y, por lo tanto, a veces se le denomina diccionario inteligente. Un ejemplo de diccionario inteligente es el diccionario de inglés Gellish de código abierto . El término diccionario también se utiliza para referirse a un vocabulario o léxico
electrónico como el utilizado por ejemplo en los correctores ortográficos . Si los diccionarios están organizados en una jerarquía de conceptos (o términos) de subtipo-supertipo, entonces se llama taxonomía . Si además contiene otras relaciones entre los conceptos, entonces se llama ontología . Los motores de búsqueda pueden utilizar un vocabulario, una taxonomía o una ontología para optimizar los resultados de la búsqueda. Los diccionarios electrónicos especializados son diccionarios morfológicos o diccionarios sintácticos.

El término MRD a menudo se contrasta con el diccionario de PNL , en el sentido de que un MRD es la forma electrónica de un diccionario que antes se imponía en papel. Aunque ambos son utilizados por programas, por el contrario, se prefiere el término diccionario de PNL cuando el diccionario se creó desde cero teniendo en cuenta la PNL. Un estándar ISO para MRD y PNL es capaz de representar ambas estructuras y se llama Lexical Markup Framework . [6]

Pasaportes

Un pasaporte legible por máquina (MRP) es un documento de viaje legible por máquina (MRTD) con los datos de la página de identidad codificados en formato de reconocimiento óptico de caracteres . Muchos países comenzaron a emitir documentos de viaje legibles por máquina en la década de 1980. La mayoría de los pasaportes de viaje en todo el mundo son MRP. La Organización de Aviación Civil Internacional (OACI) exige que todos los estados miembros de la OACI emitan MRP únicamente a partir del 1 de abril de 2010, y todos los pasaportes que no sean MRP deben expirar antes del 24 de noviembre de 2015. [7]

Los pasaportes legibles por máquina están estandarizados por el Documento 9303 de la OACI (respaldado por la Organización Internacional de Normalización y la Comisión Electrotécnica Internacional como ISO/IEC 7501-1) y tienen una zona especial de lectura mecánica ( MRZ ), que suele estar en la parte inferior. de la página de identidad al comienzo de un pasaporte. La ICAO 9303 describe tres tipos de documentos correspondientes a los tamaños ISO/IEC 7810 :

  • El "tipo 3" es típico de las libretas de pasaporte. La ZLM consta de 2 líneas × 44 caracteres.
  • El "tipo 2" es relativamente raro y tiene 2 líneas × 36 caracteres.
  • El "Tipo 1" tiene el tamaño de una tarjeta de crédito y tiene 3 líneas × 30 caracteres.

El formato fijo permite especificar el tipo de documento, nombre, número de documento, nacionalidad, fecha de nacimiento, sexo y fecha de vencimiento del documento. Todos estos campos son obligatorios en un pasaporte. Hay espacio para información complementaria opcional, a menudo dependiente del país. También hay dos tamaños de visas legibles por máquina definidas de manera similar.

Las computadoras con una cámara y el software adecuado pueden leer directamente la información de los pasaportes legibles por máquina. Esto permite un procesamiento más rápido de los pasajeros que llegan por parte de los funcionarios de inmigración y una mayor precisión que los pasaportes leídos manualmente, así como una entrada de datos más rápida, más datos para leer y una mejor comparación de datos con bases de datos y listas de vigilancia de inmigración.

Además de la información legible ópticamente, muchos pasaportes contienen un chip RFID que permite a los ordenadores leer una mayor cantidad de información, por ejemplo una fotografía del portador. Estos pasaportes se denominan pasaportes biométricos y también están descritos en la norma OACI 9303.

Ver también

Referencias

  1. ^ "Legible por máquina". opendatahandbook.org . Consultado el 22 de julio de 2019 .
  2. ^ "HR4174". stratml.us .
  3. ^ "HR4174". stratml.us .
  4. ^ Hendler, Jim; Pardo, Teresa A. (24 de septiembre de 2012). "Introducción a la legibilidad automática de datos y documentos en línea". Datos.gov . Consultado el 27 de febrero de 2015 .
  5. ^ Circular OMB A-11, Parte 6 Archivado el 22 de abril de 2020 en Wayback Machine , Preparación, presentación y ejecución del presupuesto
  6. ^ Gil Francopoulo (editado por) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9
  7. ^ "Última semana para que los estados garanticen la caducidad de los pasaportes no legibles por máquina". OACI . Montreal. 17 de noviembre de 2015 . Consultado el 11 de marzo de 2024 .

Dominio publico Este artículo incorpora material de dominio público de la Norma Federal 1037C. Administración de Servicios Generales . Archivado desde el original el 22 de enero de 2022.