Los metadatos (o metainformación ) son « datos que proporcionan información sobre otros datos», [1] pero no el contenido de los datos en sí, como el texto de un mensaje o la imagen en sí. [2] Existen muchos tipos distintos de metadatos, entre ellos:
Los metadatos no están estrictamente ligados a una de estas categorías, ya que pueden describir un dato de muchas otras maneras.
Los metadatos tienen varios propósitos. Pueden ayudar a los usuarios a encontrar información relevante y descubrir recursos . También pueden ayudar a organizar recursos electrónicos, proporcionar identificación digital y archivar y preservar recursos. Los metadatos permiten a los usuarios acceder a los recursos al "permitir que los recursos se encuentren mediante criterios relevantes, identificar recursos, reunir recursos similares, distinguir recursos diferentes y brindar información de ubicación". [8] Varias organizaciones gubernamentales nacionales recopilan ampliamente metadatos de actividades de telecomunicaciones , incluido el tráfico de Internet . Estos datos se utilizan para fines de análisis de tráfico y pueden usarse para vigilancia masiva . [9]
Los metadatos se utilizaron tradicionalmente en los catálogos de tarjetas de las bibliotecas hasta la década de 1980, cuando las bibliotecas convirtieron los datos de sus catálogos en bases de datos digitales . [10] En la década de 2000, a medida que los datos y la información se almacenaban cada vez más digitalmente, estos datos digitales se describieron utilizando estándares de metadatos . [11]
La primera descripción de "metadatos" para sistemas informáticos fue supuestamente anotada por los expertos del Centro de Estudios Internacionales del MIT David Griffel y Stuart McIntosh en 1967: "En resumen, tenemos enunciados en un lenguaje de objetos sobre descripciones de datos y códigos de token para los datos. También tenemos enunciados en un metalenguaje que describen las relaciones y transformaciones de los datos, y las relaciones de tipo "debería"/"es" entre la norma y los datos". [12]
Existen estándares de metadatos únicos para diferentes disciplinas (por ejemplo, colecciones de museos , archivos de audio digitales , sitios web , etc.). Describir el contenido y el contexto de los datos o archivos de datos aumenta su utilidad. Por ejemplo, una página web puede incluir metadatos que especifiquen en qué lenguaje de software está escrita la página (por ejemplo, HTML), qué herramientas se usaron para crearla, de qué temas trata la página y dónde encontrar más información sobre el tema. Estos metadatos pueden mejorar automáticamente la experiencia del lector y hacer que sea más fácil para los usuarios encontrar la página web en línea. [13] Un CD puede incluir metadatos que brinden información sobre los músicos, cantantes y compositores cuyo trabajo aparece en el disco.
En muchos países, las organizaciones gubernamentales almacenan rutinariamente metadatos sobre correos electrónicos, llamadas telefónicas, páginas web, tráfico de video, conexiones IP y ubicaciones de teléfonos celulares. [14]
Metadatos significa "datos sobre datos". Los metadatos se definen como los datos que proporcionan información sobre uno o más aspectos de los datos; se utilizan para resumir información básica sobre los datos que puede facilitar el seguimiento y el trabajo con datos específicos. [15] Algunos ejemplos incluyen:
Por ejemplo, una imagen digital puede incluir metadatos que describen el tamaño de la imagen, su profundidad de color, resolución, cuándo fue creada, la velocidad de obturación y otros datos. [16] Los metadatos de un documento de texto pueden contener información sobre la extensión del documento, quién es el autor, cuándo fue escrito y un breve resumen del documento. Los metadatos dentro de las páginas web también pueden contener descripciones del contenido de la página, así como palabras clave vinculadas al contenido. [17] Estos enlaces a menudo se denominan "metaetiquetas", que se utilizaron como el factor principal para determinar el orden de una búsqueda web hasta finales de los años 1990. [17] La dependencia de las metaetiquetas en las búsquedas web disminuyó a finales de los años 1990 debido al "relleno de palabras clave", [17] por el cual las metaetiquetas se utilizaban en gran medida de forma incorrecta para engañar a los motores de búsqueda y hacerles pensar que algunos sitios web tenían más relevancia en la búsqueda de la que realmente tenían. [17]
Los metadatos se pueden almacenar y gestionar en una base de datos , a menudo denominada registro de metadatos o repositorio de metadatos . [18] Sin embargo, sin contexto y un punto de referencia, puede resultar imposible identificar los metadatos con solo mirarlos. [19] Por ejemplo: por sí sola, una base de datos que contiene varios números, todos de 13 dígitos de longitud, podría ser el resultado de cálculos o una lista de números para introducir en una ecuación; sin ningún otro contexto, los números en sí mismos pueden percibirse como los datos. Pero si se da el contexto de que esta base de datos es un registro de una colección de libros, esos números de 13 dígitos pueden ahora identificarse como ISBN : información que se refiere al libro, pero que no es en sí misma la información dentro del libro. El término "metadatos" fue acuñado en 1968 por Philip Bagley, en su libro "Extension of Programming Language Concepts", donde queda claro que utiliza el término en el sentido "tradicional" de la norma ISO 11179, que es "metadatos estructurales", es decir, "datos sobre los contenedores de datos"; en lugar del sentido alternativo "contenido sobre instancias individuales de contenido de datos" o metacontenido, el tipo de datos que se encuentran habitualmente en los catálogos de bibliotecas. [20] [21] Desde entonces, los campos de la gestión de la información, la ciencia de la información, la tecnología de la información, la bibliotecología y los SIG han adoptado ampliamente el término. En estos campos, la palabra metadatos se define como "datos sobre datos". [22] Si bien esta es la definición generalmente aceptada, varias disciplinas han adoptado sus propias explicaciones y usos más específicos del término.
Slate informó en 2013 que la interpretación que hace el gobierno de Estados Unidos de los "metadatos" podría ser amplia y podría incluir contenido de mensajes como las líneas de asunto de los correos electrónicos. [23]
Si bien la aplicación de los metadatos es múltiple y abarca una gran variedad de campos, existen modelos especializados y bien aceptados para especificar los tipos de metadatos. Bretherton y Singley (1994) distinguen entre dos clases distintas: metadatos estructurales/de control y metadatos guía. [24] Los metadatos estructurales describen la estructura de los objetos de la base de datos, como tablas, columnas, claves e índices. Los metadatos guía ayudan a los humanos a encontrar elementos específicos y generalmente se expresan como un conjunto de palabras clave en un lenguaje natural. Según Ralph Kimball , los metadatos se pueden dividir en tres categorías: metadatos técnicos (o metadatos internos), metadatos comerciales (o metadatos externos) y metadatos de proceso .
La NISO distingue tres tipos de metadatos: descriptivos, estructurales y administrativos. [22] Los metadatos descriptivos se utilizan normalmente para el descubrimiento y la identificación, como información para buscar y localizar un objeto, como el título, los autores, los temas, las palabras clave y el editor. Los metadatos estructurales describen cómo se organizan los componentes de un objeto. Un ejemplo de metadatos estructurales sería cómo se ordenan las páginas para formar los capítulos de un libro. Por último, los metadatos administrativos proporcionan información para ayudar a gestionar la fuente. Los metadatos administrativos se refieren a la información técnica, como el tipo de archivo o cuándo y cómo se creó el archivo. Dos subtipos de metadatos administrativos son los metadatos de gestión de derechos y los metadatos de conservación. Los metadatos de gestión de derechos explican los derechos de propiedad intelectual , mientras que los metadatos de conservación contienen información para preservar y guardar un recurso. [8]
Los repositorios de datos estadísticos tienen sus propios requisitos de metadatos para describir no solo la fuente y la calidad de los datos [6] sino también qué procesos estadísticos se utilizaron para crear los datos, lo que es de particular importancia para la comunidad estadística con el fin de validar y mejorar el proceso de producción de datos estadísticos. [7]
Un tipo adicional de metadatos que está comenzando a desarrollarse son los metadatos de accesibilidad . Los metadatos de accesibilidad no son un concepto nuevo para las bibliotecas; sin embargo, los avances en el diseño universal han elevado su perfil. [25] : 213–214 Proyectos como Cloud4All y GPII identificaron la falta de terminologías y modelos comunes para describir las necesidades y preferencias de los usuarios y la información que se ajusta a esas necesidades como una brecha importante en la provisión de soluciones de acceso universal. [25] : 210–211 Esos tipos de información son metadatos de accesibilidad. [25] : 214 Schema.org ha incorporado varias propiedades de accesibilidad basadas en la Especificación de elementos de datos del modelo de información de acceso global para todos de IMS. [25] : 214 La página Wiki WebSchemas/Accessibility enumera varias propiedades y sus valores. Si bien los esfuerzos para describir y estandarizar las variadas necesidades de accesibilidad de los buscadores de información están comenzando a ser más sólidos, su adopción en esquemas de metadatos establecidos no ha sido tan desarrollada. Por ejemplo, si bien la "audiencia" de Dublin Core (DC) y el "nivel de lectura" de MARC 21 podrían utilizarse para identificar recursos adecuados para usuarios con dislexia y el "formato" de DC podría utilizarse para identificar recursos disponibles en formatos braille, audio o letra grande, todavía queda mucho trabajo por hacer. [25] : 214
Los metadatos (metacontenido) o, más correctamente, los vocabularios utilizados para ensamblar declaraciones de metadatos (metacontenido), generalmente se estructuran de acuerdo con un concepto estandarizado que utiliza un esquema de metadatos bien definido, que incluye estándares de metadatos y modelos de metadatos . Se pueden utilizar herramientas como vocabularios controlados , taxonomías , tesauros , diccionarios de datos y registros de metadatos para aplicar una mayor estandarización a los metadatos. La similitud estructural de los metadatos también es de suma importancia en el desarrollo de modelos de datos y en el diseño de bases de datos .
La sintaxis de metadatos (metacontenido) se refiere a las reglas creadas para estructurar los campos o elementos de metadatos (metacontenido). [26] Un único esquema de metadatos puede expresarse en varios lenguajes de marcado o programación diferentes, cada uno de los cuales requiere una sintaxis diferente. Por ejemplo, Dublin Core puede expresarse en texto simple, HTML , XML y RDF . [27]
Un ejemplo común de metacontenido (guía) es la clasificación bibliográfica, el tema, el número de clase decimal Dewey . Siempre hay una declaración implícita en cualquier "clasificación" de algún objeto. Para clasificar un objeto como, por ejemplo, número de clase Dewey 514 (Topología) (es decir, libros que tienen el número 514 en el lomo), la declaración implícita es: "<libro><encabezamiento de materia><514>". Este es un triple sujeto-predicado-objeto, o más importante, un triple clase-atributo-valor. Los primeros 2 elementos del triple (clase, atributo) son partes de algunos metadatos estructurales que tienen una semántica definida. El tercer elemento es un valor, preferiblemente de algún vocabulario controlado, algunos datos de referencia (maestros). La combinación de los elementos de metadatos y datos maestros da como resultado una declaración que es una declaración de metacontenido, es decir, "metacontenido = metadatos + datos maestros". Todos estos elementos pueden considerarse como "vocabulario". Tanto los metadatos como los datos maestros son vocabularios que pueden ensamblarse en enunciados de metacontenido. Existen muchas fuentes de estos vocabularios, tanto metadatos como datos maestros: UML, EDIFACT, XSD, Dewey/UDC/LoC, SKOS, ISO-25964, Pantone, Nomenclatura binomial de Linneo, etc. El uso de vocabularios controlados para los componentes de enunciados de metacontenido, ya sea para indexar o buscar, está respaldado por la norma ISO 25964 : "Si tanto el indexador como el buscador son guiados para elegir el mismo término para el mismo concepto, entonces se recuperarán los documentos relevantes". [28] Esto es particularmente relevante cuando se consideran los motores de búsqueda de Internet, como Google. El proceso indexa páginas y luego hace coincidir cadenas de texto utilizando su complejo algoritmo; no hay inteligencia ni "inferencia" ocurriendo, solo la ilusión de ello.
Los esquemas de metadatos pueden ser de naturaleza jerárquica, donde existen relaciones entre los elementos de metadatos y los elementos están anidados de modo que existen relaciones padre-hijo entre los elementos. Un ejemplo de un esquema de metadatos jerárquico es el esquema IEEE LOM , en el que los elementos de metadatos pueden pertenecer a un elemento de metadatos padre. Los esquemas de metadatos también pueden ser unidimensionales o lineales, donde cada elemento es completamente discreto de otros elementos y se clasifica de acuerdo con una sola dimensión. Un ejemplo de un esquema de metadatos lineal es el esquema Dublin Core , que es unidimensional. Los esquemas de metadatos suelen ser bidimensionales o planos, donde cada elemento es completamente discreto de otros elementos pero se clasifica de acuerdo con dos dimensiones ortogonales. [29]
El grado en que los datos o metadatos están estructurados se denomina "granularidad" . "Granularidad" se refiere a la cantidad de detalles que se proporcionan. Los metadatos con una granularidad alta permiten obtener información más profunda, más detallada y más estructurada y permiten un mayor nivel de manipulación técnica. Un nivel de granularidad más bajo significa que los metadatos se pueden crear con costos considerablemente menores, pero no proporcionarán información tan detallada. El mayor impacto de la granularidad no solo se produce en la creación y captura, sino también en los costos de mantenimiento. Tan pronto como las estructuras de metadatos se vuelven obsoletas, también lo hace el acceso a los datos a los que se hace referencia. Por lo tanto, la granularidad debe tener en cuenta el esfuerzo para crear los metadatos, así como el esfuerzo para mantenerlos.
En todos los casos en que los esquemas de metadatos exceden la representación plana, se requiere algún tipo de hipermapeo para permitir la visualización y visualización de los metadatos según el aspecto elegido y para ofrecer vistas especiales. El hipermapeo se aplica con frecuencia a la superposición de capas de información geográfica y geológica. [30]
Los estándares internacionales se aplican a los metadatos. Se está realizando mucho trabajo en las comunidades de estándares nacionales e internacionales, especialmente ANSI (Instituto Nacional Estadounidense de Estándares) e ISO (Organización Internacional de Normalización) para alcanzar un consenso sobre la estandarización de metadatos y registros. El estándar de registro de metadatos central es ISO / IEC 11179 Metadata Registries (MDR), el marco para el estándar se describe en ISO / IEC 11179-1: 2004. [31] Una nueva edición de la Parte 1 está en su etapa final para su publicación en 2015 o principios de 2016. Se ha revisado para alinearse con la edición actual de la Parte 3, ISO / IEC 11179-3: 2013 [32] que extiende el MDR para admitir el registro de sistemas de conceptos. (ver ISO / IEC 11179 ). Este estándar especifica un esquema para registrar tanto el significado como la estructura técnica de los datos para un uso inequívoco por parte de humanos y computadoras. La norma ISO/IEC 11179 se refiere a los metadatos como objetos de información sobre datos o "datos sobre datos". En la Parte 3 de la norma ISO/IEC 11179, los objetos de información son datos sobre elementos de datos, dominios de valor y otros objetos de información semántica y representacional reutilizables que describen el significado y los detalles técnicos de un elemento de datos. Esta norma también prescribe los detalles para un registro de metadatos y para registrar y administrar los objetos de información dentro de un registro de metadatos. La Parte 3 de la norma ISO/IEC 11179 también tiene disposiciones para describir estructuras compuestas que son derivaciones de otros elementos de datos, por ejemplo, a través de cálculos, recopilaciones de uno o más elementos de datos u otras formas de datos derivados. Si bien esta norma se describe originalmente como un registro de "elementos de datos", su propósito es respaldar la descripción y el registro de contenido de metadatos independientemente de cualquier aplicación en particular, lo que permite que las descripciones sean descubiertas y reutilizadas por humanos o computadoras en el desarrollo de nuevas aplicaciones, bases de datos o para el análisis de datos recopilados de acuerdo con el contenido de metadatos registrado. Este estándar se ha convertido en la base general para otros tipos de registros de metadatos, reutilizando y ampliando la parte de registro y administración del estándar.
La comunidad geoespacial tiene una tradición de estándares de metadatos geoespaciales especializados , en particular basados en la tradición de bibliotecas y catálogos de mapas e imágenes. Los metadatos formales suelen ser esenciales para los datos geoespaciales, ya que los métodos comunes de procesamiento de texto no son aplicables.
Los términos de metadatos de Dublin Core son un conjunto de términos de vocabulario que se pueden utilizar para describir recursos con fines de descubrimiento. El conjunto original de 15 términos de metadatos clásicos [33] , conocido como el Conjunto de elementos de metadatos de Dublin Core [34], está respaldado en los siguientes documentos de estándares:
El vocabulario del catálogo de datos del W3C (DCAT) [38] es un vocabulario RDF que complementa a Dublin Core con clases para conjuntos de datos, servicios de datos, catálogos y registros de catálogos. DCAT también utiliza elementos de FOAF, PROV-O y OWL-Time. DCAT proporciona un modelo RDF para respaldar la estructura típica de un catálogo que contiene registros, cada uno de los cuales describe un conjunto de datos o un servicio.
Aunque no es un estándar, Microformat (también mencionado en la sección Metadatos en Internet más abajo) es un enfoque basado en la Web para el marcado semántico que busca reutilizar las etiquetas HTML/XHTML existentes para transmitir metadatos. Microformat sigue los estándares XHTML y HTML pero no es un estándar en sí mismo. Un defensor de los microformatos, Tantek Çelik , describió un problema con los enfoques alternativos:
Aquí hay un nuevo lenguaje que queremos que aprendas, y ahora necesitas generar estos archivos adicionales en tu servidor. Es una molestia. (Los microformatos) reducen la barrera de entrada. [39]
La mayoría de los tipos de archivos informáticos más comunes pueden incorporar metadatos, incluidos documentos (por ejemplo, archivos de Microsoft Office , archivos OpenDocument , PDF ), imágenes (por ejemplo, JPEG , PNG ), archivos de vídeo (por ejemplo, AVI , MP4 ) y archivos de audio (por ejemplo, WAV , MP3 ) .
Los usuarios pueden agregar metadatos a los archivos, pero algunos de ellos suelen agregarse automáticamente mediante aplicaciones de creación o dispositivos utilizados para producir los archivos, sin intervención del usuario.
Si bien los metadatos de los archivos son útiles para encontrarlos, pueden representar un riesgo para la privacidad cuando se comparten. El uso de herramientas de eliminación de metadatos para limpiar los archivos antes de compartirlos puede mitigar este riesgo.
Los metadatos pueden escribirse en un archivo de fotografía digital que identificará quién es el propietario, los derechos de autor y la información de contacto, qué marca o modelo de cámara creó el archivo, junto con la información de exposición (velocidad de obturación, f-stop, etc.) e información descriptiva, como palabras clave sobre la foto, lo que hace que el archivo o la imagen se puedan buscar en una computadora y/o Internet. Algunos metadatos son creados por la cámara, como el espacio de color, los canales de color, el tiempo de exposición y la apertura (EXIF), mientras que otros son ingresados por el fotógrafo y/o el software después de descargarlos a una computadora. [40] La mayoría de las cámaras digitales escriben metadatos sobre el número de modelo, la velocidad de obturación, etc., y algunas le permiten editarlos; [41] esta funcionalidad ha estado disponible en la mayoría de las DSLR de Nikon desde la Nikon D3 , en la mayoría de las nuevas cámaras Canon desde la Canon EOS 7D y en la mayoría de las DSLR de Pentax desde la Pentax K-3. Los metadatos se pueden usar para facilitar la organización en posproducción con el uso de palabras clave. Los filtros se pueden utilizar para analizar un conjunto específico de fotografías y crear selecciones en función de criterios como la calificación o el momento de la captura. En dispositivos con capacidades de geolocalización como GPS (en particular, los teléfonos inteligentes), también se puede incluir la ubicación desde la que se tomó la foto.
Los estándares de metadatos fotográficos están regidos por organizaciones que desarrollan los siguientes estándares, que incluyen, entre otros:
Los metadatos son particularmente útiles en el vídeo, donde la información sobre su contenido (como las transcripciones de conversaciones y las descripciones de texto de sus escenas) no es directamente comprensible por una computadora, pero donde es deseable una búsqueda eficiente del contenido. Esto es particularmente útil en aplicaciones de vídeo como el software de reconocimiento automático de matrículas y de identificación de vehículos, en el que los datos de las matrículas se guardan y se utilizan para crear informes y alertas. [43] Hay 2 fuentes de las que se derivan los metadatos de vídeo: (1) metadatos recopilados operativamente, es decir, información sobre el contenido producido, como el tipo de equipo, software, fecha y ubicación; (2) metadatos creados por personas, para mejorar la visibilidad en los motores de búsqueda, la capacidad de descubrimiento, la participación de la audiencia y proporcionar oportunidades de publicidad a los editores de vídeo. [44] MetaSync de Avid y Bridge de Adobe son ejemplos de software de edición de vídeo profesional con acceso a metadatos. [45]
Otra forma de metadatos es la información sobre la hora, el origen y el destino de las llamadas telefónicas, los mensajes electrónicos, los mensajes instantáneos y otros modos de telecomunicaciones, a diferencia del contenido de los mensajes. La recopilación masiva de estos metadatos de registros detallados de llamadas por parte de las agencias de inteligencia ha resultado controvertida después de que Edward Snowden revelara que ciertas agencias de inteligencia como la NSA habían estado (y tal vez todavía estén) guardando metadatos en línea sobre millones de usuarios de Internet durante hasta un año, independientemente de si [alguna vez] eran personas de interés para la agencia o no.
Los metadatos geoespaciales se relacionan con archivos, mapas, imágenes y otros datos de los sistemas de información geográfica (SIG) basados en la ubicación. Los metadatos se utilizan en los SIG para documentar las características y atributos de los datos geográficos, como los archivos de bases de datos y los datos que se desarrollan dentro de un SIG. Incluyen detalles como quién desarrolló los datos, cuándo se recopilaron, cómo se procesaron y en qué formatos están disponibles, y luego brindan el contexto para que los datos se utilicen de manera efectiva. [46]
Los metadatos se pueden crear mediante el procesamiento automático de la información o mediante trabajo manual. Los metadatos elementales capturados por computadoras pueden incluir información sobre cuándo se creó un objeto, quién lo creó, cuándo se actualizó por última vez, el tamaño del archivo y la extensión del archivo. En este contexto, un objeto se refiere a cualquiera de los siguientes elementos:
Un motor de metadatos recopila, almacena y analiza información sobre datos y metadatos en uso dentro de un dominio. [47]
La virtualización de datos surgió en la década de 2000 como la nueva tecnología de software para completar la "pila" de virtualización en la empresa. Los metadatos se utilizan en servidores de virtualización de datos, que son componentes de la infraestructura empresarial, junto con los servidores de bases de datos y aplicaciones. Los metadatos de estos servidores se guardan como un repositorio persistente y describen objetos comerciales en varios sistemas y aplicaciones empresariales. La similitud de metadatos estructurales también es importante para respaldar la virtualización de datos.
El trabajo de estandarización y armonización ha aportado ventajas a los esfuerzos de la industria para construir sistemas de metadatos en la comunidad estadística. [48] [49] Varias directrices y estándares de metadatos como el Código de Prácticas de Estadísticas Europeas [50] y la ISO 17369:2013 ( Intercambio de Datos y Metadatos Estadísticos o SDMX) [48] proporcionan principios clave sobre cómo las empresas, los organismos gubernamentales y otras entidades deben gestionar los datos estadísticos y los metadatos. Entidades como Eurostat , [51] el Sistema Europeo de Bancos Centrales [51] y la Agencia de Protección Ambiental de los Estados Unidos [52] han implementado estos y otros estándares y directrices similares con el objetivo de mejorar la "eficiencia en la gestión de procesos comerciales estadísticos". [51]
Los metadatos se han utilizado de diversas maneras como medio para catalogar artículos en bibliotecas, tanto en formato digital como analógico. Estos datos ayudan a clasificar, agregar, identificar y localizar un libro, DVD, revista o cualquier objeto en particular que una biblioteca pueda tener en su colección. [53] Hasta la década de 1980, muchos catálogos de bibliotecas utilizaban tarjetas de 3x5 pulgadas en cajones de archivos para mostrar el título de un libro, el autor, el tema y una cadena alfanumérica abreviada ( número de clasificación ) que indicaba la ubicación física del libro dentro de los estantes de la biblioteca. El sistema decimal Dewey empleado por las bibliotecas para la clasificación de materiales de la biblioteca por tema es un ejemplo temprano del uso de metadatos. El primer catálogo en papel tenía información sobre el artículo que se describía en dicha tarjeta: título, autor, tema y un número que indicaba dónde encontrar dicho artículo. [54] A principios de la década de 1980 y 1990, muchas bibliotecas reemplazaron estas tarjetas de archivo en papel con bases de datos informáticas. Estas bases de datos informáticas hacen que sea mucho más fácil y rápido para los usuarios realizar búsquedas de palabras clave. Otra forma de recopilación de metadatos más antigua es el uso por parte de la Oficina del Censo de los Estados Unidos de lo que se conoce como "Formulario largo". El Formulario largo formula preguntas que se utilizan para crear datos demográficos para encontrar patrones de distribución. [55] Las bibliotecas emplean metadatos en catálogos de bibliotecas , más comúnmente como parte de un Sistema integrado de gestión de bibliotecas . Los metadatos se obtienen catalogando recursos como libros, publicaciones periódicas, DVD, páginas web o imágenes digitales. Estos datos se almacenan en el sistema integrado de gestión de bibliotecas, ILMS , utilizando el estándar de metadatos MARC . El propósito es dirigir a los usuarios a la ubicación física o electrónica de los artículos o áreas que buscan, así como proporcionar una descripción del artículo o artículos en cuestión.
Ejemplos más recientes y especializados de metadatos de bibliotecas incluyen el establecimiento de bibliotecas digitales , incluidos repositorios de impresiones electrónicas y bibliotecas de imágenes digitales. Si bien a menudo se basan en principios de biblioteca, el enfoque en el uso no bibliotecario, especialmente en el suministro de metadatos, significa que no siguen enfoques de catalogación tradicionales o comunes. Dada la naturaleza personalizada de los materiales incluidos, los campos de metadatos a menudo se crean especialmente, por ejemplo, campos de clasificación taxonómica, campos de ubicación, palabras clave o declaración de derechos de autor. La información de archivo estándar, como el tamaño y el formato del archivo, generalmente se incluye automáticamente. [56] El funcionamiento de la biblioteca ha sido durante décadas un tema clave en los esfuerzos hacia la estandarización internacional . Los estándares para metadatos en bibliotecas digitales incluyen Dublin Core , METS , MODS , DDI , DOI , URN , esquema PREMIS , EML y OAI-PMH . Las bibliotecas líderes en el mundo dan pistas sobre sus estrategias de estándares de metadatos. [57] [58] El uso y la creación de metadatos en la bibliotecología y la ciencia de la información también incluyen publicaciones científicas:
Los metadatos para publicaciones científicas suelen ser creados por editores de revistas y bases de datos de citas como PubMed y Web of Science . Los datos contenidos en los manuscritos o que los acompañan como material complementario son menos a menudo objeto de creación de metadatos, [59] [60] aunque pueden enviarse a bases de datos biomédicas, por ejemplo, después de la publicación. Los autores originales y los curadores de bases de datos se vuelven entonces responsables de la creación de metadatos, con la ayuda de procesos automatizados. Los metadatos integrales para todos los datos experimentales son la base de los Principios Rectores FAIR , o los estándares para garantizar que los datos de investigación sean localizables , accesibles , interoperables y reutilizables . [61]
Estos metadatos pueden luego utilizarse, complementarse y hacerse accesibles de maneras útiles. OpenAlex es un índice en línea gratuito de más de 200 millones de documentos científicos que integra y proporciona metadatos como fuentes, citas , información de autores , campos científicos y temas de investigación. Su API y sitio web de código abierto se pueden utilizar para metaciencia, cienciometría y herramientas novedosas que consultan esta red semántica de artículos . [62] [63] [64] Otro proyecto en desarrollo, Scholia , utiliza los metadatos de publicaciones científicas para varias visualizaciones y funciones de agregación, como proporcionar una interfaz de usuario simple que resuma la literatura sobre una característica específica del virus SARS-CoV-2 utilizando la propiedad "tema principal" de Wikidata . [65]
En el trabajo de investigación se han propuesto metadatos transparentes sobre las contribuciones de los autores a las obras, por ejemplo, el papel desempeñado en la producción del artículo, el nivel de contribución y las responsabilidades. [66] [67]
Además, se pueden crear o complementar varios metadatos sobre los resultados científicos; por ejemplo, scite.ai intenta rastrear y vincular citas de artículos como "de apoyo", "mención" o "contraste" del estudio. [68] Otros ejemplos incluyen desarrollos de métricas alternativas [69] - que, además de proporcionar ayuda para la evaluación y la capacidad de búsqueda, también agregan muchas de las discusiones públicas sobre un artículo científico en las redes sociales como Reddit , citas en Wikipedia e informes sobre el estudio en los medios de comunicación [70] - y un llamado a mostrar si los hallazgos originales se confirman o podrían reproducirse . [71] [72]
Los metadatos en un contexto de museo son la información que los especialistas en documentación cultural capacitados, como archivistas , bibliotecarios , registradores de museos y curadores , crean para indexar, estructurar, describir, identificar o especificar de otro modo obras de arte, arquitectura, objetos culturales y sus imágenes. [73] [74] [75] Los metadatos descriptivos se utilizan con mayor frecuencia en contextos de museos para fines de identificación de objetos y recuperación de recursos. [74]
Los metadatos se desarrollan y aplican en instituciones de recopilación de información y museos con el fin de:
Muchos museos y centros de patrimonio cultural reconocen que, dada la diversidad de obras de arte y objetos culturales, no hay un único modelo o estándar suficiente para describir y catalogar las obras culturales. [73] [74] [75] Por ejemplo, un artefacto indígena esculpido podría clasificarse como una obra de arte, un artefacto arqueológico o un elemento de patrimonio indígena. Las primeras etapas de la estandarización en el archivo, la descripción y la catalogación dentro de la comunidad de museos comenzaron a fines de la década de 1990 con el desarrollo de estándares como Categorías para la descripción de obras de arte (CDWA), Spectrum, Modelo de referencia conceptual CIDOC (CRM), Catalogación de objetos culturales (CCO) y el esquema XML CDWA Lite. [74] Estos estándares utilizan lenguajes de marcado HTML y XML para el procesamiento, la publicación y la implementación de máquinas. [74] Las Reglas de catalogación angloamericanas (AACR), desarrolladas originalmente para caracterizar libros, también se han aplicado a objetos culturales, obras de arte y arquitectura. [75] Los estándares, como el CCO, están integrados dentro del Sistema de Gestión de Colecciones (CMS) de un Museo, una base de datos a través de la cual los museos pueden gestionar sus colecciones, adquisiciones, préstamos y conservación. [75] Los académicos y profesionales en el campo señalan que el "panorama de estándares y tecnologías en rápida evolución" crea desafíos para los documentalistas culturales, específicamente los profesionales no capacitados técnicamente. [76] [ página necesaria ] La mayoría de las instituciones de recolección y museos utilizan una base de datos relacional para categorizar las obras culturales y sus imágenes. [75] Las bases de datos relacionales y los metadatos funcionan para documentar y describir las relaciones complejas entre los objetos culturales y las obras de arte multifacéticas, así como entre los objetos y los lugares, las personas y los movimientos artísticos. [74] [75] Las estructuras de bases de datos relacionales también son beneficiosas dentro de las instituciones de recolección y los museos porque permiten a los archivistas hacer una distinción clara entre los objetos culturales y sus imágenes; una distinción poco clara podría conducir a búsquedas confusas e inexactas. [75]
La materialidad, función y propósito de un objeto, así como el tamaño (por ejemplo, medidas, como altura, ancho, peso), los requisitos de almacenamiento (por ejemplo, entorno con clima controlado) y el enfoque del museo y la colección, influyen en la profundidad descriptiva de los datos atribuidos al objeto por los documentalistas culturales. [75] Las prácticas de catalogación institucional establecidas, los objetivos y la experiencia de los documentalistas culturales y la estructura de la base de datos también influyen en la información atribuida a los objetos culturales y las formas en que se clasifican los objetos culturales. [73] [75] Además, los museos a menudo emplean software de gestión de colecciones comerciales estandarizado que prescribe y limita las formas en que los archivistas pueden describir obras de arte y objetos culturales. [76] Además, las instituciones de colección y los museos utilizan vocabularios controlados para describir objetos culturales y obras de arte en sus colecciones. [74] [75] Los vocabularios Getty y los vocabularios controlados de la Biblioteca del Congreso tienen buena reputación dentro de la comunidad de museos y son recomendados por los estándares CCO. [75] Se anima a los museos a utilizar vocabularios controlados que sean contextuales y relevantes para sus colecciones y mejoren la funcionalidad de sus sistemas de información digital. [74] [75] Los vocabularios controlados son beneficiosos dentro de las bases de datos porque proporcionan un alto nivel de coherencia, mejorando la recuperación de recursos. [74] [75] Las estructuras de metadatos, incluidos los vocabularios controlados, reflejan las ontologías de los sistemas a partir de los cuales se crearon. A menudo, los procesos a través de los cuales se describen y categorizan los objetos culturales a través de metadatos en los museos no reflejan las perspectivas de las comunidades de creadores. [73] [77]
Los metadatos han sido fundamentales para la creación de sistemas de información digital y archivos dentro de los museos y han facilitado a los museos la publicación de contenido digital en línea. Esto ha permitido que audiencias que podrían no haber tenido acceso a objetos culturales debido a barreras geográficas o económicas tengan acceso a ellos. [74] En la década de 2000, a medida que más museos han adoptado estándares de archivo y creado bases de datos complejas, han surgido discusiones sobre datos vinculados entre bases de datos de museos en las comunidades de museos, archivos y bibliotecología. [76] Los sistemas de gestión de colecciones (CMS) y las herramientas de gestión de activos digitales pueden ser sistemas locales o compartidos. [75] Los académicos de humanidades digitales señalan muchos beneficios de la interoperabilidad entre bases de datos de museos y colecciones, al tiempo que reconocen las dificultades para lograr dicha interoperabilidad. [76]
Los problemas relacionados con los metadatos en los litigios en los Estados Unidos se están generalizando. [ ¿ cuándo? ] Los tribunales han examinado diversas cuestiones relacionadas con los metadatos, incluida la posibilidad de descubrimiento de los metadatos por las partes. Las Reglas Federales de Procedimiento Civil tienen reglas específicas para el descubrimiento de información almacenada electrónicamente, y la jurisprudencia posterior que aplica esas reglas ha dilucidado el deber del litigante de producir metadatos cuando litiga en un tribunal federal. [78] En octubre de 2009, la Corte Suprema de Arizona dictaminó que los registros de metadatos son registros públicos . [79] Los metadatos de los documentos han demostrado ser particularmente importantes en entornos legales en los que el litigio ha solicitado metadatos, que pueden incluir información confidencial perjudicial para una determinada parte en el tribunal. El uso de herramientas de eliminación de metadatos para "limpiar" o redactar documentos puede mitigar los riesgos de enviar involuntariamente datos confidenciales. Este proceso protege parcialmente (consulte la remanencia de datos ) a los bufetes de abogados de la filtración potencialmente dañina de datos confidenciales a través del descubrimiento electrónico .
Las encuestas de opinión han demostrado que el 45% de los estadounidenses "no confía en absoluto" en la capacidad de los sitios de redes sociales para garantizar la seguridad de sus datos personales y el 40% dice que los sitios de redes sociales no deberían poder almacenar ningún tipo de información sobre las personas. El 76% de los estadounidenses dice que no confía en que la información que las agencias de publicidad recopilan sobre ellos sea segura y el 50% dice que a las agencias de publicidad en línea no se les debería permitir registrar ningún tipo de información suya. [80]
En Australia, la necesidad de fortalecer la seguridad nacional ha dado como resultado la introducción de una nueva ley de almacenamiento de metadatos. [81] Esta nueva ley significa que tanto las agencias de seguridad como las de policía podrán acceder a hasta dos años de metadatos de un individuo, con el objetivo de facilitar la prevención de ataques terroristas y delitos graves.
Los metadatos legislativos han sido objeto de debate en foros de law.gov, como los talleres organizados por el Instituto de Información Legal en la Facultad de Derecho de Cornell los días 22 y 23 de marzo de 2010. La documentación para estos foros se titula "Prácticas de metadatos sugeridas para legislación y reglamentaciones". [82]
En estos debates se han esbozado algunos puntos clave, cuyos títulos de sección se enumeran a continuación:
La investigación médica australiana fue pionera en la definición de metadatos para aplicaciones en el ámbito de la atención sanitaria. Ese enfoque constituye el primer intento reconocido de cumplir con los estándares internacionales en materia de ciencias médicas en lugar de definir un estándar exclusivo bajo el paraguas de la Organización Mundial de la Salud (OMS). La comunidad médica aún no aprobaba la necesidad de seguir los estándares de metadatos a pesar de las investigaciones que los respaldaban. [83]
Los estudios de investigación en los campos de la biomedicina y la biología molecular con frecuencia producen grandes cantidades de datos, incluidos los resultados de la secuenciación del genoma o metagenoma , datos proteómicos e incluso notas o planes creados durante el curso de la investigación misma. [84] Cada tipo de datos implica su propia variedad de metadatos y los procesos necesarios para producir estos metadatos. Los estándares generales de metadatos, como ISA-Tab, [85] permiten a los investigadores crear e intercambiar metadatos experimentales en formatos consistentes. Los enfoques experimentales específicos con frecuencia tienen sus propios estándares y sistemas de metadatos: los estándares de metadatos para espectrometría de masas incluyen mzML [86] y SPLASH, [87] mientras que los estándares basados en XML como PDBML [88] y SRA XML [89] sirven como estándares para la estructura macromolecular y los datos de secuenciación, respectivamente.
Los productos de la investigación biomédica generalmente se realizan como manuscritos revisados por pares y estas publicaciones son otra fuente de datos
.Un almacén de datos (DW) es un repositorio de datos almacenados electrónicamente de una organización. Los almacenes de datos están diseñados para gestionar y almacenar los datos. Los almacenes de datos se diferencian de los sistemas de inteligencia empresarial (BI) porque los sistemas de BI están diseñados para utilizar datos para crear informes y analizar la información, para proporcionar una guía estratégica a la administración. [90] Los metadatos son una herramienta importante en la forma en que se almacenan los datos en los almacenes de datos. El propósito de un almacén de datos es albergar datos estandarizados, estructurados, consistentes, integrados, correctos, "limpios" y oportunos, extraídos de varios sistemas operativos en una organización. Los datos extraídos se integran en el entorno del almacén de datos para proporcionar una perspectiva de toda la empresa. Los datos se estructuran de manera que cumplan con los requisitos de informes y análisis. El diseño de la comunalidad de metadatos estructurales utilizando un método de modelado de datos como el diagrama del modelo entidad-relación es importante en cualquier esfuerzo de desarrollo de un almacén de datos. Detallan los metadatos en cada pieza de datos en el almacén de datos. Un componente esencial de un almacén de datos / sistema de inteligencia empresarial son los metadatos y las herramientas para gestionar y recuperar los metadatos. Ralph Kimball [91] describe los metadatos como el ADN del almacén de datos, ya que los metadatos definen los elementos del almacén de datos y cómo funcionan juntos.
Kimball et al. [92] se refiere a tres categorías principales de metadatos: metadatos técnicos, metadatos comerciales y metadatos de proceso. Los metadatos técnicos son principalmente definitorios , mientras que los metadatos comerciales y los metadatos de proceso son principalmente descriptivos . Las categorías a veces se superponen.
El formato HTML utilizado para definir páginas web permite la inclusión de una variedad de tipos de metadatos, desde texto descriptivo básico, fechas y palabras clave hasta esquemas de metadatos más avanzados como los estándares Dublin Core , e-GMS y AGLS [93] . Las páginas y los archivos también pueden geoetiquetarse con coordenadas , categorizarse o etiquetarse, incluso de forma colaborativa como con folksonomías .
Cuando los medios tienen identificadores establecidos o cuando se pueden generar, se puede extraer o extraer de Internet información como etiquetas de archivos y descripciones (por ejemplo, sobre películas). [94] Varias bases de datos en línea se agregan y proporcionan metadatos para diversos datos. Wikidata, construida de manera colaborativa , tiene identificadores no solo para los medios, sino también para conceptos abstractos, diversos objetos y otras entidades que pueden ser buscados por humanos y máquinas para recuperar información útil y vincular el conocimiento en otras bases de conocimiento y bases de datos. [65]
Los metadatos pueden incluirse en el encabezado de la página o en un archivo separado. Los microformatos permiten agregar metadatos a los datos de la página de una manera que los usuarios web habituales no ven, pero las computadoras, los rastreadores web y los motores de búsqueda pueden acceder fácilmente. Muchos motores de búsqueda son cautelosos al usar metadatos en sus algoritmos de clasificación debido a la explotación de metadatos y la práctica de optimización de motores de búsqueda, SEO , para mejorar las clasificaciones. Consulte el artículo del elemento Meta para obtener más información. Esta actitud cautelosa puede estar justificada ya que las personas, según Doctorow, [95] no están ejecutando cuidado y diligencia al crear sus propios metadatos y esos metadatos son parte de un entorno competitivo donde los metadatos se utilizan para promover los propios propósitos de los creadores de metadatos. Los estudios muestran que los motores de búsqueda responden a las páginas web con implementaciones de metadatos, [96] y Google tiene un anuncio en su sitio que muestra las etiquetas meta que su motor de búsqueda entiende. [97] La empresa emergente de búsqueda empresarial Swiftype reconoce los metadatos como una señal de relevancia que los webmasters pueden implementar para el motor de búsqueda específico de su sitio web, e incluso lanzar su propia extensión, conocida como Meta Tags 2. [98]
En la industria de la radiodifusión , los metadatos están vinculados a los medios de transmisión de audio y video para:
Estos metadatos pueden vincularse a los medios de vídeo gracias a los servidores de vídeo . La mayoría de los principales eventos deportivos transmitidos por televisión, como la Copa Mundial de la FIFA o los Juegos Olímpicos, utilizan estos metadatos para distribuir su contenido de vídeo a las estaciones de televisión a través de palabras clave . A menudo es la emisora anfitriona [99] la que se encarga de organizar los metadatos a través de su Centro de Transmisión Internacional y sus servidores de vídeo. Estos metadatos se registran con las imágenes y son ingresados por operadores de metadatos ( registradores ) que los asocian en vivo con metadatos disponibles en cuadrículas de metadatos a través de software (como Multicam (LSM) o IPDirector utilizado durante la Copa Mundial de la FIFA o los Juegos Olímpicos). [100] [101]
Los metadatos que describen objetos geográficos en almacenamiento o formato electrónico (como conjuntos de datos, mapas, características o documentos con un componente geoespacial) tienen una historia que se remonta al menos a 1994. Esta clase de metadatos se describe con más detalle en el artículo sobre metadatos geoespaciales .
Los metadatos ecológicos y ambientales tienen como objetivo documentar el "quién, qué, cuándo, dónde, por qué y cómo" de la recopilación de datos para un estudio en particular. Esto generalmente significa qué organización o institución recopiló los datos, qué tipo de datos, en qué fecha(s) se recopilaron los datos, la justificación de la recopilación de datos y la metodología utilizada para la recopilación de datos. Los metadatos deben generarse en un formato comúnmente utilizado por la comunidad científica más relevante, como Darwin Core , Ecological Metadata Language , [102] o Dublin Core . Existen herramientas de edición de metadatos para facilitar la generación de metadatos (por ejemplo, Metavist, [103] Mercury , Morpho [104] ). Los metadatos deben describir la procedencia de los datos (dónde se originaron, así como cualquier transformación que sufrieron los datos) y cómo dar crédito por (citar) los productos de datos.
Cuando se lanzaron por primera vez en 1982, los CD solo contenían una tabla de contenido (TOC) con el número de pistas del disco y su duración en muestras. [105] [106] Catorce años después, en 1996, una revisión del estándar CD Red Book agregó CD-Text para llevar metadatos adicionales. [107] Pero CD-Text no fue ampliamente adoptado. Poco después, se volvió común que las computadoras personales recuperaran metadatos de fuentes externas (por ejemplo, CDDB , Gracenote ) basadas en la TOC.
Los formatos de audio digital , como los archivos de audio digital, reemplazaron a los formatos de música, como las cintas de casete y los CD, en la década de 2000. Los archivos de audio digital podían etiquetarse con más información de la que podía contener solo el nombre del archivo. Esa información descriptiva se denomina etiqueta de audio o metadatos de audio en general. Los programas informáticos que se especializan en agregar o modificar esta información se denominan editores de etiquetas . Los metadatos se pueden utilizar para nombrar, describir, catalogar e indicar la propiedad o los derechos de autor de un archivo de audio digital, y su presencia hace que sea mucho más fácil localizar un archivo de audio específico dentro de un grupo, generalmente mediante el uso de un motor de búsqueda que accede a los metadatos. A medida que se desarrollaron diferentes formatos de audio digital, se intentó estandarizar una ubicación específica dentro de los archivos digitales donde se pudiera almacenar esta información.
Como resultado, casi todos los formatos de audio digital, incluidos los archivos mp3 , broadcast wav y AIFF , tienen ubicaciones estandarizadas similares que se pueden rellenar con metadatos. Los metadatos de la música digital comprimida y sin comprimir suelen estar codificados en la etiqueta ID3 . Los editores comunes como TagLib admiten los formatos de archivo MP3, Ogg Vorbis, FLAC, MPC, Speex, WavPack TrueAudio, WAV, AIFF, MP4 y ASF.
Con la disponibilidad de aplicaciones en la nube , que incluyen aquellas para agregar metadatos al contenido, los metadatos están cada vez más disponibles en Internet.
Los metadatos se pueden almacenar internamente , [108] en el mismo archivo o estructura que los datos (esto también se denomina metadatos incrustados ), o externamente , en un archivo o campo separado de los datos descritos. Un repositorio de datos generalmente almacena los metadatos separados de los datos, pero puede diseñarse para admitir enfoques de metadatos incrustados. Cada opción tiene ventajas y desventajas:
Los metadatos se pueden almacenar en formato legible para humanos o binario. El almacenamiento de metadatos en un formato legible para humanos, como XML, puede ser útil porque los usuarios pueden comprenderlos y editarlos sin herramientas especializadas. [109] Sin embargo, los formatos basados en texto rara vez están optimizados para la capacidad de almacenamiento, el tiempo de comunicación o la velocidad de procesamiento. Un formato de metadatos binario permite la eficiencia en todos estos aspectos, pero requiere un software especial para convertir la información binaria en contenido legible para humanos.
Cada sistema de base de datos relacional tiene sus propios mecanismos para almacenar metadatos. Algunos ejemplos de metadatos de bases de datos relacionales son:
En la terminología de bases de datos, este conjunto de metadatos se denomina catálogo . El estándar SQL especifica un medio uniforme para acceder al catálogo, llamado esquema de información , pero no todas las bases de datos lo implementan, incluso si implementan otros aspectos del estándar SQL. Para ver un ejemplo de métodos de acceso a metadatos específicos de la base de datos, consulte Metadatos de Oracle . El acceso programático a los metadatos es posible mediante API como JDBC o SchemaCrawler. [110]
Uno de los primeros análisis satíricos del concepto de metadatos tal como lo entendemos hoy en día es el cuento del autor de ciencia ficción estadounidense Hal Draper , " MS Find in a Library " (1961). En él, el conocimiento de toda la humanidad se condensa en un objeto del tamaño de un cajón de escritorio; sin embargo, la magnitud de los metadatos (por ejemplo, catálogos de catálogos de... , así como índices e historias) finalmente conduce a consecuencias nefastas pero humorísticas para la raza humana. El cuento prefigura las consecuencias modernas de permitir que los metadatos se vuelvan más importantes que los datos reales de los que se ocupan, y los riesgos inherentes a esa eventualidad como una advertencia.
{{cite news}}
: CS1 maint: numeric names: authors list (link)