Formato de archivo SIG

Un formato de archivo SIG es un estándar para codificar información geográfica en un archivo de computadora , como un tipo especializado de formato de archivo para uso en sistemas de información geográfica (SIG) y otras aplicaciones geoespaciales. Desde la década de 1970, se han creado decenas de formatos basados en diversos modelos de datos para diversos fines. Han sido creados por agencias cartográficas gubernamentales (como el USGS o la Agencia Nacional de Inteligencia Geoespacial ), proveedores de software SIG, organismos de normalización como el Open Geospatial Consortium , comunidades informales de usuarios e incluso desarrolladores individuales.

Historia

Las primeras instalaciones SIG de la década de 1960, como el Sistema de Información Geográfica de Canadá, se basaban en software hecho a medida y almacenaban datos en estructuras de archivos a medida diseñadas para las necesidades del proyecto en particular. A medida que aparecieran más, se podrían comparar para encontrar mejores prácticas y estructuras comunes. ^[1] Cuando se desarrolló software SIG de propósito general en la década de 1970 y principios de la de 1980, incluidos programas de laboratorios académicos como el Laboratorio de Gráficos por Computadora y Análisis Espacial de Harvard , las agencias gubernamentales (por ejemplo, el Sistema Estadístico y de Superposición de Mapas (MOSS) desarrollaron (por el Servicio de Pesca y Vida Silvestre de EE. UU. y la Oficina de Gestión de Tierras ) y nuevas empresas de software SIG como Esri e Intergraph , cada programa se creó en torno a su propio formato de archivo propietario (y a menudo secreto). ^[2] Dado que cada instalación SIG estaba efectivamente aislada de todas las demás, el intercambio entre ellas no fue una consideración importante.

A principios de la década de 1990, la proliferación de los SIG en todo el mundo y la creciente necesidad de compartir datos, pronto acelerada por el surgimiento de la World Wide Web y las infraestructuras de datos espaciales , llevaron a la necesidad de datos interoperables y formatos estándar. Uno de los primeros intentos de estandarización fue el Estándar de Transferencia de Datos Espaciales de EE. UU. , publicado en 1994 y diseñado para codificar una amplia variedad de datos del gobierno federal. ^[3] Aunque este formato en particular no logró obtener un apoyo generalizado, condujo a otros esfuerzos de estandarización, especialmente el Open Geospatial Consortium (OGC), que ha desarrollado o adoptado varios estándares neutrales para los proveedores, algunos de los cuales han sido adoptados por los Estándares Internacionales. Organización (ISO). ^[4]

Otro avance en la década de 1990 fue la publicación de formatos de archivos propietarios por parte de los proveedores de software SIG, lo que permitió que otros programas los utilizaran. El ejemplo más notable de esto fue la publicación del formato Esri Shapefile , ^{[5] que a finales de la década de 1990 se había convertido en el estándar}de facto más popular para el intercambio de datos por parte de toda la industria geoespacial. ^[6] Cuando los formatos propietarios no se compartían (por ejemplo, la cobertura de ESRI ARC/INFO), los desarrolladores de software frecuentemente los aplicaban ingeniería inversa para permitir la importación y exportación en otro software, facilitando aún más el intercambio de datos. Un resultado de esto fue la aparición de bibliotecas de software gratuitas y de código abierto , como la Biblioteca de abstracción de datos geoespaciales (GDAL) , que han facilitado enormemente la integración de datos espaciales en cualquier formato en una variedad de software. ^[7]

Durante la década de 2000, la necesidad de archivos espaciales especializados se redujo un poco con la aparición de bases de datos espaciales , que incorporaban datos espaciales en bases de datos relacionales de propósito general. Sin embargo, han seguido apareciendo nuevos formatos de archivos, especialmente con la proliferación de mapas web; Formatos como Keyhole Markup Language (KML) y GeoJSON se pueden integrar más fácilmente en lenguajes de desarrollo web que los archivos SIG tradicionales.

Características del formato

Se han creado más de cien formatos distintos para el almacenamiento de datos espaciales, de los cuales entre 20 y 30 son actualmente de uso común para diferentes propósitos. Estos se pueden distinguir de varias maneras:

Los formatos abiertos son desarrollados colectivamente por una comunidad y están disponibles para que cualquiera los implemente y contribuya con mejoras, mientras que los formatos propietarios han sido desarrollados por una empresa de software para su uso únicamente en su propio software y generalmente se mantienen como un secreto comercial (aunque a menudo son inversos). -diseñado por otros). Una tercera categoría entre ellas incluiría formatos que son propiedad exclusiva de una empresa u organización, pero que están publicados y disponibles para su implementación por cualquiera, como Esri Shapefile . ^[5]
Algunos formatos de archivo son archivos de texto que pueden ser leídos por humanos (como los basados en XML o JSON ), especialmente aquellos destinados al intercambio de datos, mientras que otros son archivos binarios , más comúnmente aquellos diseñados para uso nativo en software SIG.
Los formatos inherentemente espaciales fueron diseñados específicamente para almacenar datos geográficos, mientras que otros son extensiones espaciales de formatos diseñados para un uso más general (por ejemplo, GeoTIFF , bases de datos espaciales ).
Muchos formatos de datos incorporan alguna forma de compresión de datos , especialmente los archivos rasterizados. Generalmente, los métodos de compresión sin pérdidas son preferibles a los métodos con pérdidas , porque es necesario recuperar los valores de datos originales. ^[8]

Formatos ráster

Modelo de elevación digital, mapa (imagen) y datos vectoriales

Como cualquier imagen digital, los datos SIG rasterizados se basan en una teselación regular del espacio en una cuadrícula rectangular de filas y columnas de celdas (también conocidas como píxeles ), donde cada celda tiene un valor medido almacenado. La principal diferencia con una fotografía es que la cuadrícula está registrada en el espacio geográfico y no en un campo de visión. La resolución del conjunto de datos ráster es el ancho de celda en unidades terrestres.

Debido a que una cuadrícula es una muestra de un espacio continuo, los datos ráster se usan más comúnmente para representar campos geográficos , en los que una propiedad varía de forma continua o discreta en el espacio. Los ejemplos comunes incluyen imágenes de teledetección , terreno/elevación , densidad de población , tiempo y clima , propiedades del suelo y muchos otros. Los datos ráster pueden ser imágenes en las que cada píxel (o celda) contiene un valor de color. El valor registrado para cada celda puede ser de cualquier nivel de medición , incluido un valor cualitativo discreto, como el tipo de uso de la tierra, o un valor cuantitativo continuo, como la temperatura, o un valor nulo si no hay datos disponibles. Si bien una celda ráster almacena un valor único, se puede ampliar mediante el uso de bandas ráster para representar colores RGB (rojo, verde, azul), mapas de colores (un mapeo entre un código temático y un valor RGB) o una tabla de atributos extendida con una fila. para cada valor de celda único. También se puede utilizar para representar características geográficas discretas , pero normalmente sólo en circunstancias exigentes.

Los datos ráster se almacenan en varios formatos; desde una estructura estándar basada en archivos de TIFF, JPEG, etc. hasta datos de objetos binarios grandes (BLOB) almacenados directamente en un sistema de gestión de bases de datos relacionales (RDBMS) similar a otras clases de entidades basadas en vectores. El almacenamiento de la base de datos, cuando se indexa correctamente, normalmente permite una recuperación más rápida de los datos ráster, pero puede requerir el almacenamiento de millones de registros de tamaño significativo.

Ejemplos de formato ráster

ADRG: gráficos rasterizados digitalizados ARC de la Agencia Nacional de Inteligencia Geoespacial (NGA) ^[9]
Archivo binario : un archivo sin formato que consta de datos ráster escritos en uno de varios tipos de datos , donde se almacenan múltiples bandas en BSQ (banda secuencial), BIP (banda entrelazada por píxel) o BIL (banda entrelazada por línea). La georreferenciación y otros metadatos se almacenan en uno o más archivos secundarios . ^[10]
Gráfico rasterizado digital (DRG): escaneo digital de un mapa topográfico del USGS en papel
ECRG: gráficos rasterizados ARC comprimidos mejorados de la Agencia Nacional de Inteligencia Geoespacial (NGA) (mejor resolución que CADRG y sin pérdida de color)
ECW : Wavelet comprimida mejorada (de ERDAS). Un formato wavelet comprimido, a menudo con pérdidas.
Cuadrícula de Esri : formato ráster binario patentado utilizado por Esri desde mediados de la década de 1980
GeoTIFF : variante TIFF enriquecida con metadatos relevantes para SIG, especialmente georreferenciación . Un formato abierto que se ha convertido en uno de los formatos más comunes para compartir datos.
IMG – Formato de archivo de imagen ERDAS IMAGINE
JPEG2000 : formato ráster de código abierto. Un formato comprimido que permite la compresión tanto con pérdida como sin pérdida.
MrSID : base de datos de imágenes fluidas de resolución múltiple (por Lizardtech). Un formato wavelet comprimido permite la compresión tanto con pérdida como sin pérdida.
netCDF -CF: formato de archivo netCDF con convenciones de medatos CF para datos de ciencias de la tierra. Almacenamiento binario en formato abierto con compresión opcional. Permite el acceso web directo a subconjuntos/agregaciones de mapas a través del protocolo OPeNDAP .
RPF: formato de producto ráster, formato de archivo militar especificado en MIL-STD-2411 ^[11]
- CADRG – ADRG comprimido, desarrollado por NGA , compresión nominal de 55:1 sobre ADRG (tipo de formato de producto ráster)
- CIB – Base de Imagen Controlada, desarrollada por NGA (tipo de Formato de Producto Rasterizado)
USGS DEM : modelo de elevación digital del USGS
- GTOPO30 : modelo grande y completo de elevación de la Tierra en 30 segundos de arco, entregado en formato USGS DEM
DTED : datos digitales de elevación del terreno de la Agencia Nacional de Inteligencia Geoespacial (NGA), el estándar militar para datos de elevación
Archivo mundial : georreferenciación de un archivo de imagen rasterizada (por ejemplo, JPEG, BMP)

Formatos vectoriales

Un conjunto de datos vectoriales (a veces llamado conjunto de datos de características ) almacena información sobre objetos discretos, utilizando una codificación del modelo de datos lógicos vectoriales para representar la ubicación o geometría de cada objeto, y una codificación de sus otras propiedades que generalmente se basa en tecnología de bases de datos relacionales. . Normalmente, un único conjunto de datos recopila información sobre un conjunto de objetos similares o estrechamente relacionados, como todas las carreteras de una ciudad.

El modelo de datos vectoriales utiliza geometría de coordenadas para representar cada forma como una de varias primitivas geométricas , más comúnmente puntos (una coordenada única de dimensión cero ), líneas (una lista ordenada unidimensional de coordenadas conectadas por líneas rectas) y polígonos (una línea límite de cierre automático que encierra una región bidimensional). Se han desarrollado muchas estructuras de datos para codificar estas primitivas como datos digitales, pero la mayoría de los formatos de archivos vectoriales modernos se basan en la especificación de características simples del Open Geospatial Consortium (OGC) , y a menudo incorporan directamente su texto conocido (WKT) o su binario conocido. (WKB) codificaciones.

Además de la geometría de cada objeto, un conjunto de datos vectoriales también debe poder almacenar sus atributos . Por ejemplo, una base de datos que describe lagos puede contener la profundidad, la calidad del agua y el nivel de contaminación de cada lago. Desde la década de 1970, casi todos los formatos de archivos vectoriales han adoptado el modelo de base de datos relacional , ya sea en principio o incorporando directamente el software RDBMS . Por lo tanto, todo el conjunto de datos se almacena en una tabla , y cada fila representa un único objeto que contiene columnas para cada atributo. ^[12]^{: 256}

Se han utilizado dos estrategias para integrar la geometría y los atributos en una única estructura de formato de archivo vectorial: ^[13]

Un formato georelacional los almacena como dos archivos separados, con la geometría y los atributos de cada objeto vinculados mediante el orden de los archivos o una clave principal . Esto fue más común desde la década de 1970 hasta principios de la de 1990, porque los desarrolladores de software SIG tuvieron que inventar sus propias estructuras de datos geométricos, pero incorporaron formatos de archivo de bases de datos relacionales existentes para los atributos. Por ejemplo, el formato Esri Shapefile incluye el archivo .dbf del software DOS dBase .
El modelo basado en objetos los almacena en una única estructura, basada de forma libre o directa en los objetos de los lenguajes de programación orientados a objetos . Esta es la base de la mayoría de los formatos de archivo modernos, incluidas las bases de datos espaciales que incluyen una columna de geometría junto con otros atributos en una única tabla relacional. Otros formatos, como GeoJSON , utilizan estructuras diferentes para la geometría y los atributos, pero las combinan para cada objeto en el mismo archivo.

La topología geoespacial es a menudo una parte importante de los datos vectoriales, ya que representa las relaciones espaciales inherentes (especialmente la adyacencia) entre objetos. La topología se ha gestionado en formatos de archivos vectoriales de cuatro formas. En una estructura de datos topológicos , más notablemente POLYVRT de Harvard y su sucesor, la cobertura ARC/INFO , las conexiones topológicas entre puntos, líneas y polígonos son una parte inherente de la codificación de esas características. ^[8]^{: 46–49} Por el contrario, los datos no topológicos o espagueti (como Esri Shapefile y la mayoría de las bases de datos espaciales ) no incluyen información de topología, siendo cada geometría completamente independiente de todas las demás. Un conjunto de datos de topología (usado a menudo en análisis de redes ) aumenta los datos espaguetis con un archivo separado que codifica las conexiones topológicas. ^[12]^{: 218} Una base de reglas de topología es una lista de reglas de topología deseadas que se utilizan para imponer la integridad espacial en datos espaguetis, como "los polígonos de condado no deben superponerse" y "los polígonos de estado deben compartir límites con los polígonos de condado". ^[13]

Los conjuntos de datos vectoriales suelen representar características geográficas discretas , como edificios, árboles y condados. Sin embargo, también se pueden utilizar para representar campos geográficos almacenando ubicaciones donde se ha muestreado el campo espacialmente continuo. Los puntos de muestra (p. ej., estaciones meteorológicas y redes de sensores ), líneas de contorno y redes irregulares trianguladas (TIN) se utilizan para representar la elevación u otros valores que cambian continuamente en el espacio. Los TIN registran valores en ubicaciones de puntos, que están conectados por líneas para formar una malla irregular de triángulos. La cara de los triángulos representa la superficie del terreno.

Ejemplos de formatos de archivos vectoriales

Formatos comúnmente utilizados actualmente:

Shapefile : un popular formato SIG de datos vectoriales, desarrollado por Esri
Lenguaje de marcado geográfico (GML): estándar abierto basado en XML (por OpenGIS ) para el intercambio de datos SIG
GeoJSON : un formato ligero basado en JSON , utilizado por muchos paquetes SIG de código abierto
GeoMedia : formato basado en Microsoft Access de Intergraph para almacenamiento de vectores espaciales
Keyhole Markup Language (KML): estándar abierto basado en XML (por OpenGIS ) para el intercambio de datos SIG
Formato MapInfo TAB : formato de datos vectoriales de MapInfo que utiliza archivos TAB, DAT, ID y MAP
Formato Measure Map Pro : formato de datos XML para almacenar datos SIG
Formato de transferencia nacional (NTF): formato de transferencia nacional (utilizado principalmente por el UK Ordnance Survey)
Spatialite : una extensión espacial de SQLite que proporciona funcionalidad de geodatabase vectorial. Es similar a PostGIS , Oracle Spatial y SQL Server con extensiones espaciales.
Funciones simples : especificación del Open Geospatial Consortium para datos vectoriales
- Texto conocido (WKT): un lenguaje de marcado de texto para representar la geometría de entidades, desarrollado por Open Geospatial Consortium
- Binario conocido (WKB): versión binaria de texto conocido, utilizada en muchas bases de datos espaciales.
SOSI : un formato de datos espaciales utilizado para todo el intercambio público de datos espaciales en Noruega
AutoCAD DXF : formato de transferencia de datos para datos de AutoCAD (de Autodesk )
Archivos de datos geográficos (GDF): un formato de archivo de intercambio para datos geográficos

Formatos históricos que rara vez se utilizan en la actualidad:

Cobertura de ArcInfo : estructura de datos topológicos utilizada en Arc/INFO desde 1981 hasta 2000
Esri TIN : formato binario patentado para datos de red irregulares triangulados utilizado por Esri
Gráfico de líneas digitales (DLG): un formato USGS para datos vectoriales
TIGER : codificación y referenciación geográfica topológicamente integrada
Formato de producto vectorial (VPF): formato de datos vectoriales de la Agencia Nacional de Inteligencia Geoespacial (NGA) para grandes bases de datos geográficas
Archivo de datos espaciales : formato de geodatabase de alto rendimiento de Autodesk , nativo de MapGuide
ISFC: solución CAD basada en MicroStation de Intergraph que adjunta elementos vectoriales a una base de datos relacional de Microsoft Access
Codificación de mapas independiente dual (DIME): un formato de archivo SIG histórico, desarrollado en la década de 1960

Ventajas y desventajas

Existen algunas ventajas y desventajas importantes al utilizar un modelo de datos ráster o vectorial para representar la realidad:

Los conjuntos de datos ráster registran un valor para todos los puntos en el área cubierta, lo que puede requerir más espacio de almacenamiento que la representación de datos en un formato vectorial que puede almacenar datos solo donde sea necesario.
Los datos ráster son computacionalmente menos costosos de renderizar que los gráficos vectoriales.
Combinar valores y escribir fórmulas personalizadas para combinar valores de diferentes capas es mucho más fácil utilizando datos ráster.
Existen problemas de transparencia y alias al superponer varias piezas apiladas de imágenes rasterizadas.
Los datos vectoriales permiten una implementación fácil y visualmente fluida de operaciones de superposición, especialmente en términos de gráficos e información basada en formas, como mapas, rutas y fuentes personalizadas, que son más difíciles con datos rasterizados.
Los datos vectoriales se pueden mostrar como gráficos vectoriales utilizados en mapas tradicionales, mientras que los datos rasterizados aparecerán como una imagen que puede tener una apariencia de bloques para los límites de los objetos. (dependiendo de la resolución del archivo ráster).
Los datos vectoriales pueden ser más fáciles de registrar, escalar y reproyectar, lo que puede simplificar la combinación de capas vectoriales de diferentes fuentes.
Los datos vectoriales son más compatibles con entornos de bases de datos relacionales, donde pueden formar parte de una tabla relacional como una columna normal y procesarse utilizando una multitud de operadores.
Los tamaños de archivos vectoriales suelen ser más pequeños que los datos ráster, que pueden ser decenas, cientos o más veces más grandes que los datos vectoriales (dependiendo de la resolución).
Los datos vectoriales son más sencillos de actualizar y mantener, mientras que una imagen rasterizada deberá reproducirse por completo. (Ejemplo: se agrega una nueva carretera).
Los datos vectoriales permiten mucha más capacidad de análisis, especialmente para "redes" como carreteras, energía, ferrocarriles, telecomunicaciones, etc. (Ejemplos: mejor ruta, puerto más grande, aeródromos conectados a carreteras de dos carriles). Los datos ráster no tendrán todas las características de los elementos que muestran.

Formatos de archivos integrados

Las bases de datos relacionales de objetos modernas ahora pueden almacenar una variedad de datos complejos utilizando el tipo de datos binario de objetos grandes , incluidas cuadrículas ráster y geometrías vectoriales. Esto permite que algunos sistemas de bases de datos espaciales almacenen datos de ambos modelos en la misma base de datos.

Esri File Geodatabase : un formato propietario para almacenar "características" (vectoriales) y datos ráster localmente ^[14]
Esri Enterprise Geodatabase : un modelo propietario para almacenar una estructura de geodatabase en una variedad de sistemas de gestión de bases de datos relacionales comerciales y de código abierto ^[14]
GeoPackage (GPKG): un formato abierto basado en estándares basado en el formato de base de datos SQLite para datos vectoriales y ráster, adoptado por el Open Geospatial Consortium ^[15]

Ver también

Datum (geodesia)
GDAL/OGR , una biblioteca para leer y escribir en muchos formatos
Feature Manipulation Engine (FME), un programa comercial para convertir datos entre una gran cantidad de formatos

Referencias

^ Tomlinson, Roger F.; Calkins, Hugh W.; Mármol, Duane F. (1976). Manejo informático de datos geográficos . Prensa de la UNESCO.
^ Chrisman, Nick (2006). Trazando lo desconocido: cómo la cartografía informática en Harvard se convirtió en SIG . Prensa Esri. ISBN 978-1-58948-118-3.
^ "Estándar de transferencia de datos espaciales". USGS. doi : 10.3133/fs07799 . Consultado el 6 de enero de 2023 .
^ "Estándares OGC". Consorcio Geoespacial Abierto . OGC . Consultado el 6 de enero de 2023 .
^ ab "Descripción técnica de ESRI Shapefile" (PDF) . Biblioteca técnica de Esri . Esri. Julio de 1998 . Consultado el 6 de enero de 2023 .
^ He aquí, Chor Pang; Yeung, Albert KW (2002). Conceptos y Técnicas de Sistemas de Información Geográfica . Prentice Hall. pag. 185.ISBN 0-13-080427-4.
^ "Software que utiliza GDAL". Biblioteca de abstracción de datos geográficos . OSGEO . Consultado el 6 de enero de 2023 .
^ ab Bolstad, Paul (2019). Fundamentos de SIG: un primer texto sobre sistemas de información geográfica . Ann Arbor, MI: XanEdu. pag. 69.ISBN 978-1-59399-552-2.
^ "Gráfico rasterizado digitalizado por arco (ADRG)". Preservación Digital . Biblioteca del Congreso . 25 de septiembre de 2011 . Consultado el 13 de marzo de 2014 .
^ "Varios formatos ráster GDAL compatibles".
^ "Formato de producto ráster". Preservación Digital . Biblioteca del Congreso . 2011-10-27 . Consultado el 13 de marzo de 2014 .
^ ab Longley, Paul A.; Goodchild, Michael F.; Maguire, David J.; Rind, David W. (2011). Ciencia y sistemas de información geográfica (3ª ed.). Wiley.
^ ab Chang, Kang-tsung (2014). Introducción a los Sistemas de Información Geográfica (7ª ed.). McGraw-Hill. págs. 50–57. ISBN 978-0-07-352290-6.
^ ab "La arquitectura de una geodatabase". Documentación de ArcGIS Pro . Esri . Consultado el 8 de enero de 2023 .
^ "Estándar de codificación OGC GeoPackage". Estándares abiertos del consorcio geoespacial . OGC . Consultado el 8 de enero de 2023 .