Formato de archivo SIG

Un formato de archivo SIG es un estándar para codificar información geográfica en un archivo de computadora , como un tipo especializado de formato de archivo para su uso en sistemas de información geográfica (SIG) y otras aplicaciones geoespaciales. Desde la década de 1970, se han creado docenas de formatos basados en varios modelos de datos para diversos fines. Han sido creados por agencias de cartografía gubernamentales (como el USGS o la Agencia Nacional de Inteligencia Geoespacial ), proveedores de software SIG, organismos de normalización como el Consorcio Geoespacial Abierto , comunidades de usuarios informales e incluso desarrolladores individuales.

Historia

Las primeras instalaciones de SIG de la década de 1960, como el Sistema de Información Geográfica de Canadá, se basaban en software a medida y almacenaban datos en estructuras de archivos a medida diseñadas para las necesidades del proyecto en particular. A medida que aparecían más de estos, se podían comparar para encontrar las mejores prácticas y estructuras comunes. ^[1] Cuando se desarrolló software SIG de propósito general en la década de 1970 y principios de la de 1980, incluidos programas de laboratorios académicos como el Laboratorio de Gráficos Informáticos y Análisis Espacial de Harvard , agencias gubernamentales (por ejemplo, el Sistema Estadístico y de Superposición de Mapas (MOSS) desarrollado por el Servicio de Pesca y Vida Silvestre de EE. UU. y la Oficina de Administración de Tierras ) y nuevas empresas de software SIG como Esri e Intergraph , cada programa se construyó alrededor de su propio formato de archivo propietario (y a menudo secreto). ^[2] Dado que cada instalación SIG estaba efectivamente aislada de todas las demás, el intercambio entre ellas no era una consideración importante.

A principios de los años 1990, la proliferación de los SIG en todo el mundo y la creciente necesidad de compartir datos, pronto acelerada por la aparición de la World Wide Web y las infraestructuras de datos espaciales , llevaron a la necesidad de datos interoperables y formatos estándar. Un primer intento de estandarización fue el Estándar de Transferencia de Datos Espaciales de los Estados Unidos , publicado en 1994 y diseñado para codificar la amplia variedad de datos del gobierno federal. ^[3] Aunque este formato en particular no logró obtener un apoyo generalizado, dio lugar a otros esfuerzos de estandarización, especialmente el Consorcio Geoespacial Abierto (OGC), que ha desarrollado o adoptado varios estándares neutrales en cuanto a proveedores, algunos de los cuales han sido adoptados por la Organización Internacional de Normalización (ISO). ^[4]

Otro avance en la década de 1990 fue la publicación de formatos de archivos propietarios por parte de los proveedores de software SIG, lo que permitió que otros programas los utilizaran. El ejemplo más notable de esto fue la publicación del formato Shapefile de Esri , ^{[5] que a fines de la década de 1990 se había convertido en el estándar}de facto más popular para compartir datos en toda la industria geoespacial. ^[6] Cuando no se compartían formatos propietarios (por ejemplo, la cobertura ESRI ARC/INFO), los desarrolladores de software con frecuencia los modificaban a la inversa para permitir la importación y exportación en otro software, lo que facilitaba aún más el intercambio de datos. Un resultado de esto fue el surgimiento de bibliotecas de software libre y de código abierto , como la Biblioteca de Abstracción de Datos Geoespaciales (GDAL) , que han facilitado enormemente la integración de datos espaciales en cualquier formato en una variedad de software. ^[7]

Durante la década de 2000, la necesidad de archivos espaciales especializados se redujo un poco con la aparición de bases de datos espaciales , que incorporaron datos espaciales en bases de datos relacionales de uso general. Sin embargo, han seguido apareciendo nuevos formatos de archivo, especialmente con la proliferación de la cartografía web; formatos como Keyhole Markup Language (KML) y GeoJSON se pueden integrar más fácilmente en lenguajes de desarrollo web que los archivos SIG tradicionales.

Características del formato

Se han creado más de cien formatos distintos para el almacenamiento de datos espaciales, de los cuales entre 20 y 30 se utilizan actualmente para distintos fines. Se pueden distinguir de varias maneras:

Los formatos abiertos son desarrollados colectivamente por una comunidad y están disponibles para que cualquiera los implemente y contribuya con mejoras, mientras que los formatos propietarios han sido desarrollados por una empresa de software para su uso exclusivo en su propio software y generalmente se mantienen como secreto comercial (aunque a menudo son modificados por otros). Una tercera categoría entre estos incluiría los formatos que son propiedad exclusiva de una empresa u organización, pero que se publican y están disponibles para su implementación por parte de cualquier persona, como Esri Shapefile . ^[5]
Algunos formatos de archivo son archivos de texto que pueden ser leídos por humanos (como aquellos basados en XML o JSON ), especialmente aquellos destinados al intercambio de datos, mientras que otros son archivos binarios , más comúnmente aquellos diseñados para uso nativo en software SIG.
Los formatos inherentemente espaciales fueron diseñados específicamente para almacenar datos geográficos, mientras que otros son extensiones espaciales de formatos diseñados para un uso más general (por ejemplo, GeoTIFF , bases de datos espaciales ).
Muchos formatos de datos incorporan algún tipo de compresión de datos , especialmente los archivos ráster. En general, los métodos de compresión sin pérdida son preferibles a los métodos con pérdida , porque es necesario recuperar los valores de los datos originales. ^[8]

Formatos rasterizados

Modelo de elevación digital, mapa (imagen) y datos vectoriales

Al igual que cualquier imagen digital, los datos SIG rasterizados se basan en una teselación regular del espacio en una cuadrícula rectangular de filas y columnas de celdas (también conocidas como píxeles ), en la que cada celda tiene almacenado un valor medido. La principal diferencia con una fotografía es que la cuadrícula está registrada en un espacio geográfico en lugar de en un campo de visión. La resolución del conjunto de datos rasterizados es el ancho de sus celdas en unidades terrestres.

Debido a que una cuadrícula es una muestra de un espacio continuo, los datos ráster se utilizan con mayor frecuencia para representar campos geográficos , en los que una propiedad varía de forma continua o discreta en el espacio. Algunos ejemplos comunes incluyen imágenes de teledetección , terreno/elevación , densidad de población , clima y tiempo , propiedades del suelo y muchos otros. Los datos ráster pueden ser imágenes en las que cada píxel (o celda) contiene un valor de color. El valor registrado para cada celda puede ser de cualquier nivel de medición , incluido un valor cualitativo discreto, como el tipo de uso del suelo, o un valor cuantitativo continuo, como la temperatura, o un valor nulo si no hay datos disponibles. Si bien una celda ráster almacena un solo valor, se puede ampliar mediante el uso de bandas ráster para representar colores RGB (rojo, verde, azul), mapas de colores (una asignación entre un código temático y un valor RGB) o una tabla de atributos extendida con una fila para cada valor de celda único. También se puede utilizar para representar características geográficas discretas , pero generalmente solo en circunstancias exigentes.

Los datos ráster se almacenan en varios formatos: desde una estructura estándar basada en archivos TIFF, JPEG, etc. hasta datos binarios de objetos grandes (BLOB) almacenados directamente en un sistema de gestión de bases de datos relacionales (RDBMS) similar a otras clases de entidades basadas en vectores. El almacenamiento de bases de datos, cuando está correctamente indexado, generalmente permite una recuperación más rápida de los datos ráster, pero puede requerir el almacenamiento de millones de registros de tamaño significativo.

Ejemplos de formato raster

Gráficos rasterizados digitalizados ARC de la Agencia Nacional de Inteligencia Geoespacial (NGA) de ADRG ^[9]
Archivo binario : archivo sin formato que consta de datos rasterizados escritos en uno de varios tipos de datos , donde se almacenan múltiples bandas en BSQ (banda secuencial), BIP (banda intercalada por píxel) o BIL (banda intercalada por línea). La georreferenciación y otros metadatos se almacenan en uno o más archivos secundarios . ^[10]
Gráfico de trama digital (DRG): escaneo digital de un mapa topográfico en papel del USGS
ECRG: gráficos rasterizados ARC comprimidos mejorados de la Agencia Nacional de Inteligencia Geoespacial (NGA) (mejor resolución que CADRG y sin pérdida de color)
ECW – Enhanced Compressed Wavelet (de ERDAS). Un formato de wavelet comprimido, a menudo con pérdida.
Cuadrícula de Esri : formato ráster binario patentado utilizado por Esri desde mediados de la década de 1980
GeoTIFF : variante TIFF enriquecida con metadatos relevantes para SIG, especialmente georreferenciación . Un formato abierto que se ha convertido en uno de los formatos más comunes para compartir datos.
IMG – Formato de archivo de imagen ERDAS IMAGINE
JPEG2000 : formato raster de código abierto. Es un formato comprimido que permite la compresión con y sin pérdida.
MrSID – Base de datos de imágenes sin fisuras y con múltiples resoluciones (de Lizardtech). Un formato wavelet comprimido que permite la compresión con y sin pérdida.
netCDF -CF: formato de archivo netCDF con convenciones de metadatos CF para datos de ciencias de la Tierra. Almacenamiento binario en formato abierto con compresión opcional. Permite el acceso directo a través de la web de subconjuntos/agregaciones de mapas a través del protocolo OPeNDAP .
RPF – Formato de producto ráster, formato de archivo militar especificado en MIL-STD-2411 ^[11]
- CADRG – ADRG comprimido, desarrollado por NGA , compresión nominal de 55:1 sobre ADRG (tipo de formato de producto ráster)
- CIB – Base de imágenes controladas, desarrollada por NGA (tipo de formato de producto ráster)
USGS DEM – El modelo de elevación digital del USGS
- GTOPO30 : modelo completo de elevación de la Tierra de gran tamaño a 30 segundos de arco, entregado en formato DEM del USGS
DTED – Datos digitales de elevación del terreno de la Agencia Nacional de Inteligencia Geoespacial (NGA), el estándar militar para datos de elevación
Archivo mundial : georreferenciación de un archivo de imagen raster (por ejemplo, JPEG, BMP)

Formatos vectoriales

Un conjunto de datos vectoriales (a veces denominado conjunto de datos de características ) almacena información sobre objetos discretos, utilizando una codificación del modelo de datos lógicos vectoriales para representar la ubicación o la geometría de cada objeto, y una codificación de sus otras propiedades que generalmente se basa en la tecnología de bases de datos relacionales . Por lo general, un único conjunto de datos recopila información sobre un conjunto de objetos estrechamente relacionados o similares, como todas las calles de una ciudad.

El modelo de datos vectoriales utiliza geometría de coordenadas para representar cada forma como una de varias primitivas geométricas , más comúnmente puntos (una única coordenada de dimensión cero ), líneas (una lista ordenada unidimensional de coordenadas conectadas por líneas rectas) y polígonos (una línea límite que se cierra automáticamente y encierra una región bidimensional). Se han desarrollado muchas estructuras de datos para codificar estas primitivas como datos digitales, pero la mayoría de los formatos de archivos vectoriales modernos se basan en la especificación de características simples del Open Geospatial Consortium (OGC) , que a menudo incorpora directamente sus codificaciones de texto conocido (WKT) o binario conocido (WKB).

Además de la geometría de cada objeto, un conjunto de datos vectoriales también debe poder almacenar sus atributos . Por ejemplo, una base de datos que describe lagos puede contener la profundidad de cada lago, la calidad del agua y el nivel de contaminación. Desde la década de 1970, casi todos los formatos de archivos vectoriales han adoptado el modelo de base de datos relacional , ya sea en principio o incorporando directamente software RDBMS . De este modo, todo el conjunto de datos se almacena en una tabla , donde cada fila representa un único objeto que contiene columnas para cada atributo. ^[12]^{: 256}

Se han utilizado dos estrategias para integrar la geometría y los atributos en una única estructura de formato de archivo vectorial: ^[13]

Un formato georrelacional los almacena como dos archivos separados, con la geometría y los atributos de cada objeto vinculados por orden de archivos o una clave principal . Esto fue más común desde la década de 1970 hasta principios de la década de 1990, porque los desarrolladores de software SIG tuvieron que inventar sus propias estructuras de datos de geometría, pero incorporaron formatos de archivos de bases de datos relacionales existentes para los atributos. Por ejemplo, el formato Shapefile de Esri incluye el archivo .dbf del software dBase de DOS .
El modelo basado en objetos los almacena en una única estructura, basada de forma libre o directa en los objetos de los lenguajes de programación orientados a objetos . Esta es la base de la mayoría de los formatos de archivo modernos, incluidas las bases de datos espaciales que incluyen una columna de geometría junto con los demás atributos en una única tabla relacional. Otros formatos, como GeoJSON , utilizan diferentes estructuras para la geometría y los atributos, pero los combinan para cada objeto en el mismo archivo.

La topología geoespacial es a menudo una parte importante de los datos vectoriales, que representa las relaciones espaciales inherentes (especialmente la adyacencia) entre objetos. La topología se ha gestionado en formatos de archivos vectoriales de cuatro formas. En una estructura de datos topológicos , en particular POLYVRT de Harvard y su sucesora, la cobertura ARC/INFO , las conexiones topológicas entre puntos, líneas y polígonos son una parte inherente de la codificación de esas características. ^[8]^{: 46–49} Por el contrario, los datos no topológicos o espagueti (como Esri Shapefile y la mayoría de las bases de datos espaciales ) no incluyen información topológica, y cada geometría es completamente independiente de todas las demás. Un conjunto de datos de topología (utilizado a menudo en el análisis de redes ) aumenta los datos espagueti con un archivo separado que codifica las conexiones topológicas. ^[12]^{: 218} Una base de reglas de topología es una lista de reglas topológicas deseadas que se utilizan para hacer cumplir la integridad espacial en datos espagueti, como "los polígonos del condado no deben superponerse" y "los polígonos estatales deben compartir límites con los polígonos del condado". ^[13]

Los conjuntos de datos vectoriales suelen representar características geográficas discretas , como edificios, árboles y condados. Sin embargo, también se pueden utilizar para representar campos geográficos almacenando ubicaciones donde se ha muestreado el campo espacialmente continuo. Los puntos de muestra (por ejemplo, estaciones meteorológicas y redes de sensores ), las líneas de contorno y las redes irregulares trianguladas (TIN) se utilizan para representar la elevación u otros valores que cambian continuamente en el espacio. Las TIN registran valores en ubicaciones de puntos, que están conectados por líneas para formar una malla irregular de triángulos. La cara de los triángulos representa la superficie del terreno.

Ejemplos de formatos de archivos vectoriales

Formatos comúnmente utilizados actualmente:

Shapefile : un popular formato SIG de datos vectoriales, desarrollado por Esri
Lenguaje de marcado geográfico (GML): estándar abierto basado en XML (de OpenGIS ) para el intercambio de datos SIG
GeoJSON : un formato liviano basado en JSON , utilizado por muchos paquetes SIG de código abierto
GeoMedia : formato de Intergraph basado en Microsoft Access para almacenamiento de vectores espaciales
Keyhole Markup Language (KML): estándar abierto basado en XML (de OpenGIS ) para el intercambio de datos SIG
Formato TAB de MapInfo : formato de datos vectoriales de MapInfo que utiliza archivos TAB, DAT, ID y MAP
Formato Measure Map Pro : formato de datos XML para almacenar datos SIG
Formato de transferencia nacional (NTF): formato de transferencia nacional (utilizado principalmente por el Servicio de Información de Armamento del Reino Unido)
Spatialite : una extensión espacial de SQLite que ofrece funciones de geodatabase vectorial. Es similar a PostGIS , Oracle Spatial y SQL Server con extensiones espaciales .
Características simples : especificación del Consorcio Geoespacial Abierto para datos vectoriales
- Texto conocido (WKT): un lenguaje de marcado de texto para representar la geometría de las características, desarrollado por Open Geospatial Consortium
- Binario conocido (WKB): versión binaria de texto conocido, utilizado en muchas bases de datos espaciales
SOSI : un formato de datos espaciales utilizado para todo el intercambio público de datos espaciales en Noruega
AutoCAD DXF : formato de transferencia de datos para datos de AutoCAD (de Autodesk )
Archivos de datos geográficos (GDF): un formato de archivo de intercambio para datos geográficos

Formatos históricos que rara vez se utilizan hoy en día:

Cobertura de ArcInfo : estructura de datos topológicos utilizada en Arc/INFO desde 1981 hasta 2000
Esri TIN : formato binario propietario para datos de redes irregulares trianguladas utilizado por Esri
Gráfico de línea digital (DLG): un formato del USGS para datos vectoriales
TIGER – Codificación y referencia geográfica integrada topológicamente
Formato de producto vectorial (VPF): formato de datos vectoriales de la Agencia Nacional de Inteligencia Geoespacial (NGA) para grandes bases de datos geográficas
Archivo de datos espaciales : formato de geodatabase de alto rendimiento de Autodesk , nativo de MapGuide
ISFC: solución CAD basada en MicroStation de Intergraph que adjunta elementos vectoriales a una base de datos relacional de Microsoft Access
Codificación de mapas independiente dual (DIME): un formato de archivo SIG histórico, desarrollado en la década de 1960

Ventajas y desventajas

Existen algunas ventajas y desventajas importantes al utilizar un modelo de datos raster o vectoriales para representar la realidad:

Los datasets ráster registran un valor para todos los puntos en el área cubierta, lo que puede requerir más espacio de almacenamiento que representar datos en un formato vectorial que puede almacenar datos solo donde sea necesario.
Los datos rasterizados son computacionalmente menos costosos de representar que los gráficos vectoriales
Combinar valores y escribir fórmulas personalizadas para combinar valores de diferentes capas es mucho más fácil utilizando datos raster.
Existen problemas de transparencia y alias al superponer múltiples fragmentos apilados de imágenes rasterizadas.
Los datos vectoriales permiten una implementación visualmente fluida y sencilla de operaciones de superposición, especialmente en términos de gráficos e información basada en formas, como mapas, rutas y fuentes personalizadas, que son más difíciles con datos rasterizados.
Los datos vectoriales se pueden mostrar como gráficos vectoriales utilizados en mapas tradicionales, mientras que los datos raster aparecerán como una imagen que puede tener una apariencia en bloques para los límites de los objetos. (dependiendo de la resolución del archivo raster).
Los datos vectoriales pueden ser más fáciles de registrar, escalar y reproyectar, lo que puede simplificar la combinación de capas vectoriales de diferentes fuentes.
Los datos vectoriales son más compatibles con los entornos de bases de datos relacionales, donde pueden formar parte de una tabla relacional como una columna normal y procesarse utilizando una multitud de operadores.
Los tamaños de los archivos vectoriales suelen ser más pequeños que los de los datos raster, que pueden ser decenas, cientos o más de veces más grandes que los datos vectoriales (dependiendo de la resolución).
Los datos vectoriales son más sencillos de actualizar y mantener, mientras que una imagen raster deberá reproducirse por completo (por ejemplo, se agrega una nueva carretera).
Los datos vectoriales permiten una mayor capacidad de análisis, especialmente para "redes" como carreteras, energía, ferrocarriles, telecomunicaciones, etc. (Ejemplos: mejor ruta, puerto más grande, aeródromos conectados a autopistas de dos carriles). Los datos ráster no tendrán todas las características de las entidades que muestran.

Formatos de archivos integrados

Las bases de datos relacionales de objetos modernas ahora pueden almacenar una variedad de datos complejos utilizando el tipo de datos de objetos grandes binarios , incluidas cuadrículas ráster y geometrías vectoriales. Esto permite que algunos sistemas de bases de datos espaciales almacenen datos de ambos modelos en la misma base de datos.

Geodatabase de archivos Esri : un formato propietario para almacenar datos de "características" (vectoriales) y ráster de forma local ^[14]
Geodatabase empresarial de Esri : un modelo propietario para almacenar una estructura de geodatabase en una variedad de sistemas de gestión de bases de datos relacionales comerciales y de código abierto ^[14]
GeoPackage (GPKG): un formato abierto basado en estándares que se basa en el formato de base de datos SQLite para datos vectoriales y raster, adoptado por el Consorcio Geoespacial Abierto ^[15]

Véase también

Datum (geodesia)
GDAL/OGR , una biblioteca para leer y escribir en muchos formatos
Feature Manipulation Engine (FME), un programa comercial para convertir datos entre una gran cantidad de formatos

Referencias

^ Tomlinson, Roger F.; Calkins, Hugh W.; Marble, Duane F. (1976). Manejo informático de datos geográficos . UNESCO Press.
^ Chrisman, Nick (2006). Trazando lo desconocido: cómo la cartografía por ordenador en Harvard se convirtió en SIG . Esri Press. ISBN 978-1-58948-118-3.
^ "Estándar de transferencia de datos espaciales". USGS. doi :10.3133/fs07799 . Consultado el 6 de enero de 2023 .
^ "Estándares OGC". Open Geospatial Consortium . OGC . Consultado el 6 de enero de 2023 .
^ ab "ESRI Shapefile Technical Description" (PDF) . Biblioteca técnica de Esri . Esri. Julio de 1998 . Consultado el 6 de enero de 2023 .
^ Lo, Chor Pang; Yeung, Albert KW (2002). Conceptos y técnicas de los sistemas de información geográfica . Prentice Hall. pág. 185. ISBN 0-13-080427-4.
^ "Software que utiliza GDAL". Biblioteca de abstracción de datos geográficos . OSGEO . Consultado el 6 de enero de 2023 .
^ ab Bolstad, Paul (2019). Fundamentos de SIG: un primer texto sobre sistemas de información geográfica . Ann Arbor, MI: XanEdu. p. 69. ISBN 978-1-59399-552-2.
^ "Gráfico rasterizado digitalizado de Arc (ADRG)". Preservación digital . Biblioteca del Congreso . 25 de septiembre de 2011 . Consultado el 13 de marzo de 2014 .
^ "Varios formatos ráster GDAL compatibles".
^ "Raster Product Format". Preservación digital . Biblioteca del Congreso . 27 de octubre de 2011. Consultado el 13 de marzo de 2014 .
^ ab Longley, Paul A.; Goodchild, Michael F.; Maguire, David J.; Rhind, David W. (2011). Sistemas de información geográfica y ciencia (3.ª ed.). Wiley.
^ ab Chang, Kang-tsung (2014). Introducción a los sistemas de información geográfica (7.ª ed.). McGraw-Hill. págs. 50-57. ISBN 978-0-07-352290-6.
^ ab "La arquitectura de una geodatabase". Documentación de ArcGIS Pro . Esri . Consultado el 8 de enero de 2023 .
^ "Estándar de codificación OGC GeoPackage". Estándares del Open Geospatial Consortium . OGC . Consultado el 8 de enero de 2023 .