Un formato de archivo SIG es un estándar para codificar información geográfica en un archivo de computadora , como un tipo especializado de formato de archivo para su uso en sistemas de información geográfica (SIG) y otras aplicaciones geoespaciales. Desde la década de 1970, se han creado docenas de formatos basados en varios modelos de datos para diversos fines. Han sido creados por agencias de cartografía gubernamentales (como el USGS o la Agencia Nacional de Inteligencia Geoespacial ), proveedores de software SIG, organismos de normalización como el Consorcio Geoespacial Abierto , comunidades de usuarios informales e incluso desarrolladores individuales.
Las primeras instalaciones de SIG de la década de 1960, como el Sistema de Información Geográfica de Canadá, se basaban en software a medida y almacenaban datos en estructuras de archivos a medida diseñadas para las necesidades del proyecto en particular. A medida que aparecían más de estos, se podían comparar para encontrar las mejores prácticas y estructuras comunes. [1] Cuando se desarrolló software SIG de propósito general en la década de 1970 y principios de la de 1980, incluidos programas de laboratorios académicos como el Laboratorio de Gráficos Informáticos y Análisis Espacial de Harvard , agencias gubernamentales (por ejemplo, el Sistema Estadístico y de Superposición de Mapas (MOSS) desarrollado por el Servicio de Pesca y Vida Silvestre de EE. UU. y la Oficina de Administración de Tierras ) y nuevas empresas de software SIG como Esri e Intergraph , cada programa se construyó alrededor de su propio formato de archivo propietario (y a menudo secreto). [2] Dado que cada instalación SIG estaba efectivamente aislada de todas las demás, el intercambio entre ellas no era una consideración importante.
A principios de los años 1990, la proliferación de los SIG en todo el mundo y la creciente necesidad de compartir datos, pronto acelerada por la aparición de la World Wide Web y las infraestructuras de datos espaciales , llevaron a la necesidad de datos interoperables y formatos estándar. Un primer intento de estandarización fue el Estándar de Transferencia de Datos Espaciales de los Estados Unidos , publicado en 1994 y diseñado para codificar la amplia variedad de datos del gobierno federal. [3] Aunque este formato en particular no logró obtener un apoyo generalizado, dio lugar a otros esfuerzos de estandarización, especialmente el Consorcio Geoespacial Abierto (OGC), que ha desarrollado o adoptado varios estándares neutrales en cuanto a proveedores, algunos de los cuales han sido adoptados por la Organización Internacional de Normalización (ISO). [4]
Otro avance en la década de 1990 fue la publicación de formatos de archivos propietarios por parte de los proveedores de software SIG, lo que permitió que otros programas los utilizaran. El ejemplo más notable de esto fue la publicación del formato Shapefile de Esri , [5] que a fines de la década de 1990 se había convertido en el estándar de facto más popular para compartir datos en toda la industria geoespacial. [6] Cuando no se compartían formatos propietarios (por ejemplo, la cobertura ESRI ARC/INFO), los desarrolladores de software con frecuencia los modificaban a la inversa para permitir la importación y exportación en otro software, lo que facilitaba aún más el intercambio de datos. Un resultado de esto fue el surgimiento de bibliotecas de software libre y de código abierto , como la Biblioteca de Abstracción de Datos Geoespaciales (GDAL) , que han facilitado enormemente la integración de datos espaciales en cualquier formato en una variedad de software. [7]
Durante la década de 2000, la necesidad de archivos espaciales especializados se redujo un poco con la aparición de bases de datos espaciales , que incorporaron datos espaciales en bases de datos relacionales de uso general. Sin embargo, han seguido apareciendo nuevos formatos de archivo, especialmente con la proliferación de la cartografía web; formatos como Keyhole Markup Language (KML) y GeoJSON se pueden integrar más fácilmente en lenguajes de desarrollo web que los archivos SIG tradicionales.
Se han creado más de cien formatos distintos para el almacenamiento de datos espaciales, de los cuales entre 20 y 30 se utilizan actualmente para distintos fines. Se pueden distinguir de varias maneras:
Al igual que cualquier imagen digital, los datos SIG rasterizados se basan en una teselación regular del espacio en una cuadrícula rectangular de filas y columnas de celdas (también conocidas como píxeles ), en la que cada celda tiene almacenado un valor medido. La principal diferencia con una fotografía es que la cuadrícula está registrada en un espacio geográfico en lugar de en un campo de visión. La resolución del conjunto de datos rasterizados es el ancho de sus celdas en unidades terrestres.
Debido a que una cuadrícula es una muestra de un espacio continuo, los datos ráster se utilizan con mayor frecuencia para representar campos geográficos , en los que una propiedad varía de forma continua o discreta en el espacio. Algunos ejemplos comunes incluyen imágenes de teledetección , terreno/elevación , densidad de población , clima y tiempo , propiedades del suelo y muchos otros. Los datos ráster pueden ser imágenes en las que cada píxel (o celda) contiene un valor de color. El valor registrado para cada celda puede ser de cualquier nivel de medición , incluido un valor cualitativo discreto, como el tipo de uso del suelo, o un valor cuantitativo continuo, como la temperatura, o un valor nulo si no hay datos disponibles. Si bien una celda ráster almacena un solo valor, se puede ampliar mediante el uso de bandas ráster para representar colores RGB (rojo, verde, azul), mapas de colores (una asignación entre un código temático y un valor RGB) o una tabla de atributos extendida con una fila para cada valor de celda único. También se puede utilizar para representar características geográficas discretas , pero generalmente solo en circunstancias exigentes.
Los datos ráster se almacenan en varios formatos: desde una estructura estándar basada en archivos TIFF, JPEG, etc. hasta datos binarios de objetos grandes (BLOB) almacenados directamente en un sistema de gestión de bases de datos relacionales (RDBMS) similar a otras clases de entidades basadas en vectores. El almacenamiento de bases de datos, cuando está correctamente indexado, generalmente permite una recuperación más rápida de los datos ráster, pero puede requerir el almacenamiento de millones de registros de tamaño significativo.
Un conjunto de datos vectoriales (a veces denominado conjunto de datos de características ) almacena información sobre objetos discretos, utilizando una codificación del modelo de datos lógicos vectoriales para representar la ubicación o la geometría de cada objeto, y una codificación de sus otras propiedades que generalmente se basa en la tecnología de bases de datos relacionales . Por lo general, un único conjunto de datos recopila información sobre un conjunto de objetos estrechamente relacionados o similares, como todas las calles de una ciudad.
El modelo de datos vectoriales utiliza geometría de coordenadas para representar cada forma como una de varias primitivas geométricas , más comúnmente puntos (una única coordenada de dimensión cero ), líneas (una lista ordenada unidimensional de coordenadas conectadas por líneas rectas) y polígonos (una línea límite que se cierra automáticamente y encierra una región bidimensional). Se han desarrollado muchas estructuras de datos para codificar estas primitivas como datos digitales, pero la mayoría de los formatos de archivos vectoriales modernos se basan en la especificación de características simples del Open Geospatial Consortium (OGC) , que a menudo incorpora directamente sus codificaciones de texto conocido (WKT) o binario conocido (WKB).
Además de la geometría de cada objeto, un conjunto de datos vectoriales también debe poder almacenar sus atributos . Por ejemplo, una base de datos que describe lagos puede contener la profundidad de cada lago, la calidad del agua y el nivel de contaminación. Desde la década de 1970, casi todos los formatos de archivos vectoriales han adoptado el modelo de base de datos relacional , ya sea en principio o incorporando directamente software RDBMS . De este modo, todo el conjunto de datos se almacena en una tabla , donde cada fila representa un único objeto que contiene columnas para cada atributo. [12] : 256
Se han utilizado dos estrategias para integrar la geometría y los atributos en una única estructura de formato de archivo vectorial: [13]
La topología geoespacial es a menudo una parte importante de los datos vectoriales, que representa las relaciones espaciales inherentes (especialmente la adyacencia) entre objetos. La topología se ha gestionado en formatos de archivos vectoriales de cuatro formas. En una estructura de datos topológicos , en particular POLYVRT de Harvard y su sucesora, la cobertura ARC/INFO , las conexiones topológicas entre puntos, líneas y polígonos son una parte inherente de la codificación de esas características. [8] : 46–49 Por el contrario, los datos no topológicos o espagueti (como Esri Shapefile y la mayoría de las bases de datos espaciales ) no incluyen información topológica, y cada geometría es completamente independiente de todas las demás. Un conjunto de datos de topología (utilizado a menudo en el análisis de redes ) aumenta los datos espagueti con un archivo separado que codifica las conexiones topológicas. [12] : 218 Una base de reglas de topología es una lista de reglas topológicas deseadas que se utilizan para hacer cumplir la integridad espacial en datos espagueti, como "los polígonos del condado no deben superponerse" y "los polígonos estatales deben compartir límites con los polígonos del condado". [13]
Los conjuntos de datos vectoriales suelen representar características geográficas discretas , como edificios, árboles y condados. Sin embargo, también se pueden utilizar para representar campos geográficos almacenando ubicaciones donde se ha muestreado el campo espacialmente continuo. Los puntos de muestra (por ejemplo, estaciones meteorológicas y redes de sensores ), las líneas de contorno y las redes irregulares trianguladas (TIN) se utilizan para representar la elevación u otros valores que cambian continuamente en el espacio. Las TIN registran valores en ubicaciones de puntos, que están conectados por líneas para formar una malla irregular de triángulos. La cara de los triángulos representa la superficie del terreno.
Formatos comúnmente utilizados actualmente:
Formatos históricos que rara vez se utilizan hoy en día:
Existen algunas ventajas y desventajas importantes al utilizar un modelo de datos raster o vectoriales para representar la realidad:
Las bases de datos relacionales de objetos modernas ahora pueden almacenar una variedad de datos complejos utilizando el tipo de datos de objetos grandes binarios , incluidas cuadrículas ráster y geometrías vectoriales. Esto permite que algunos sistemas de bases de datos espaciales almacenen datos de ambos modelos en la misma base de datos.