stringtranslate.com

Geocodificación de direcciones

La geocodificación de direcciones , o simplemente geocodificación , es el proceso de tomar una descripción basada en texto de una ubicación, como una dirección o el nombre de un lugar , y devolver coordenadas geográficas , con frecuencia el par latitud/longitud, para identificar una ubicación en la superficie de la Tierra. [1] La geocodificación inversa , por otro lado, convierte las coordenadas geográficas en una descripción de una ubicación, generalmente el nombre de un lugar o una ubicación direccionable. La geocodificación se basa en una representación por computadora de puntos de dirección, la red de calles/caminos, junto con los límites postales y administrativos.

Las coordenadas geográficas que representan ubicaciones suelen variar mucho en cuanto a precisión posicional. Algunos ejemplos son los centroides de edificios , los centroides de parcelas de tierra , las ubicaciones interpoladas basadas en rangos de vías públicas , los centroides de segmentos de calles, los centroides de códigos postales (por ejemplo, códigos ZIP , CEDEX ) y los centroides de divisiones administrativas .

Historia

La geocodificación, un subconjunto del análisis espacial del Sistema de Información Geográfica (SIG) , ha sido un tema de interés desde principios de la década de 1960.

Década de 1960

En 1960, el Dr. Roger Tomlinson , reconocido desde entonces como el padre del SIG, inventó el primer SIG operativo, denominado Sistema de Información Geográfica de Canadá (SIGC). El SIG se utilizó para almacenar y analizar datos recopilados para el Inventario de Tierras de Canadá , que cartografiaba información sobre agricultura , vida silvestre y silvicultura a una escala de 1:50 000, con el fin de regular la capacidad de uso de tierras para las zonas rurales de Canadá . Sin embargo, el SIG duró hasta la década de 1990 y nunca estuvo disponible comercialmente.

El 1 de julio de 1963, el Departamento de Correos de los Estados Unidos (USPOD) introdujo en todo el país los códigos postales de cinco dígitos. En 1983, se introdujeron los códigos postales de nueve dígitos +4 como un identificador adicional para localizar direcciones con mayor precisión.

En 1964, el Laboratorio de Gráficos Computacionales y Análisis Espacial de Harvard desarrolló un código de software innovador (por ejemplo, GRID y SYMAP), todos los cuales fueron fuentes para el desarrollo comercial de SIG.

En 1967, un equipo de la Oficina del Censo, que incluía al matemático James Corbett [3] y Donald Cooke [4] , inventó la codificación dual independiente de mapas (DIME, por sus siglas en inglés), el primer modelo moderno de mapeo vectorial, que cifraba rangos de direcciones en archivos de red de calles e incorporaba el algoritmo de geocodificación "porcentaje a lo largo". [5] Todavía en uso por plataformas como Google Maps y MapQuest , el algoritmo "porcentaje a lo largo" denota dónde se encuentra una dirección coincidente a lo largo de una característica de referencia como un porcentaje de la longitud total de la característica de referencia. DIME fue pensado para el uso de la Oficina del Censo de los Estados Unidos e implicaba mapear con precisión las caras de los bloques, digitalizar los nodos que representan las intersecciones de las calles y formar relaciones espaciales . New Haven, Connecticut, fue la primera ciudad en la Tierra con una base de datos de red de calles geocodificables.

Década de 1980

A finales de la década de 1970, se estaban desarrollando dos plataformas de geocodificación de dominio público : GRASS GIS y MOSS. A principios de la década de 1980, aparecieron muchos más proveedores comerciales de software de geocodificación, a saber, Intergraph , ESRI , CARIS , ERDAS y MapInfo Corporation . Estas plataformas fusionaron el enfoque de la década de 1960 de separar la información espacial con el enfoque de organizar esta información espacial en estructuras de bases de datos.

En 1986, Mapping Display and Analysis System (MIDAS) se convirtió en el primer software de geocodificación de escritorio, diseñado para el sistema operativo DOS . La geocodificación pasó del departamento de investigación al mundo empresarial con la adquisición de MIDAS por parte de MapInfo. Desde entonces, MapInfo ha sido adquirida por Pitney Bowes y ha sido pionera en la fusión de la geocodificación con la inteligencia empresarial, lo que permite que la inteligencia de ubicación proporcione soluciones para los sectores público y privado .

Década de 1990

A finales del siglo XX, la geocodificación se había vuelto más orientada al usuario, especialmente a través del software SIG de código abierto. Las aplicaciones cartográficas y los datos geoespaciales se habían vuelto más accesibles a través de Internet.

Debido a que la técnica de envío y devolución por correo tuvo tanto éxito en el Censo de 1980 , la Oficina del Censo de los EE. UU. pudo armar una gran base de datos geoespacial, utilizando geocodificación de calles interpolada . [6] Esta base de datos, junto con la cobertura nacional de hogares del Censo, permitió el nacimiento de TIGER ( codificación y referencia geográfica topológicamente integrada ).

TIGER, que contiene rangos de direcciones en lugar de direcciones individuales, se ha implementado desde entonces en casi todas las plataformas de software de geocodificación que se utilizan en la actualidad. A fines del censo de 1990 , TIGER "contenía una coordenada de latitud y longitud para más de 30 millones de intersecciones y puntos finales de entidades y casi 145 millones de puntos de 'forma' de entidades que definían los más de 42 millones de segmentos de entidades que delineaban más de 12 millones de polígonos". [7]

TIGER supuso un gran avance en las soluciones geoespaciales de “big data”.

Década de 2000

A principios de la década de 2000, surgió la estandarización de direcciones mediante el sistema de soporte de precisión de codificación (CASS, por sus siglas en inglés) . La certificación CASS se ofrece a todos los proveedores de software y empresas de correo publicitario que desean que el Servicio Postal de los Estados Unidos (USPS, por sus siglas en inglés) evalúe la calidad de su software de estandarización de direcciones. La certificación CASS, que se renueva anualmente, se basa en códigos de puntos de entrega , códigos postales y códigos ZIP+4. La adopción de un software certificado por CASS por parte de los proveedores de software les permite recibir descuentos en los costos de envío y correo masivo . Pueden beneficiarse de una mayor precisión y eficiencia en esos envíos masivos, después de tener una base de datos certificada. A principios de la década de 2000, las plataformas de geocodificación también podían admitir múltiples conjuntos de datos.

En 2003, las plataformas de geocodificación fueron capaces de fusionar códigos postales con datos de calles, actualizados mensualmente. Este proceso se conoció como "conflation".

A partir de 2005, las plataformas de geocodificación incluyeron la geocodificación por centroide de parcelas. La geocodificación por centroide de parcelas permitió una gran precisión en la geocodificación de una dirección. Por ejemplo, el centroide de parcelas permitió que un geocodificador determinara el centroide de un edificio o lote de terreno específico. Las plataformas ahora también podían determinar la elevación de parcelas específicas .

En 2005 también se introdujo el Número de parcela del tasador (APN, por sus siglas en inglés) . El tasador fiscal de una jurisdicción podía asignar este número a las parcelas de bienes inmuebles, lo que permitía una identificación y un registro adecuados. Un APN es importante para geocodificar un área cubierta por un contrato de arrendamiento de gas o petróleo, y para indexar la información sobre impuestos a la propiedad que se proporciona al público.

En 2006, se introdujeron en las plataformas de geocodificación la geocodificación inversa y la búsqueda inversa de APN. Esto implicaba geocodificar la ubicación de un punto numérico (con una longitud y una latitud ) en una dirección textual legible.

En 2008 y 2009, crecieron las plataformas de geocodificación interactivas y orientadas al usuario, como MapQuest, Google Maps, Bing Maps y los sistemas de posicionamiento global (GPS). Estas plataformas se volvieron aún más accesibles al público con el crecimiento simultáneo de la industria móvil, en particular los teléfonos inteligentes.

Década de 2010

En la década de 2010, los proveedores dieron soporte total a la geocodificación y la geocodificación inversa a nivel mundial. La interfaz de programación de aplicaciones (API) de geocodificación basada en la nube y la geocodificación local permitieron una mayor tasa de coincidencia, mayor precisión y mayor velocidad. Actualmente, la idea de que la geocodificación pueda influir en las decisiones comerciales es popular. Se trata de la integración entre el proceso de geocodificación y la inteligencia empresarial.

El futuro de la geocodificación también incluye la geocodificación tridimensional, la geocodificación en interiores y el retorno de datos en múltiples idiomas para las plataformas de geocodificación.

Proceso de geocodificación

La geocodificación es una tarea que implica múltiples conjuntos de datos y procesos, todos los cuales trabajan en conjunto. Algunos de los componentes son proporcionados por el usuario, mientras que otros están integrados en el software de geocodificación.

Conjunto de datos de entrada

Los datos de entrada son la información textual descriptiva (dirección o nombre del edificio) que el usuario desea convertir en datos espaciales numéricos (latitud y longitud) mediante el proceso de geocodificación. Estos suelen incluirse en una tabla con otros atributos de las ubicaciones. Los datos de entrada se clasifican en dos categorías:

Datos de entrada relativos
Los datos de entrada relativos son las descripciones textuales de una ubicación que, por sí solas, no pueden especificar una representación espacial de esa ubicación, sino que dependen geográficamente y son geográficamente relativas a otras ubicaciones. Un ejemplo de geocodificación relativa es "Al otro lado de la calle del Empire State Building". La ubicación que se busca no se puede determinar sin identificar el Empire State Building. Las plataformas de geocodificación a menudo no admiten este tipo de ubicaciones relativas, pero se están realizando avances en esta dirección.
Datos de entrada absolutos
Los datos de entrada absolutos son las descripciones textuales de una ubicación que, por sí solas, pueden generar una representación espacial de esa ubicación. Este tipo de datos genera una ubicación conocida absoluta independientemente de otras ubicaciones. Por ejemplo, los códigos postales de USPS; los códigos postales de USPS ZIP+4; las direcciones postales completas y parciales; los apartados postales de USPS; las rutas rurales; las ciudades; los condados; las intersecciones; y los lugares nombrados pueden referenciarse en una fuente de datos de forma absoluta.

Para lograr la mayor precisión, los códigos geográficos en el conjunto de datos de entrada deben ser lo más correctos posible y tener un formato estándar. Por lo tanto, es común pasar primero por un proceso de limpieza de datos , a menudo llamado "limpieza de direcciones", para encontrar y corregir cualquier error. Esto es especialmente importante para las bases de datos en las que los participantes ingresan sus propios códigos geográficos de ubicación, lo que con frecuencia da como resultado una variedad de formas (por ejemplo, "Pensilvania", "PA", "Penn.") y errores ortográficos.

Conjunto de datos de referencia

El segundo conjunto de datos necesario especifica las ubicaciones de las características geográficas en un sistema de referencia espacial común , generalmente almacenado en un formato de archivo SIG o una base de datos espacial . Los ejemplos incluyen un conjunto de datos de puntos de edificios, un conjunto de datos de líneas de calles o un conjunto de datos de polígonos de condados. Los atributos de estas características deben incluir información que coincida con los códigos geográficos en el conjunto de datos de entrada, como un nombre, un identificador único o un código geográfico estándar, como los códigos FIPS de los Estados Unidos para características geográficas. Es común que el conjunto de datos de referencia incluya múltiples columnas de atributos de códigos geográficos para mayor flexibilidad o manejo de códigos geográficos complejos. Por ejemplo, un conjunto de datos de calles destinado a usarse para la geocodificación de direcciones de calles debe incluir no solo el nombre de la calle, sino también cualquier sufijo o prefijo direccional y el rango de números de dirección que se encuentren en cada segmento.

Algoritmo de geocodificación

El tercer componente es un software que relaciona cada geocódigo del conjunto de datos de entrada con los atributos de una característica correspondiente en el conjunto de datos de referencia. Una vez que se establece la correspondencia, la ubicación de la característica de referencia se puede adjuntar a la fila de entrada. Estos algoritmos son de dos tipos:

Partido directo
El geocodificador espera que cada elemento de entrada corresponda directamente a una única característica completa en el conjunto de datos de referencia. Por ejemplo, un país o un código postal, o direcciones de calles coincidentes con datos de referencia de puntos de construcción. Este tipo de coincidencia es similar a una unión de tablas relacionales , excepto que los algoritmos del geocodificador generalmente incorporan algún tipo de manejo de incertidumbre para reconocer coincidencias aproximadas (por ejemplo, mayúsculas diferentes o pequeños errores de ortografía).
Coincidencia interpolada
El geocodificador no solo especifica una característica, sino también una ubicación dentro de esa característica. El ejemplo más común (y más antiguo) es la comparación de direcciones de calles con datos de líneas de calles. Primero, el geocodificador analiza la dirección de la calle en sus partes componentes (nombre de la calle, número, prefijo/sufijo direccional). El geocodificador compara estos componentes con un segmento de calle correspondiente con un rango de números que incluye el valor de entrada. Luego, calcula dónde cae el número dado dentro del rango del segmento para estimar una ubicación a lo largo del segmento. Al igual que con la comparación directa, estos algoritmos generalmente tienen un manejo de incertidumbre para manejar las coincidencias aproximadas (especialmente abreviaturas como "E" para "Este" y "Dr" para "Drive").

El algoritmo rara vez puede localizar perfectamente todos los datos de entrada; pueden producirse discrepancias debido a datos de entrada mal escritos o incompletos, datos de referencia imperfectos (normalmente obsoletos) o sistemas de geocodificación regionales únicos que el algoritmo no reconoce. Muchos geocodificadores ofrecen una etapa de seguimiento para revisar y corregir manualmente las coincidencias sospechosas.

Interpolación de direcciones

Un método simple de geocodificación es la interpolación de direcciones . Este método utiliza datos de un sistema de información geográfica de calles donde la red de calles ya está mapeada dentro del espacio de coordenadas geográficas. A cada segmento de calle se le atribuyen rangos de direcciones (por ejemplo, números de casa de un segmento al siguiente). La geocodificación toma una dirección, la relaciona con una calle y un segmento específico (como una cuadra , en las ciudades que usan la convención de "manzana"). Luego, la geocodificación interpola la posición de la dirección, dentro del rango a lo largo del segmento.

Ejemplo

Tomemos como ejemplo: 742 Evergreen Terrace

Digamos que este segmento (por ejemplo, una cuadra) de Evergreen Terrace va desde el 700 hasta el 799. Las direcciones pares se encuentran en el lado este de Evergreen Terrace, y las impares en el lado oeste de la calle. El 742 de Evergreen Terrace estaría (probablemente) ubicado un poco menos de la mitad de la cuadra, en el lado este de la calle. Se trazaría un punto en esa ubicación a lo largo de la calle, tal vez desplazado una distancia al este de la línea central de la calle.

Factores que complican la situación

Sin embargo, este proceso no siempre es tan sencillo como en este ejemplo. Surgen dificultades cuando

Si bien puede haber un 742 Evergreen Terrace en Springfield, también puede haber un 742 Evergreen Terrace en Shelbyville. Pedir el nombre de la ciudad (y el estado, la provincia, el país, etc., según sea necesario) puede resolver este problema. Boston , Massachusetts [8] tiene múltiples ubicaciones de "100 Washington Street" porque varias ciudades se han anexado sin cambiar los nombres de las calles, lo que requiere el uso de códigos postales únicos o nombres de distrito para desambiguar. La precisión de la geocodificación se puede mejorar en gran medida utilizando primero buenas prácticas de verificación de direcciones . La verificación de direcciones confirmará la existencia de la dirección y eliminará las ambigüedades. Una vez que se determina la dirección válida, es muy fácil geocodificar y determinar las coordenadas de latitud/longitud. Finalmente, varias advertencias sobre el uso de la interpolación:

Un error muy común es creer en las calificaciones de precisión de los atributos geocodificables de un mapa determinado. La precisión que citan los proveedores no tiene relación con que una dirección se atribuya al segmento correcto o al lado correcto del segmento, ni con que resulte en una posición precisa a lo largo de ese segmento correcto. Con el proceso de geocodificación utilizado para los conjuntos de datos TIGER del censo de EE. UU. , entre el 5 y el 7,5 % de las direcciones pueden asignarse a un tramo censal diferente , mientras que un estudio del sistema similar a TIGER de Australia encontró que el 50 % de los puntos geocodificados se asignaron a la parcela de propiedad incorrecta. [9] La precisión de los datos geocodificados también puede tener relación con la calidad de la investigación que utiliza estos datos. Un estudio [10] realizado por un grupo de investigadores de Iowa encontró que el método común de geocodificación que utiliza conjuntos de datos TIGER como se describió anteriormente, puede causar una pérdida de hasta el 40 % del poder de un análisis estadístico. Una alternativa es utilizar datos codificados en imágenes o ortofotografías , como los datos de Address Point de Ordnance Survey en el Reino Unido, pero estos conjuntos de datos suelen ser caros.

Por este motivo, es muy importante evitar el uso de resultados interpolados, salvo en el caso de aplicaciones no críticas. La geocodificación interpolada no suele ser adecuada para tomar decisiones autorizadas, por ejemplo, si la seguridad de la vida se verá afectada por esa decisión. Los servicios de emergencia, por ejemplo, no toman una decisión autorizada en función de sus interpolaciones; siempre se enviará una ambulancia o un camión de bomberos independientemente de lo que diga el mapa. [ cita requerida ]

Otras técnicas

En las zonas rurales u otros lugares donde no hay datos de calidad sobre la red de calles ni direcciones, el GPS resulta útil para mapear una ubicación. En el caso de los accidentes de tránsito, la geocodificación con respecto a una intersección de calles o un punto medio a lo largo de la línea central de una calle es una técnica adecuada. La mayoría de las carreteras de los países desarrollados tienen marcadores de millas para ayudar en la respuesta a emergencias, el mantenimiento y la navegación. También es posible utilizar una combinación de estas técnicas de geocodificación: utilizar una técnica particular para ciertos casos y situaciones y otras técnicas para otros casos. A diferencia de la geocodificación de registros de direcciones postales estructurados, la resolución de topónimos asigna los nombres de lugares en colecciones de documentos no estructurados a sus huellas espaciales correspondientes.

Investigación

La investigación ha introducido un nuevo enfoque para los aspectos de control y conocimiento de la geocodificación, mediante el uso de un paradigma basado en agentes. [12] Además del nuevo paradigma para la geocodificación, se han desarrollado técnicas de corrección adicionales y algoritmos de control. [13] El enfoque representa los elementos geográficos que se encuentran comúnmente en las direcciones como agentes individuales. Esto proporciona una similitud y dualidad al control y la representación geográfica. Además de la publicación científica, el nuevo enfoque y el prototipo posterior obtuvieron cobertura mediática nacional en Australia. [14] La investigación se llevó a cabo en la Universidad Curtin en Perth, Australia Occidental. [15]

Con el reciente avance en aprendizaje profundo y visión artificial, se ha propuesto un nuevo flujo de trabajo de geocodificación que aprovecha las técnicas de detección de objetos para extraer directamente el centroide de los tejados de los edificios como salida de geocodificación. [16]

Usos

Las ubicaciones geocodificadas son útiles en muchos análisis de SIG, cartografía, flujos de trabajo de toma de decisiones, combinación de transacciones o se incorporan a procesos empresariales más amplios. En la web, la geocodificación se utiliza en servicios como la búsqueda local y la planificación de rutas . La geocodificación, junto con el GPS, proporciona datos de ubicación para geoetiquetar medios, como fotografías o elementos RSS .

Preocupaciones sobre la privacidad

La proliferación y la facilidad de acceso a los servicios de geocodificación (y geocodificación inversa ) plantean problemas de privacidad. Por ejemplo, al mapear incidentes delictivos, las agencias de aplicación de la ley buscan equilibrar los derechos de privacidad de las víctimas y los infractores con el derecho del público a saber. Las agencias de aplicación de la ley han experimentado con técnicas de geocodificación alternativas que les permiten ocultar una parte de los detalles de ubicación (por ejemplo, detalles de la dirección que llevarían a identificar a una víctima o un infractor). Además, al proporcionar mapas de delitos en línea al público, también incluyen descargos de responsabilidad con respecto a la precisión de la ubicación de los puntos en el mapa, reconociendo estas técnicas de enmascaramiento de la ubicación e imponen términos de uso para la información.

Véase también

Referencias

  1. ^ Leidner, JL (2017). "Georreferenciación: de textos a mapas". Enciclopedia Internacional de Geografía: Gente, Tierra, Medio Ambiente y Tecnología . vi : 2897–2907. doi :10.1002/9781118786352.wbieg0160. ISBN 9780470659632.
  2. ^ El término "geocodificar" como verbo, según la definición del Oxford English Dictionary en https://en.oxforddictionaries.com/definition/geocode Archivado el 26 de abril de 2018 en Wayback Machine
  3. ^ Corbett, James P. Principios topológicos en cartografía. Vol. 48. Departamento de Comercio de los Estados Unidos, Oficina del Censo, 1979.
  4. ^ "CV breve" (PDF) . Consultado el 9 de abril de 2023 .
  5. ^ Olivares, Miriam. "Sistemas de información geográfica en Yale: recursos de geocodificación". guides.library.yale.edu . Consultado el 22 de junio de 2016 .
  6. ^ "Habilitación espacial de los datos: ¿qué es la geocodificación?". Servicio Nacional de Referencia sobre Justicia Penal . Consultado el 22 de junio de 2016 .
  7. ^ "25º aniversario de TIGER". census.maps.arcgis.com . Consultado el 22 de junio de 2016 .
  8. ^ "Google Maps". Google Maps . Consultado el 9 de abril de 2023 .
  9. ^ Ratcliffe, Jerry H. (2001). "Sobre la precisión de los datos de direcciones geocodificadas de tipo TIGER en relación con las unidades de área catastrales y censales" (PDF) . Revista Internacional de Ciencias de la Información Geográfica . 15 (5): 473–485. Código Bibliográfico :2001IJGIS..15..473R. doi :10.1080/13658810110047221. S2CID  14061774. Archivado desde el original (PDF) el 23 de junio de 2006.
  10. ^ Mazumdar S, Rushton G, Smith B, et al. (2008). "Precisión de la geocodificación y recuperación de las relaciones entre las exposiciones ambientales y la salud". Revista internacional de geografía de la salud . 7 : 1–13. doi : 10.1186/1476-072X-7-13 . PMC 2359739 . PMID  18387189. 
  11. ^ Rwerekane, Valentin; Ndashimye, Maurice (2017). "Esquema de código postal basado en codificación de áreas naturales" (PDF) . Revista internacional de ingeniería informática y de comunicaciones . 6 (3): 161–172. doi :10.17706/IJCCE.2017.6.3.161-172 . Consultado el 25 de agosto de 2022 .
  12. ^ Hutchinson, Matthew J (2010). Desarrollo de un marco basado en agentes para la geocodificación inteligente (tesis doctoral). Universidad de Curtin.
  13. ^ Un marco basado en agentes para habilitar servicios de geocodificación inteligente
  14. ^ Jennifer Foreshew (24 de noviembre de 2009). "Las direcciones difíciles no son un problema para IntelliGeoLocator". The Australian . Consultado el 9 de mayo de 2011 .
  15. ^ Departamento de Educación, Australia Occidental (abril de 2011). "X marks the spot" (La X marca el lugar). School Matters . Consultado el 9 de mayo de 2011 .
  16. ^ Yin, Zhengcong; et al. (2019). "Un enfoque de aprendizaje profundo para la geocodificación de tejados". Transactions in GIS . 23 (3): 495–514. Bibcode :2019TrGIS..23..495Y. doi :10.1111/tgis.12536. S2CID  195804197.

Enlaces externos