stringtranslate.com

Resolución de topónimos

En los sistemas de información geográfica , la resolución de topónimos es el proceso de relación entre un topónimo , es decir, la mención de un lugar, y una huella espacial inequívoca del mismo lugar. [1]

Los lugares mencionados en las colecciones de textos digitalizados constituyen una rica fuente de datos para investigadores de muchas disciplinas. Sin embargo, los topónimos en el uso del lenguaje son ambiguos y difíciles de asignar un referente definido en el mundo real . Con el tiempo, los nombres geográficos establecidos pueden cambiar (como en "Bizancio" > "Constantinopla" > "Estambul"); o pueden reutilizarse palabra por palabra ("Boston" en Inglaterra, Reino Unido frente a "Boston" en Massachusetts, EE. UU.), o con modificaciones (como en "York" frente a "Nueva York"). Para mapear un conjunto de nombres de lugares o topónimos que aparecen en un documento con sus correspondientes coordenadas de latitud / longitud , un polígono o cualquier otra huella espacial, es necesario un paso de desambiguación. Un algoritmo de resolución de topónimos es un método automático que realiza un mapeo de un topónimo a una huella espacial.

Algunos métodos de resolución de topónimos emplean un diccionario geográfico de posibles asignaciones entre nombres y huellas espaciales. [2]

Proceso de resolución

La "huella espacial inequívoca del mismo lugar" [1] de la definición puede ser, de hecho, inequívoca o "no tan inequívoca". Existen algunos contextos diferentes de incertidumbre donde puede ocurrir el proceso de resolución:

De la evidencia geográfica

La resolución del topónimo a veces es una simple conversión de nombre a abreviatura, en especial cuando la abreviatura se utiliza como código geográfico estándar . Por ejemplo, convertir el nombre oficial del país Afganistán en un código de país ISO , AF.

Al anotar medios y metadatos , la conversión utilizando un mapa y evidencia geográfica (por ejemplo, GPS) es el enfoque más habitual para obtener un topónimo o un código geográfico que represente el topónimo.

De la evidencia textual

A diferencia de la geocodificación de direcciones postales, que normalmente se almacenan en registros de bases de datos estructuradas , la resolución de topónimos suele aplicarse a grandes colecciones de documentos de texto no estructurados para asociar las ubicaciones mencionadas en ellos con mapas. Si algunos de esos documentos de texto están geoetiquetados (por ejemplo, porque son publicaciones de microblogs con latitud y longitud agregadas automáticamente), se pueden utilizar para inferir la especificidad geográfica variable de términos arbitrarios, por ejemplo, "teleférico" o "alta marea" [3] .

El proceso de anotar medios (por ejemplo, imágenes, texto, vídeo) utilizando huellas espaciales se conoce como Geoetiquetado . Para geoetiquetar automáticamente un documento de texto, generalmente se siguen los siguientes pasos: reconocimiento de topónimos (es decir, detectar referencias textuales a ubicaciones geográficas) y resolución de topónimos (es decir, seleccionar una interpretación de ubicación adecuada para cada referencia geográfica).

El reconocimiento de topónimos puede considerarse como un caso especial de reconocimiento de entidades nombradas donde el objetivo es simplemente derivar entidades de ubicación. Sin embargo, el resultado del reconocimiento de entidades nombradas se puede mejorar aún más utilizando reglas elaboradas manualmente o reglas estadísticas. [4]

Para obtener interpretaciones de ubicación, los modelos de resolución tienden a aprovechar los diccionarios geográficos (es decir, enormes bases de datos de ubicaciones) como GeoNames y OpenStreetMap . Un enfoque ingenuo para resolver topónimos es elegir la interpretación más completa de la lista de candidatos. Por ejemplo, en el siguiente extracto:

Un hombre de Toronto que vive y trabaja en Londres tiene "un futuro incierto" en el Reino Unido después del Brexit

—  CBC

El enfoque ingenuo parece viable ya que los topónimos Toronto y Londres se refieren a su interpretación más común, ubicada en Canadá y Gran Bretaña respectivamente, mientras que en el siguiente artículo de una noticia:

Tren de alta velocidad entre Toronto y Londres para 2025

—  CBC

Este enfoque no logra identificar el topónimo Londres como la ciudad ubicada en Ontario, Canadá . Por lo tanto, seleccionar la población más alta no puede funcionar bien para topónimos en un contexto localizado.

Además, la resolución de topónimos no aborda la metonimia en general. Sin embargo, una técnica de resolución aún puede eliminar la ambigüedad de una referencia metonimia siempre que se identifique como topónimo en la fase de reconocimiento. Por ejemplo, en el siguiente extracto:

Canadá también está ajustando sus leyes de conducción para tener en cuenta los casos de DUI relacionados con el cannabis.

-  don

Canadá indica una metonimia y se refiere al "gobierno de Canadá". Sin embargo, puede ser identificado como una ubicación mediante un reconocedor genérico de entidades con nombre y, por lo tanto, un solucionador de topónimos puede eliminar la ambigüedad.

Enfoques

Los métodos de resolución de topónimos generalmente se pueden dividir en modelos supervisados ​​y no supervisados . Los métodos supervisados ​​generalmente presentan el problema como una tarea de aprendizaje en la que el modelo primero extrae características contextuales y no contextuales y luego, se entrena un clasificador en un conjunto de datos etiquetado. El modelo adaptativo [5] es uno de los modelos destacados propuestos para resolver topónimos. Para cada interpretación de un topónimo, el modelo deriva características sensibles al contexto basadas en la proximidad geográfica y las relaciones entre hermanos con otras interpretaciones. Además de las características relacionadas con el contexto, el modelo se beneficia de características libres de contexto, incluidas la población y la ubicación de la audiencia. Por otra parte, los modelos no supervisados ​​no justifican datos anotados. Son superiores a los modelos supervisados ​​cuando el corpus anotado no es lo suficientemente grande y es posible que los modelos supervisados ​​no se generalicen bien. [6]

Los modelos no supervisados ​​tienden a explotar mejor la interacción de topónimos mencionados en un documento. El modelo Context-Jerarchy Fusion [6] estima el alcance geográfico de los documentos y aprovecha las conexiones entre nombres de lugares cercanos como evidencia para resolver topónimos. Al mapear el problema en un problema de cobertura de conjuntos libre de conflictos , este modelo logra una resolución coherente y sólida.

Además, se ha demostrado que la adopción de Wikipedia y bases de conocimientos es eficaz en la resolución de topónimos. TopoCluster [7] modela los sentidos geográficos de las palabras incorporando páginas de ubicaciones de Wikipedia y elimina la ambigüedad de los topónimos utilizando los sentidos espaciales de las palabras en el texto.

Geoparsing

El geoparsing es un proceso especial de resolución de topónimos que convierte descripciones de lugares en texto libre (como "veinte millas al noreste de Jalalabad") en identificadores geográficos inequívocos, como coordenadas geográficas expresadas como latitud - longitud . También se pueden geoanalizar referencias de ubicación de otras formas de medios, por ejemplo, contenido de audio en el que un hablante menciona un lugar. Con coordenadas geográficas, las características se pueden mapear e ingresar en sistemas de información geográfica . Dos usos principales de las coordenadas geográficas derivadas del contenido no estructurado son trazar partes del contenido en mapas y buscar el contenido utilizando un mapa como filtro.

El análisis geográfico va más allá de la codificación geográfica . La geocodificación analiza referencias de ubicación estructuradas e inequívocas, como direcciones postales y coordenadas numéricas rigurosamente formateadas. Geoparsing maneja referencias ambiguas en discursos no estructurados, como "Al Hamra", que es el nombre de varios lugares, incluidas ciudades de Siria y Yemen.

Un geoparser es una pieza de software o un servicio (web) que ayuda en este proceso. Algunos ejemplos:

Referencias

  1. ^ ab Leidner, Jochen L. (2007). Resolución de topónimos en texto: anotación, evaluación y aplicaciones de la puesta a tierra espacial (Doctor). Universidad de Edimburgo. hdl : 1842/1849.
  2. ^ Colina, Linda L. (2006). Georreferenciación: Las asociaciones geográficas de información. La prensa del MIT. ISBN 978-0262083546.
  3. ^ Berggren, Max; Karlgren, Jussi ; Östling, Robert; Parkvall, Mikaël (2016). "Inferir la ubicación de los autores a partir de palabras en sus textos". Actas de la Conferencia Nórdica sobre Lingüística Computacional . arXiv : 1612.06671 .
  4. ^ Liberman, Michael D.; Samet, Hanan (2011). Reconocimiento de topónimos multifacético para transmisión de noticias (PDF) . Actas de la 34ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información. págs. 843–852. doi :10.1145/2009916.2010029.
  5. ^ Liberman, Michael D.; Samet, Hanan (2012). Funciones de contexto adaptativo para resolución de topónimos en transmisión de noticias (PDF) . Actas de la 35ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información. págs. 731–740. doi :10.1145/2348283.2348381.
  6. ^ ab Kamalloo, Ehsan; Rafiei, Davood (2018). "Un modelo coherente no supervisado para la resolución de topónimos" . Actas de la Conferencia World Wide Web de 2018. págs. 1287-1296. arXiv : 1805.01952 . doi :10.1145/3178876.3186027.
  7. ^ DeLozier, subvención; Baldridge, Jason; Londres, Loretta (2015). Resolución de topónimos independientes del diccionario geográfico mediante perfiles de palabras geográficas. Actas de la Vigésima Novena Conferencia AAAI sobre Inteligencia Artificial. págs. 2382–2388.
  8. ^ "Perl Advent Calendar 2016: un analizador geográfico para grandes cantidades de texto".

Ver también