Brecha semántica

La brecha semántica caracteriza la diferencia entre dos descripciones de un objeto mediante diferentes representaciones lingüísticas, por ejemplo lenguajes o símbolos. Según Andreas M. Hein, la brecha semántica puede definirse como "la diferencia de significado entre constructos formados dentro de diferentes sistemas de representación". ^[1] En informática , el concepto es relevante siempre que las actividades, observaciones y tareas humanas ordinarias se transfieran a una representación computacional. ^[2]^[3]^[1]

Más precisamente, la brecha significa la diferencia entre la formulación ambigua del conocimiento contextual en un lenguaje poderoso (por ejemplo, el lenguaje natural ) y su representación sólida, reproducible y computacional en un lenguaje formal (por ejemplo, el lenguaje de programación ). La semántica de un objeto depende del contexto en el que se considera. Para una aplicación práctica, esto significa que cualquier representación formal de tareas del mundo real requiere la traducción del conocimiento experto contextual de una aplicación (alto nivel) a las operaciones elementales y reproducibles de una máquina informática (bajo nivel). Dado que el lenguaje natural permite la expresión de tareas que son imposibles de calcular en un lenguaje formal, no existen medios para automatizar esta traducción de manera general. Además, el examen de las lenguas dentro de la jerarquía de Chomsky indica que no existe una forma formal y, en consecuencia, automatizada de traducir de una lengua a otra por encima de un cierto nivel de poder expresivo.

Antecedentes teóricos

La tesis de Church-Turing, aún no probada pero comúnmente aceptada, afirma que una máquina de Turing y todos los lenguajes formales equivalentes, como el cálculo lambda, realizan y representan todas las operaciones formales, respectivamente, tal como las aplica un humano informático. Sin embargo, la selección de operaciones adecuadas para el cálculo correcto en sí no es formalmente deducible; además, depende de la computabilidad del problema subyacente. Las tareas, como el problema de la detención , pueden formularse de manera integral en lenguaje natural, pero la representación computacional no termina o no proporciona un resultado utilizable, como lo demuestra el teorema de Rice . La expresión general de las limitaciones para la deducción basada en reglas mediante el teorema de incompletitud de Gödel indica que la brecha semántica nunca debe cerrarse por completo. Estas son afirmaciones generales, considerando los límites generalizados de la computación en el nivel más alto de abstracción donde se manifiesta la brecha semántica . Sin embargo, hay muchos subconjuntos de problemas que pueden traducirse automáticamente, especialmente en los niveles superiores de la jerarquía de Chomsky.

Lenguajes formales

Las tareas del mundo real se formalizan mediante lenguajes de programación, que se ejecutan en computadoras basadas en la arquitectura von Neumann . Dado que los lenguajes de programación son sólo representaciones cómodas de la máquina de Turing, cualquier programa en una computadora von Neumann tiene las mismas propiedades y limitaciones que la máquina de Turing o su representación equivalente. En consecuencia, cada lenguaje de programación, como el código de máquina a nivel de CPU, el ensamblador o cualquier lenguaje de programación de alto nivel, tiene el mismo poder de expresión que la máquina de Turing subyacente es capaz de calcular. No existe una brecha semántica entre ellos ya que un programa se transfiere del lenguaje de alto nivel al código de máquina mediante un programa, por ejemplo, un compilador que se ejecuta en una máquina de Turing sin ninguna interacción del usuario. En realidad, se abre una brecha semántica entre la selección de las reglas y la representación de la tarea.

Consecuencias prácticas

La selección de reglas para representaciones formales de aplicaciones del mundo real corresponde a escribir un programa. Escribir programas es independiente del lenguaje de programación real y básicamente requiere la traducción del conocimiento específico del dominio del usuario a las reglas formales que operan una máquina de Turing. Es esta transferencia del conocimiento contextual a la representación formal la que no puede automatizarse con respecto a las limitaciones teóricas de la computación. En consecuencia, cualquier mapeo de aplicaciones del mundo real a aplicaciones informáticas requiere una cierta cantidad de conocimientos técnicos por parte del usuario, donde la brecha semántica se manifiesta.

Es una tarea fundamental de la ingeniería de software cerrar la brecha entre el conocimiento específico de la aplicación y la formalización técnicamente factible. Para ello, el conocimiento específico del dominio (alto nivel) debe transferirse a un algoritmo y sus parámetros (bajo nivel). Esto requiere el diálogo entre usuario y desarrollador. Aim es siempre un software que permite al usuario representar su conocimiento como parámetros de un algoritmo sin conocer los detalles de la implementación e interpretar el resultado del algoritmo sin la ayuda del desarrollador. Para ello, las interfaces de usuario desempeñan un papel clave en el diseño de software, mientras que los desarrolladores cuentan con el apoyo de marcos que ayudan a organizar la integración de la información contextual.

Ejemplos

Recuperación de documentos

Un ejemplo sencillo puede formularse como una serie de consultas en lenguaje natural cada vez más difíciles para localizar un documento de destino que puede existir o no localmente en un sistema informático conocido.

Consultas de ejemplo :

1) Localice cualquier archivo en el directorio conocido "/usr/local/funny".
2) Localice cualquier archivo donde aparezca la palabra "divertido" en el nombre del archivo.
3) Localice cualquier archivo de texto donde aparezca la palabra "divertido" o la subcadena "humor".
4) Localice cualquier archivo mp3 donde aparezca "divertido", "cómico" o "humor" en los metadatos.
5) Localizar cualquier archivo de cualquier tipo relacionado con el humor.
6) Localiza cualquier imagen que pueda hacer reír a mi abuela.

La progresiva dificultad de estas consultas está representada por el creciente grado de abstracción de los tipos y semánticas que definen la arquitectura del sistema (directorios y archivos en una computadora conocida) a los tipos y semánticas que ocupan el ámbito del discurso humano ordinario (temas como " humor" y entidades como "mi abuela"). Además, esta disparidad de ámbitos se complica aún más por abstracciones con fugas , como es común en el caso de la consulta 4), donde el documento de destino puede existir, pero puede no encapsular los "metadatos" de la manera esperada por el usuario, ni por el usuario. Diseñador del sistema de procesamiento de consultas.

Análisis de imagen

El análisis de imágenes es un dominio típico en el que se requiere un alto grado de abstracción de métodos de bajo nivel y donde la brecha semántica afecta inmediatamente al usuario. Si se debe identificar el contenido de la imagen para comprender el significado de una imagen, la única información independiente disponible son los datos de píxeles de bajo nivel. Las anotaciones textuales siempre dependen del conocimiento, la capacidad de expresión y el lenguaje específico del anotador y, por lo tanto, no son confiables. Para reconocer las escenas mostradas a partir de los datos brutos de una imagen, es necesario combinar y parametrizar adecuadamente los algoritmos de selección y manipulación de píxeles y, finalmente, vincularlos con la descripción natural. Incluso la simple representación lingüística de una forma o un color, como redondo o amarillo, requiere métodos de formalización matemática completamente diferentes, que no son ni intuitivos ni únicos ni sólidos.

Sistemas en capas

En muchos sistemas en capas , surgen algunos conflictos cuando conceptos con un alto nivel de abstracción deben traducirse en artefactos inferiores y más concretos. Este desajuste suele denominarse brecha semántica .

Bases de datos

Los defensores de los OODBMS (sistema de gestión de bases de datos orientado a objetos) a veces afirman que estas bases de datos ayudan a reducir la brecha semántica entre el dominio de aplicación (minimundo) y los sistemas RDBMS tradicionales. ^[4] Sin embargo, los defensores relacionales plantearían exactamente lo contrario, porque, por definición, las bases de datos de objetos fijan los datos que se registran en una única abstracción vinculante.

Ver también

Referencias

^ ab Hein, AM (2010). "Identificación y superación de brechas semánticas en el contexto de la ingeniería multidominio". Resúmenes del Foro de Filosofía, Ingeniería y Tecnología de 2010. Colorado .
^ Smeulders, AWM; et al. (2000). "Recuperación de imágenes basada en contenido al final de los primeros años". IEEE Trans Pattern Anal Mach Intell . 22 (12): 1349–80. doi : 10.1109/34.895972. S2CID 2827898.
^ Dorai, C.; Venkatesh, S. (2003). "Reducir la brecha semántica con la estética de los medios computacionales". Multimedia IEEE . 10 (2): 15-17. doi :10.1109/MMUL.2003.1195157. hdl : 10536/DRO/DU:30044313 . S2CID 206477548.
^ Schlatter, M.; et al. (1994). "El sistema de gestión de objetos de negocio". Revista de sistemas IBM . 33 (2): 239–263. doi :10.1147/sj.332.0239.