Léxico semántico

Un léxico semántico es un diccionario digital de palabras etiquetadas con clases semánticas para que se puedan establecer asociaciones entre palabras que no se han encontrado previamente. ^[1] Los léxicos semánticos se construyen sobre redes semánticas , que representan las relaciones semánticas entre palabras. La diferencia entre un léxico semántico y una red semántica es que un léxico semántico tiene definiciones para cada palabra, o una "glosa". ^[2]

Estructura

Los léxicos semánticos se componen de entradas léxicas. Estas entradas no son ortográficas, sino semánticas, eliminando los problemas de homonimia y polisemia. Estas entradas léxicas están interconectadas con relaciones semánticas , como hiperonimia , hiponimia , meronimia o troponimia . Las entradas sinónimas se agrupan en lo que Princeton WordNet llama " conjuntos de sinónimos " ^[2]. La mayoría de los léxicos semánticos se componen de cuatro "subredes" diferentes: ^[2] sustantivos, verbos, adjetivos y adverbios, aunque algunos investigadores han tomado medidas para agregar un "nodo artificial" que interconecta las subredes. ^[3]

Sustantivos

Los sustantivos se ordenan en una taxonomía , estructurada en una jerarquía donde el sustantivo más amplio y abarcador se ubica en la parte superior, como "cosa", y los sustantivos se vuelven cada vez más específicos a medida que se alejan de la parte superior. El sustantivo que se encuentra en la parte superior de un léxico semántico se denomina " principiante único" . ^[4] Los sustantivos más específicos (aquellos que no tienen ningún subordinado) son los nodos terminales . ^[3]

Los léxicos semánticos también distinguen entre tipos, donde un tipo de algo tiene características de una cosa, como un Rhodesian Ridgeback que es un tipo de perro, e instancias, donde algo es un ejemplo de dicha cosa, como Dave Grohl es una instancia de un músico . Las instancias son siempre nodos terminales porque son solitarias y no tienen otras palabras o categorías ontológicas que les pertenezcan. ^[2]

Los léxicos semánticos también abordan la meronimia , ^[5] que es una relación de “parte a todo”, como las teclas son parte de una computadora portátil. Los atributos necesarios que definen una entrada específica también están necesariamente presentes en el hipónimo de esa entrada . Por lo tanto, si una computadora tiene teclas y una computadora portátil es un tipo de computadora , entonces una computadora portátil debe tener teclas . Sin embargo, hay muchos casos en los que esta distinción puede volverse vaga. Un buen ejemplo de esto es el elemento silla . La mayoría definiría una silla como algo que tiene patas y un asiento (como en la parte en la que uno se sienta). Sin embargo, hay algunas sillas artísticas o modernas que no tienen patas en absoluto. Los pufs tampoco tienen patas, pero pocos argumentarían que no son sillas. Preguntas como esta son las preguntas centrales que impulsan la investigación y el trabajo en los campos de la taxonomía y la ontología .

Verbos

Los sinónimos verbales se organizan de forma muy similar a sus contrapartes nominales: los verbos más generales y abarcadores están cerca de la parte superior de la jerarquía, mientras que los tropónimos (verbos que describen una forma más específica de hacer algo) se agrupan debajo. La especificidad de los verbos se mueve a lo largo de un vector , y los verbos se vuelven cada vez más específicos en referencia a una determinada cualidad. ^[2] Por ejemplo, el conjunto "caminar / correr / correr a toda velocidad" se vuelve más específico en términos de velocidad, y "no gustar / odiar / aborrecer" se vuelve más específico en términos de la intensidad de la emoción.

Las agrupaciones y separaciones ontológicas de los verbos son mucho más discutibles que las de sus contrapartes sustantivas. Se acepta ampliamente que un perro es un tipo de animal y que un taburete es un tipo de silla , pero se puede argumentar que aborrecer está en el mismo plano emocional que odiar (que son sinónimos y no super/subordinados). También se puede argumentar que amar y adorar son sinónimos, o que uno es más específico que el otro. Por lo tanto, las relaciones entre los verbos no están tan acordadas como las de los sustantivos.

Otro atributo de las relaciones de sinónimos verbales es que también se ordenan en pares de verbos. En estos pares, un verbo implica necesariamente al otro, de la misma manera que masacre implica matar y saber implica creer . ^[2] Estos pares de verbos pueden ser tropónimos y sus superordinados, como es el caso del primer ejemplo, o pueden estar en categorías ontológicas completamente diferentes, como en el caso del segundo ejemplo.

Adjetivos

Las relaciones de sinónimos adjetivos son muy similares a las relaciones de sinónimos verbales. No son tan jerárquicas como las relaciones de sinónimos sustantivos, y tienen menos niveles y más nodos terminales. Sin embargo, generalmente hay menos nodos terminales por categoría ontológica en las relaciones de sinónimos adjetivos que en las de los verbos. Los adjetivos en los léxicos semánticos también se organizan en pares de palabras, con la diferencia de que sus pares de palabras son antónimos en lugar de implicancias . Los adjetivos polares más genéricos como hot y cold o happy y sad se emparejan. Luego, otros adjetivos que son semánticamente similares se vinculan a cada una de estas palabras. Hot está vinculado a warm , heating , sizzling y sweltering , mientras que cold está vinculado a cool , chilly , freezing y nippy . Estos adjetivos semánticamente similares se consideran antónimos indirectos ^[2] del adjetivo polar opuesto (es decir, nippy es un antónimo indirecto de hot ). Los adjetivos que se derivan de un verbo o un sustantivo también están vinculados directamente con dicho verbo o sustantivo en las subredes. Por ejemplo, enjoyable está vinculado con los adjetivos semánticamente similares pleasantable y pleasant , así como con su verbo de origen, enjoy .

Adverbios

Hay muy pocos adverbios que se tienen en cuenta en los léxicos semánticos. Esto se debe a que la mayoría de los adverbios se toman directamente de sus contrapartes adjetivas, tanto en significado como en forma, y solo se modifican morfológicamente (es decir , felizmente se deriva de feliz , y afortunadamente se deriva de afortunado , que se deriva de suerte ). Los únicos adverbios que se tienen en cuenta específicamente son los que no tienen estas conexiones, como realmente , principalmente y apenas . ^[2]

Desafíos que enfrentan los léxicos semánticos

Los efectos del proyecto WordNet de Princeton se extienden mucho más allá del inglés, aunque la mayoría de las investigaciones en el campo giran en torno al idioma inglés. La creación de un léxico semántico para otros idiomas ha demostrado ser muy útil para aplicaciones de procesamiento del lenguaje natural . Uno de los principales enfoques de la investigación en léxicos semánticos es vincular léxicos de diferentes idiomas para ayudar en la traducción automática . El enfoque más común es intentar crear una ontología compartida que sirva como una especie de "intermediario" entre los léxicos semánticos de dos idiomas diferentes. ^[6] Este es un problema extremadamente desafiante y aún sin resolver en el campo de la traducción automática. Un problema surge del hecho de que no hay dos idiomas que sean traducciones palabra por palabra el uno del otro. Es decir, cada idioma tiene algún tipo de diferencia estructural o sintáctica con todos los demás. Además, los idiomas a menudo tienen palabras que no se traducen fácilmente a otros idiomas, y ciertamente no con una coincidencia exacta palabra por palabra. Se han hecho propuestas para crear un marco establecido para las redes de palabras. Las investigaciones han demostrado que todos los idiomas humanos conocidos tienen algún tipo de concepto parecido a la sinonimia , la hiponimia , la meronimia y la antonimia . Sin embargo, todas las ideas propuestas hasta ahora han sido criticadas por utilizar un patrón que funciona mejor para el inglés y menos para otros idiomas. ^[6]

Otro obstáculo en este campo es que no existen pautas sólidas para el marco y los contenidos del léxico semántico. Cada proyecto de léxico en cada idioma diferente ha tenido un enfoque ligeramente (o no tan ligeramente) diferente para su wordnet. Ni siquiera hay una definición acordada de lo que es una "palabra". Ortográficamente , se definen como una cadena de letras con espacios a cada lado, pero semánticamente se convierte en un tema muy debatido. Por ejemplo, aunque no es difícil definir perro o vara como palabras, ¿pero qué pasa con perro guardián o pararrayos ? Los dos últimos ejemplos se considerarían palabras ortográficamente separadas, aunque semánticamente forman un concepto: una es un tipo de perro y otra es un tipo de vara. Además de estas confusiones, las wordnets también son idiosincrásicas , en el sentido de que no etiquetan los elementos de manera consistente. Son redundantes, en el sentido de que a menudo tienen varias palabras asignadas a cada significado (conjuntos de sinónimos). También son abiertas, en el sentido de que a menudo se centran en la terminología y el vocabulario específico del dominio y se extienden a ellos. ^[6]

Otros nombres

red de palabras
léxico computacional

Lista de léxicos semánticos

Red de palabras
EuroWordNet
Repositorio central multilingüe
Red mundial de palabras
Red mental

Véase también

Referencias

^ Theng, Yin-Leng (2009). Manual de investigación sobre bibliotecas digitales: diseño, desarrollo e impacto . Universidad de Michigan: Referencia de ciencias de la información. ISBN 9781599048796.
^ abcdefgh "Acerca de WordNet".
^ ab Lemnitzer, L. "Enriquecimiento de GermaNet: un estudio de caso de adquisición léxica". Seminario para Sprachwissenschaft, Universitat Tubingen .
^ Boyd-Graber, J. (2006). "Añadir conexiones densas y ponderadas a WordNet". Actas de la Tercera Conferencia Internacional de Wordnet .
^ Hinrichs, E. (diciembre de 2012). "Uso de relaciones parte-todo para la deducción automática de relaciones internacionales compuestas en GermaNet". Revista internacional sobre web semántica y sistemas de información . 3 .
^ abc Fellbaum, C. (mayo de 2012). "Desafíos para una Wordnet multilingüe". Recursos lingüísticos y evaluación . 46 (2): 313–326. doi :10.1007/s10579-012-9186-z. S2CID 254379442.