Diccionario combinatorio explicativo

Un diccionario combinatorio explicativo (ECD) es un tipo de diccionario monolingüe diseñado para ser parte de un modelo lingüístico de texto-significado de una lengua natural. ^[1]^[2]^[3] Su objetivo es ser un registro completo del léxico de una lengua determinada. ^[4] Como tal, identifica y describe, en entradas separadas, cada uno de los lexemas (en términos generales, cada palabra o conjunto de formas flexivas basadas en una única raíz) y los sintagmas (en términos generales, modismos y otras expresiones fijas de varias palabras) de la lengua. Entre otras cosas, cada entrada contiene (1) una definición que incorpora los actantes semánticos de un lexema (por ejemplo, el definiendum de give toma la forma X give Y to Z , donde se expresan sus tres actantes: el dador X , la cosa dada Y y la persona dada a, Z ) (2) información completa sobre la coocurrencia léxica (por ejemplo, la entrada para attack le dice que una de sus colocaciones es launch an attack , la entrada para party proporciona throw a party y la entrada para conference proporciona deliver a conference , lo que permite al usuario evitar cometer un error como * deliver a party ); (3) un amplio conjunto de ejemplos. El ECD es un diccionario de producción, es decir, tiene como objetivo proporcionar toda la información necesaria para que un aprendiz extranjero o un autómata produzca enunciados perfectamente formados del idioma. Dado que los lexemas y sintagmas de un idioma natural se cuentan por cientos de miles, un ECD completo, en formato papel, ocuparía el espacio de una gran enciclopedia. Tal trabajo aún está por lograr; Si bien se han publicado ECD del ruso y del francés, cada uno describe menos del uno por ciento del vocabulario de los respectivos idiomas.

El ECD fue propuesto a finales de los años 1960 por Aleksandr Žolkovskij e Igor Mel'čuk ^[5]^[6]^[7] y luego fue desarrollado por Jurij Apresjan. ^[8]^[9]^[10]^[11]^[12]^[13]^[14]^[15]^[16] Actualmente hay tres ECD disponibles impresos, uno para ruso, ^[17] y dos para francés. ^[18]^[19] Se está desarrollando un diccionario de colocaciones del español —DICE (= Diccionario de colocaciones del español). ^[20]^[21]

Características de un ECD

Un ECD completo de una lengua proporcionaría una entrada para cada lexema, construcción o modismo (denominados colectivamente "unidades léxicas" (UL)) en uso en la lengua. Las entradas en el ECD se basan en la definición semántica de una LU, y cada entrada contiene también una lista completa de sus colocaciones y funciones léxicas . ^[22]

Las entradas de unidades léxicas históricamente relacionadas que son homófonas y comparten un componente semántico significativo (es decir, significados) se agrupan en unidades más grandes llamadas "vocablos", lo que reconoce la polisemia y al mismo tiempo mantiene el estatus distintivo de los elementos independientes en cuestión. El vocabulario inglés improve , por ejemplo, incluye seis unidades léxicas, a cada una de las cuales se le asigna una entrada léxica independiente:

MEJORAR , verbo

MEJORAR I.1a X mejora ≡ 'El valor o la calidad de X se vuelve mayor'

[ El clima mejoró de repente; el sistema mejorará con el tiempo ]

MEJORAR I.1b X mejora Y ≡ 'X hace que ₁ Y mejore I.1a '

[ Los cambios más recientes mejoraron drásticamente el sistema ]

MEJORAR I.2 X mejora ≡ 'La salud de una persona enferma X mejora I.1a '

[ Jim está mejorando constantemente ]

MEJORAR I.3 X mejora en Y ≡ 'La ejecución de Y por parte de X mejora I.1a , lo cual es causado ₁ por que X ha practicado o está practicando Y'

[ Jim está mejorando constantemente en álgebra ]

MEJORAR II X mejora Y al hacer Z-ing ≡ 'X provoca voluntariamente ₂ que el valor de mercado de un inmueble Y aumente al hacer Z-ing a Y'

[ Jim mejoró su casa instalando plomería interior ]

MEJORAR III X mejora Y ≡ 'X crea un nuevo Y' al mejorar I.1b Y'

[ Jim ha mejorado drásticamente la traducción de Patrick ]

Los números lexicográficos (que aparecen en negrita después de la palabra de entrada) reflejan grados o niveles de distancia semántica entre las unidades léxicas dentro de un vocablo: los números romanos marcan las agrupaciones semánticas de nivel más alto, mientras que los números arábigos marcan el siguiente nivel más alto y las letras indican las distancias de nivel más bajo. Los cuatro lexemas agrupados bajo IMPROVE I , por ejemplo, se consideran más cercanos entre sí que a IMPROVE II o IMPROVE III , porque los significados de cada uno de IMPROVE I.1b e IMPROVE I.2 en realidad incluyen el significado de IMPROVE I.1a . IMPROVE I.1a e IMPROVE I.1b están incluso más estrechamente relacionados porque en inglés hay muchos pares de palabras (específicamente, verbos lábiles o ambitransitivos ) que están relacionados por la alternancia semántica 'P' ~ 'cause ₁ to P' (como se indica anteriormente, 'improve' ~ 'cause to improve').

Los números subíndices y superíndices adjuntos a las palabras en la definición se refieren a subsentidos (subíndices) y entradas homófonas (superíndices) para una palabra como se da en el Longman Dictionary of Contemporary English ^[23] —por lo tanto, “dispositivo ₁¹ ” se refiere a la primera entrada para dispositivo en este diccionario, primer subsentido.

Estructura de la entrada del ECD

Una entrada ECD para una unidad léxica dada, llamémosla "L", se divide en tres secciones o "zonas" principales:

La zona semántica

La zona semántica describe las propiedades semánticas de L y consta de dos subzonas:

1) la definición de L, que especifica completamente el significado de L; y

2) Las connotaciones de L (significados que el lenguaje asocia con L, pero que no forman parte de su definición). ^[24]^[25]

La zona fonológica/grafemática

La zona fonológica/grafemática proporciona todos los datos sobre las propiedades fonológicas de L. Aquí encontramos nuevamente dos subzonas:

1) La pronunciación de L, incluida su silabificación y cualquier propiedad prosódica no estándar; ^[26] y

2) información ortográfica sobre las variantes ortográficas de L, etc.

La zona de coocurrencia

La zona de coocurrencia presenta todos los datos sobre las propiedades combinatorias de L. Está organizada en cinco subzonas: morfológica, sintáctica, léxica, estilística y pragmática.

La subzona morfológica contiene datos flexivos que incluyen clase de conjugación/declinación, formas irregulares, formas faltantes, alternancias permitidas, etc. ^[27]

La subzona sintáctica tiene dos partes:

a) Patrón de gobierno, que describe los elementos que L puede gobernar sintácticamente (argumentos, complementos, etc.);

b) Parte del discurso y características sintácticas, que describe las construcciones en las que L puede aparecer como dependiente sintáctico .

La subzona léxica especifica las funciones léxicas en las que participa L, cubriendo tanto las derivaciones semánticas como las colocaciones de L con otras LU individuales o grupos muy pequeños e irregulares de LU.

La subzona estilística especifica el registro del habla de L (informal, coloquial, vulgar, poético, etc.), la variabilidad temporal (obsoleta, arcaica) y geográfica (británica, india, australiana), y similares.

La subzona pragmática describe las situaciones de la vida real en las que una expresión particular es apropiada o inapropiada.

Referencias

^ Mel'čuk, Igor A. (2006). Diccionario combinatorio explicativo. En Giandomenico Sica (ed.), Problemas abiertos en lingüística y lexicografía, 225–355. Monza: Polimetrica
^ Pearson, Jennifer. 1998 Términos en contexto. Ámsterdam: John Benjamins 76–82.
^ Fontenelle, Thierry. (2008) Utilización de un diccionario bilingüe para crear redes semánticas. En Thierry Fontenelle (ed.), Practical Lexicography: A reader, 175. Oxford: Oxford University Press.
^ Frawley, William. (1988). Nuevas formas de diccionarios especializados. Revista Internacional de Lexicografía 1, 189–213.
^ Žolkovskij, Aleksandr; Igor A. Mel'čuk (1965). "O vozmožnom metode i instrumentax semantičeskogo sinteza [Sobre un posible método y herramientas para la síntesis semántica]". Naučno-texničeskaja informacija . 5 : 23–28.
^ Žolkovskij, Aleksandr; Igor A. Mel'čuk (1966). "O sisteme semantičeskogo sinteza. I. Stroenie slovarja [Sobre un sistema de síntesis semántica. I. Estructura del diccionario]". Naučno-texničeskaja informacija . 11 : 48–55.
^ Žolkovskij, Aleksandr; Igor A. Mel'čuk (1967). "O semantičeskom sinteze [Sobre la síntesis semántica]". Kibernetiki problemático . 19 : 177–238.
^ Apresjan, Jurij (1969). "Tolkovanie leksičeskix značenij kak problema teoretičeskoj semantiki [Definición de significados léxicos como un problema de semántica teórica]". Izvestija Akademii Nauk SSSR, Serija Lit. Yo Jazyka . 28 : 11-23.
^ Apresjan, Jurij (1969). "O jazyke dlja opisanija značenij slov [Sobre un lenguaje para la descripción de significados léxicos]". Izvestija Akademii Nauk SSSR, Serie Lit. I Jazyka . 28 : 415–428.
^ Apresjan, Jurij (1974). Leksičeskaja semantika. Sinonimičeskie sredstva jazyka [Semántica léxica. Medios Sinónimos de la Lengua . Moscú: Nauka.
^ Apresjan, Jurij (1980). Tipy informacii dlja poverxnostno-semantičeskogo komponenta modeli Smysl ⇔ Tekst [Tipos de información para el componente semántico superficial del modelo de significado-texto] . Viena: Wiener Slawistischer Almanach.
^ Apresjan, Juirj (1988). Karaulov, Jurij (ed.). "Morfologičeskaja informacija dlja tolkovogo slovarja [Información morfológica en un diccionario monolingüe]". Slovarnye Kategorii . Moscú: Nauka: 31–59.
^ Apresjan, Jurij (1988). "Tipy kommunikativnoj informacii dlja tolkovogo slovarja [Tipos de información comunicativa para un diccionario monolingüe]". Jazyk: Sistema I Funkcionirovanie . Moscú: Nauka: 10-22.
^ Apresjan, Jurij (1990). "Tipy leksikografičeskoj informacii ob označajuščem leksemy [Tipos de información lexicográfica sobre el significante de un lexema]". Tipología y gramática . Moscú: Nauka: 91–108.
^ Apresjan, Jurij (1990). "Formal´naja model´ jazyka i predstavlenie leksikografičeskix znanij [Un modelo formal de lenguaje y representación del conocimiento lexicográfico]". IVoprosy Jazykoznanija . 6 : 91-108.
^ Apresjan, Jurij (1995). Izbrannye trudy. Tomo II. Integral´noe opisanie jazyka i sistemnaja leksikografija [Escritos selectos. Vol II. Una descripción lingüística integral y lexicografía sistémica] . Moscú: Škola «Jazyki russkoj kul´tury».
^ Mel'čuk, Igor A.; Alexander Zholkovsky (1984). Diccionario combinatorio explicativo del ruso moderno. Estudios semántico-sintácticos del vocabulario ruso . Viena: Wiener Slawistischer Almanach.
^ Mel'čuk, Igor A.; Arbatchewsky-Jumarie, N.; Iordanskaja, Lida; Mantha, S.; Polguere, Alain (1999). Diccionario explicativo y combinado del francés contemporáneo. Investigaciones léxico-sémantiques IV . Montreal: Les Presses de l'Université de Montréal.
^ Mel'čuk, Igor A.; Alain Polguere (2007). Lexique actif du français: L'apprentissage du vocabulaire fondé sur 20000 derivations sémantiques et collocations du français . París: Duculot.
^ Alonso Ramos, Margarita (2003). Fernández Montraveta, A.; A. Martí Antonin; G. Vásquez García (eds.). "Hacia un diccionario de colocacionnes del español y su codificación". Lexicografía computacional y semántica . Barcelona: Universidad de Barcelona : 11–34.
^ Alonso Ramos, Margarita (2004). Bataner, P. y J. DeCesaris García (ed.). "Elaboración del Diccionario de colocaciones del español y sus aplicaciones". De lexicografia: Actes del I Simposio internacional de lexicografia, Barcelona: IULA : 149–162.
^ Frawley, William. (1988). Nuevas formas de diccionarios especializados. Revista Internacional de Lexicografía 1, 189–213.
^ Diccionario Longman de inglés contemporáneo . Londres: Longman. 1978.
^ Iordanskaja, Lida; Igor A. Mel'čuk (1984). "Connotación en sémántica y lexicografía". Dictionnaire explicatif et combinatoire du français contemporain: Recherches lexico-sémantiques I. Montreal: Presses de l'Université de Montréal: 33–40.
^ Iordanskaja, Lida; Igor A. Mel'čuk (2006). Berger, T.; K. Gutschmidt; S. Kempgen; P. Kosta (eds.). "Connotación". Las lenguas eslavas: un manual internacional de su historia, su estructura y su investigación . Nueva York: Walter de Gruyter.
^ Apresjan, Jurij (1990). "Tipy leksikografičeskoj informacii ob označajuščem leksemy [Tipos de información lexicográfica sobre el significante de un lexema]". Tipología y gramática . Moscú: Nauka: 91–108.
^ Apresjan, Juirj (1988). Karaulov, Jurij (ed.). "Morfologičeskaja informacija dlja tolkovogo slovarja [Información morfológica en un diccionario monolingüe]". Slovarnye Kategorii . Moscú: Nauka: 31–59.