stringtranslate.com

Boceto de palabras

Esquema de palabras del verbo "leer" en el Corpus Nacional Británico en Sketch Engine

Un bosquejo de palabras es un resumen automático de una página, derivado de un corpus, del comportamiento gramatical y colocacional de una palabra. Los bosquejos de palabras fueron introducidos por primera vez por el lingüista de corpus británico Adam Kilgarriff [1] y explotados dentro del sistema de gestión de corpus Sketch Engine [2] . Son una extensión del concepto general de colocación utilizado en la lingüística de corpus en el sentido de que agrupan las colocaciones según relaciones gramaticales particulares (por ejemplo, sujeto, objeto, modificador, etc.). Los candidatos a colocación en un bosquejo de palabras se ordenan por su frecuencia o utilizando una puntuación de asociación lexicográfica como Dice , T-score o MI-score.

Desde su introducción, los lexicógrafos han utilizado bosquejos de palabras para desarrollar diccionarios modernos basados ​​en corpus de importantes editoriales, entre ellas Oxford English Dictionary [3] , Macmillan English Dictionary [1] y que abarcan docenas de idiomas, entre ellos inglés, [1] chino, [4] esloveno, [5] japonés, [6] holandés, [7] rumano, [8] ruso, [9] checo, [10] polaco, [11] vietnamita, [12] turco, [13] portugués, [14] hindi, [15] español [16] y otros. [17]

Relato formal

Un triple de bosquejo de palabras es un triple que consiste en un lema, una relación gramatical y una colocación (por ejemplo, hombre, modificador, joven ). Si consideramos un corpus de texto subyacente , un quíntuple de bosquejo de palabras es un quíntuple que consiste en un lema, una relación gramatical, una colocación, una posición del lema en el corpus y una posición de la colocación en el corpus (por ejemplo, hombre, modificador, joven, 104, 103 ). Una base de datos de bosquejos de palabras es un conjunto de dichos triples o quíntuplos, que pueden generarse consultando un corpus utilizando un lenguaje de consulta de corpus [18] o analizando el corpus utilizando un analizador de lenguaje natural. [19]

Referencias

  1. ^ abc Kilgarriff, Adán; Rychlý, Pavel; Smrž, Pavel; Tugwell, David (2004) El motor de bocetos. Tecnología de la información, 2004
  2. ^ Kilgarriff, Adán; Baisa, Vít; Busta, enero; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, enero; Rychlý, Pavel; Suchomel, Vít (2004) The Sketch Engine: diez años después. En Lexicografía, páginas 7-36, Springer Berlin Heidelberg
  3. ^ Jonathan Culpeper (2009) El metalenguaje de la descortesía: uso de Sketch Engine para explorar el Oxford English Corpus. En Lingüística de corpus contemporánea
  4. ^ Chu-Ren Huang, Adam Kilgarriff, Yiching Wu, Chih-Ming Chiu, Simon Smith, Pavel Rychlý, Ming-Hong Bai y Keh-Jiann Chen (2005). Chinese Sketch Engine y la extracción de colocaciones gramaticales. En el cuarto taller SIGHAN sobre procesamiento del idioma chino, Corea, págs. 48-55
  5. ^ Simon Krek y Adam Kilgarriff (2006). Slovene Word Sketches. En las actas de la 5.ª Conferencia sobre tecnología de las lenguas eslovenas, Eslovenia
  6. ^ Irena Srdanović, Tomaž Erjavec y Adam Kilgarriff (2008) Un corpus web y bocetos de palabras para japonés. En 『自然言語処理』(Revista sobre procesamiento del lenguaje natural) 15/2, 137--159.
  7. ^ Carole Tiberius y Adam Kilgarriff (2009). Sketch Engine para holandés con el corpus ANW. En Fons Verbhorum, Festschrift para Fons Moerdijk. Instituut voor Nederlandse Lexicologie, Países Bajos, págs. 273 a 255
  8. ^ Monica Macoveiciuc y Adam Kilgarriff (2010) El corpus RoWaC y los bosquejos de palabras rumanas. En Multilingüismo e interoperabilidad en el procesamiento del lenguaje con énfasis en el rumano, Academia Rumana de Ciencias.
  9. ^ Maria Khokhlova y Victor Zakharov (2010) Estudio de esquemas de palabras para ruso. En Actas de la Séptima Conferencia Internacional sobre Recursos y Evaluación de Lenguas (LREC'12)
  10. ^ Karel Pala y Pavel Rychlý (2010) Un estudio de caso en Word Sketches: el verbo checo vidět. In A Way with Words: Recent Advances in Lexical Theory and Analysis. Un homenaje a Patrick Hanks.
  11. ^ Adam Radziszewski, Adam Kilgarriff y Robert Lew (2011) Polish Word Sketches. En las actas de la 5.ª Conferencia sobre lengua y tecnología (LTC)
  12. ^ Adam Kilgarriff y Phuong Le-Hong (2012) Vietnamese Word Sketches. En el taller sobre el idioma vietnamita y el procesamiento del habla (IEEE-RIVF 9)
  13. ^ Bharat Ram Ambati, Siva Reddy y Adam Kilgarriff (2012) Word Sketches for Turkish. En las actas de la octava conferencia internacional sobre recursos lingüísticos y evaluación (LREC'12)
  14. ^ Adam Kilgarriff, Miloš Jakubíček, Jan Pomikálek, Tony Berber Sardinha y Pete Whitelock (2014) PtTenTen: un corpus para la lexicografía portuguesa. En Trabajo con corporaciones portuguesas, Bloomsbury Publishing
  15. ^ Anil Krishna Eragani, Varun Kuchibhotla, Dipti Sharma, Siva Reddy y Adam Kilgarriff (2014) Bocetos de palabras en hindi. En actas de la Conferencia sobre procesamiento del lenguaje natural (ICON-11)
  16. ^ Adam Kilgarriff e Irene Renau (2013) esTenTen, un vasto corpus web de español peninsular y americano. En Procedia - Ciencias Sociales y del Comportamiento
  17. ^ "Bibliografía de Sketch Engine | Sketch Engine". 27 de marzo de 2015.
  18. ^ Miloš Jakubíček, Adam Kilgarriff, Diana McCarthy y Pavel Rychlý (2010) Búsqueda sintáctica rápida en corpus muy grandes para muchos idiomas. En Actas del taller sobre soluciones avanzadas para corpus, PACLIC 24, Japón.
  19. ^ Aleš Horák, Pavel Rychlý, Adam Kilgarriff (2009) Relaciones de palabras en checo con un analizador sintáctico completo. En Después de medio siglo de procesamiento del lenguaje natural eslavo.

Enlaces externos