Debido a que Wikcionario no está limitado por consideraciones de espacio de impresión, la mayoría de las ediciones de idiomas de Wikcionario proporcionan definiciones y traducciones de términos de muchos idiomas, y algunas ediciones ofrecen información adicional que normalmente se encuentra en los tesauros .
Los datos de Wikcionario se utilizan con frecuencia en diversas tareas de procesamiento del lenguaje natural.
Historia y desarrollo
Wikcionario se puso en línea el 12 de diciembre de 2002, [2] tras una propuesta de Daniel Alston y una idea de Larry Sanger , cofundador de Wikipedia. [3] El 28 de marzo de 2004, se iniciaron los primeros Wikcionarios no ingleses en francés y polaco . Desde entonces se han iniciado wikcionarios en muchos otros idiomas. Wikcionario estuvo alojado en un nombre de dominio temporal (wiktionary.wikipedia.org) hasta el 1 de mayo de 2004, cuando cambió al nombre de dominio actual. [a] En julio de 2021 [árbitro], Wikcionario presenta más de 30 millones de artículos (e incluso más entradas) en sus ediciones. [4] La mayor de las ediciones en idiomas es el Wikcionario en inglés, con más de 7,5 millones de entradas, seguido por el Wikcionario en francés con más de 4,7 millones y el Wikcionario en malgache con más de 3,5 millones de entradas. Cuarenta y tres ediciones en idioma Wikcionario contienen más de 100.000 entradas cada una. [b]
Muchas de las definiciones en las ediciones de idiomas más grandes del proyecto fueron creadas por robots que encontraron formas creativas de generar entradas o (raramente) importaron automáticamente miles de entradas de diccionarios publicados anteriormente. Siete de los 18 bots registrados en el Wikcionario en inglés en 2007 [c] crearon 163.000 entradas allí. [5]
Otro de estos robots, "ThirdPersBot", fue responsable de agregar una serie de conjugaciones en tercera persona que no habrían recibido sus propias entradas en los diccionarios estándar; por ejemplo, definió "smoulders" como la "tercera persona del singular simple presente de arder". De las 1.269.938 definiciones que el Wikcionario en inglés proporciona para 996.450 palabras en inglés, 478.068 son definiciones de "forma de" de este tipo. [6] Esto significa que incluso sin tales entradas, su cobertura del inglés es significativamente mayor que la de los principales diccionarios impresos monolingües. El tercer nuevo diccionario internacional del idioma inglés de Merriam-Webster, íntegro , por ejemplo, tiene 475.000 entradas (con muchos encabezados adicionales incorporados); el Diccionario de ingles Oxford tiene 615.000 palabras clave, pero también incluye inglés medio , para el cual el Wikcionario en inglés tiene 34.234 definiciones de brillo adicionales. Existen estadísticas detalladas para mostrar cuántas entradas de diversos tipos existen.
El Wikcionario en inglés no depende de bots en la medida en que lo hacen otras ediciones. Los Wikcionarios francés y vietnamita , por ejemplo, importaron grandes secciones del Proyecto de diccionario vietnamita gratuito (FVDP), que proporciona diccionarios bilingües de contenido gratuito hacia y desde vietnamita. [d] Estas entradas importadas constituyen prácticamente todo el contenido de la edición vietnamita. Al igual que la edición en inglés, el Wikcionario francés ha importado aproximadamente 20.000 entradas de la base de datos Unihan de caracteres chinos, japoneses, coreanos e indios . El Wikcionario francés creció rápidamente en 2006 gracias en gran parte a que los robots copiaron muchas entradas de diccionarios antiguos con licencia gratuita, como la octava edición del Dictionnaire de l'Académie française (1935, alrededor de 35.000 palabras), y utilizaron robots para agregar palabras de otras ediciones de Wikcionario con traducciones al francés. La edición rusa creció en casi 80.000 entradas a medida que "LXbot" añadió entradas estándar (con títulos, pero sin definiciones) para palabras en inglés y alemán . [7]
En julio de 2021, el Wikcionario en inglés tiene más de 791,870 definiciones de glosa y más de 1,269,938 definiciones totales (incluidas diferentes formas) solo para entradas en inglés, con un total de más de 9,928,056 definiciones en todos los idiomas. [8]
Logotipos
Históricamente, Wikcionario ha carecido de un logotipo uniforme en sus numerosas ediciones en idiomas. Algunas ediciones utilizan logotipos que representan una entrada del diccionario sobre el término "Wikcionario", basado en el logotipo anterior de Wikcionario en inglés, que fue diseñado por Brooke Vibber, un desarrollador de MediaWiki . [9] Debido a que un logotipo puramente textual debe variar considerablemente de un idioma a otro, de septiembre a octubre de 2006 se llevó a cabo en Wikimedia Meta-Wiki un concurso de cuatro fases para adoptar un logotipo uniforme. [e] Algunas comunidades adoptaron el diseño ganador por "Smurrayinchester", una cuadrícula de 3 × 3 de baldosas de madera, cada una con un carácter de un sistema de escritura diferente. Sin embargo, la encuesta no vio tanta participación de la comunidad Wikcionaria como algunos miembros de la comunidad esperaban, y varios de los wikis más grandes finalmente mantuvieron sus logotipos textuales. [mi]
En abril de 2009, el tema resucitó con un nuevo concurso. Esta vez, una representación de "AAEngelman" de un diccionario abierto de tapa dura ganó una votación directa contra el logotipo de 2006, pero el proceso para refinar y adoptar el nuevo logotipo se estancó. [10] En los años siguientes, algunos wikis reemplazaron sus logotipos textuales con uno de los dos logotipos más nuevos. En 2012, 55 wikis que habían estado usando el logotipo de Wikcionario en inglés recibieron versiones localizadas del diseño de 2006 de "Smurrayinchester". [f] En julio de 2016, el Wikcionario en inglés adoptó una variante de este logotipo. [11] Al 4 de julio de 2016 [update], 135 wikis, que representan el 61% de las entradas de Wikcionario, utilizan un logotipo basado en el diseño de 2006 de "Smurrayinchester", 33 wikis (36%) utilizan un logotipo textual y tres wikis (3%) Utilice el diseño de 2009 de "AAEngelman". [12]
Plurilingüe
En febrero de 2024, existen sitios Wikcionarios para 192 idiomas, de los cuales 168 están activos y 24 están cerrados. [1] Los sitios activos tienen 38.348.590 artículos y los sitios cerrados tienen 339 artículos. [13] Hay 7.202.561 usuarios registrados de los cuales 6.058 están activos recientemente. [13]
Los diez principales proyectos de lenguaje Wikcionario por recuento de artículos en el espacio principal: [13]
Para obtener una lista completa con totales, consulte Estadísticas de Wikimedia: [14]
Recepción de la crítica
La recepción crítica de Wikcionario ha sido mixta. En 2006, Jill Lepore escribió en el artículo "El arca de Noé" para The New Yorker , [g]
No se levanta la mano en Wikcionario . Ni siquiera hay redacción. "¡Sé tu propio lexicógrafo!", podría ser el lema de Wikcionario . ¿Quién necesita expertos? ¿Por qué pagar mucho dinero por un diccionario escrito por lexicógrafos cuando podríamos improvisar uno nosotros mismos?
¿Hay lugar para el Wikcionario? Indudablemente. La industria y el entusiasmo de sus numerosos creadores son prueba de que hay mercado. Y es maravilloso tener otra fuente sólida para usar al buscar los términos extraños que surgen en el mundo en rápida evolución y el entorno en línea de hoy. Pero como ocurre con tantas fuentes web (incluida esta columna), es mejor que lo utilicen usuarios sofisticados junto con fuentes más acreditadas. [ cita necesaria ]
Las referencias en otras publicaciones son fugaces y forman parte de discusiones más amplias sobre Wikipedia, sin avanzar más allá de una definición, aunque David Brooks en The Nashua Telegraph la describió como "salvaje y confusa". [16] Uno de los impedimentos para la cobertura independiente de Wikcionario es la continua confusión de que es simplemente una extensión de Wikipedia. [h]
La medida de la corrección de las inflexiones de un subconjunto de palabras polacas en el Wikcionario en inglés mostró que estos datos gramaticales son muy estables (un estudio mostró que solo se han corregido los datos de inflexión de 131 de 4.748 palabras polacas). [17]
A partir de 2016 [update], Wikcionario ha experimentado un uso cada vez mayor en el mundo académico . [18]
Datos de Wikcionario en el procesamiento del lenguaje natural.
JWKTL ( Biblioteca de Wiktionary de Java ): [29] proporciona acceso a los volcados de Wiktionary en inglés y en alemán a través de una API de Wiktionary de Java . [30] Los datos incluyen lengua, partes de la oración, definiciones, citas, relaciones semánticas, etimologías y traducciones. JWKTL se distribuye bajo la licencia Apache .
wikokit: [31] el analizador del Wikcionario en inglés y del Wikcionario en ruso. [32] Los datos analizados incluyen lenguaje, partes de la oración, definiciones, citas, [33] [j] relaciones semánticas [34] y traducciones. Este es un software de código abierto con múltiples licencias .
Construcción de un diccionario legible por máquina mediante el analizador NULEX, que integra recursos lingüísticos abiertos: English Wiktionary, WordNet y VerbNet . [37] El analizador NULEX extrae el Wikcionario en inglés en busca de información sobre el tiempo (verbos), la forma plural y las partes de la oración (sustantivos).
Reconocimiento y síntesis de voz , donde se utilizó Wikcionario para crear automáticamente diccionarios de pronunciación. [38] Se recuperaron pares de palabras y pronunciación de 6 ediciones de idiomas Wikcionario ( checo , inglés, francés, español , polaco y alemán). Las pronunciaciones están en términos del Alfabeto Fonético Internacional . [k] El sistema ASR basado en el Wikcionario en inglés tiene la tasa de error de palabras más alta, donde se debe cambiar cada tercer fonema . [40]
Simplificación de textos . Medero y Ostendorf [44] evaluaron la dificultad del vocabulario ( detección del nivel de lectura ) con la ayuda de datos de Wikcionario. Se investigaron las propiedades de las palabras extraídas de las entradas del Wikcionario (longitud de la definición y recuentos de POS , sentido y traducción). Medero & Ostendorf esperaban que
(1) es más probable que las palabras muy comunes tengan varias partes de la oración,
(2) será más probable que las palabras comunes tengan múltiples sentidos,
(3) será más probable que las palabras comunes hayan sido traducidas a varios idiomas. Estas características extraídas de las entradas de Wikcionario fueron útiles para distinguir los tipos de palabras que aparecen en artículos de Wikipedia en inglés simple de las palabras que solo aparecen en artículos comparables en inglés estándar.
" Wikidata : datos lexicográficos" se inició en 2018 para proporcionar soporte de datos estructurados a los Wikcionarios. Almacena datos de palabras de todos los idiomas en un modelo de datos legible por máquina, bajo un espacio de nombres dedicado " Lexeme " en Wikidata. En octubre de 2021, el proyecto ha acumulado más de 600.000 entradas de lexema en varios idiomas. [47]
^ [Traductores-l] 56 Wikcionarios obtuvieron un logotipo localizado
^ El artículo completo no está disponible en línea. [15]
^ En esta cita, el autor se refiere a Wikcionario como parte del sitio Wikipedia: Adaptado de un artículo de Naomi DeTullio (2006). "Wikis para bibliotecarios" (PDF) . Noticias NETLS # 142 . Sistema de bibliotecas del noreste de Texas. pag. 15. Archivado desde el original (boletín PDF) el 5 de junio de 2007 . Consultado el 21 de abril de 2007 .
^ Por ejemplo, compare la estructura de entrada y las reglas de formato en el Wikcionario en inglés y en el Wikcionario en ruso.
^ Las citas se extraen únicamente del Wikcionario ruso. [33]
^ Si hay varias notaciones IPA en una página de Wikcionario, ya sea para diferentes idiomas o para variantes de pronunciación, entonces se extrajo la primera pronunciación. [39]
^ El código fuente y los resultados del etiquetado POS están disponibles en https://code.google.com/p/wikily-supervised-pos-tagger
Referencias
Citas
^ ab API MediaWiki de Wikimedia : Sitematrix. Obtenido en febrero de 2024 de Datos: Wikipedia stats/meta.tab
^ "Discusión sobre el archivo de la lista de correo de Wikipedia que anuncia la apertura del proyecto Wikcionario". 12 de diciembre de 2002. Archivado desde el original el 20 de junio de 2014 . Consultado el 3 de mayo de 2011 .
^ Discusión sobre el archivo de la lista de correo de Wikipedia de Larry Sanger dando la idea en Wikcionario Archivado el 20 de junio de 2014 en Wayback Machine - Consultado el 3 de mayo de 2011.
^ "Wikcionario". www.wikcionario.org . Archivado desde el original el 13 de septiembre de 2008 . Consultado el 28 de octubre de 2021 .
^ TheDaveBot Archivado el 11 de octubre de 2007 en Wayback Machine , TheCheatBot Archivado el 11 de octubre de 2007 en Wayback Machine , Websterbot Archivado el 11 de octubre de 2007 en Wayback Machine , PastBot Archivado el 11 de octubre de 2007 en Wayback Machine , NanshuBot Archivado el 11 de octubre de 2007 en Wayback Machine .
^ Estadísticas detalladas Archivadas el 23 de julio de 2021 en Wayback Machine al 21 de julio de 2021.
^ "LXbot". Archivado desde el original el 24 de mayo de 2008.
^ "Wikcionario: estadísticas". 29 de marzo de 2022. Archivado desde el original el 6 de marzo de 2023 . Consultado el 6 de marzo de 2023 a través de Wikcionario.
^ "Charla de Wikcionario: Logotipo de Wikcionario", Wikcionario en inglés, Fundación Wikimedia.
^ m:Wikcionario/logo#Estadísticas de uso del logotipo.
^ API MediaWiki de abc Wikimedia : Siteinfo. Obtenido en febrero de 2024 de Datos: Wikipedia stats/data.tab
^ "Estadísticas del Wikcionario". Meta.Wikimedia.org . Archivado desde el original el 2 de septiembre de 2020 . Consultado el 11 de septiembre de 2020 .
^ Lepore 2006.
^ David Brooks, "La enciclopedia interactiva en línea ya no es solo para geeks, ¡porque todos parecen necesitarla ahora, más que nunca!". The Nashua Telegraph (4 de agosto de 2004)
^ Kurmas 2010.
^ Sascha y Müller-Spitzer 2016, pág. 348
^ Meyer y Gurevych 2012, pág. 140.
^ Zesch, Müller y Gurevych 2008, pág. 4, Figura 1.
^ Meyer y Gurevych 2010, pág. 40.
^ Krizhanovsky, Transformación 2010, p. 1.
^ Hellmann y Auer 2013, pag. 302, pág. 16 en PDF.
^ Hellmann, Brekle y Auer 2012, pág. 3, Tabla 1.
^ "Wikcionario de DBpedia". Archivado desde el original el 4 de mayo de 2013.
^ Hellmann, Brekle y Auer 2012, págs. 8–9.
^ Hellmann, Brekle y Auer 2012, pág. 10.
^ Hellmann, Brekle y Auer 2012, pág. 11.
^ "Bienvenido". DKPro JWKTL . Archivado desde el original el 23 de enero de 2021 . Consultado el 23 de junio de 2019 .
^ Zesch, Müller y Gurevych 2008.
^ "Wikokit: Wikcionario legible por máquina". 19 de diciembre de 2022. Archivado desde el original el 2 de octubre de 2020 . Consultado el 7 de noviembre de 2015 a través de GitHub.
^ Krizhanovsky, Transformación 2010.
^ ab Smirnov y col. 2012.
^ Krizhanovsky, Comparación 2010.
^ "Investigación de Gerard de Melo en ICSI, Berkeley". gerard.demelo.org . Archivado desde el original el 27 de marzo de 2023 . Consultado el 6 de marzo de 2023 .
^ Otte y Tyers 2011.
^ McFate y Forbus 2011.
^ Schlippe, Ochs y Schultz 2012.
^ Schlippe, Ochs y Schultz 2012, pág. 4802.
^ Schlippe, Ochs y Schultz 2012, pág. 4804.
^ Meyer y Gurévych 2012.
^ "ConceptNet 5". conceptnet5.media.mit.edu . Archivado desde el original el 19 de octubre de 2011 . Consultado el 23 de septiembre de 2023 .
^ Lin y Krizhanovsky 2011.
^ Medero y Ostendorf 2009.
^ Li, Graça y Taskar 2012.
^ Chesley y col. 2006.
^ "Wikidata: Wikcionario". Archivado desde el original el 3 de enero de 2023 . Consultado el 12 de octubre de 2012 .
Fuentes
Chesley, Paula; Vicente, Bruce; Xu, Li; Srihari, Rohini K. (2006). "Uso de verbos y adjetivos para clasificar automáticamente la opinión de un blog" (PDF) . Capacitación . 580 : 233–235. Archivado desde el original (PDF) el 24 de febrero de 2021 . Consultado el 9 de mayo de 2013 .
Hellmann, Sebastián; Brekle, Jonás; Auer, Sören (2012). "Aprovechando el crowdsourcing de recursos léxicos para iniciar una nube de datos lingüísticos" (PDF) . Proc. Internacional Conjunto. Conferencia de Tecnología Semántica (JIST) . Nara, Japón.
Hellmann, S.; Auer, S. (2013). "Hacia la extracción colaborativa de conocimientos a escala web" (PDF) . En Gurévych, Iryna; Kim, Jungi (eds.). "La Web popular se encuentra con la PNL" . Teoría y aplicaciones del procesamiento del lenguaje natural. Springer-Verlag . págs. 287–313. ISBN 978-3-642-35084-9. Archivado (PDF) desde el original el 27 de octubre de 2014 . Consultado el 10 de mayo de 2013 .
Krizhanovsky, Andrés (2010). "Transformación de la estructura de entrada del Wikcionario en tablas y relaciones en un esquema de base de datos relacional". arXiv : 1011.1368 [cs].
Krizhanovsky, Andrés (2010). "La comparación de tesauros de Wikcionario transformados al formato legible por máquina". arXiv : 1006.5040 [cs].
Kurmas, Zachary (julio de 2010). Zawilinski: una biblioteca para estudiar gramática en Wikcionario. Actas del VI Simposio Internacional sobre Wikis y Colaboración Abierta. Gdansk, Polonia . Consultado el 29 de julio de 2011 .
Li, Shen; Graça, Joao V.; Taskar, Ben (2012). "Etiquetado de partes del discurso supervisado por Wiki-ly" (PDF) . Actas de la conferencia conjunta de 2012 sobre métodos empíricos en el procesamiento del lenguaje natural y el aprendizaje computacional del lenguaje natural . Isla de Jeju, Corea: Asociación de Lingüística Computacional. págs. 1389-1398. Archivado desde el original (PDF) el 22 de mayo de 2013 . Consultado el 10 de mayo de 2013 .
Lepore, Jill (6 de noviembre de 2006). "Arca de Noé". El neoyorquino (Resumen) . Consultado el 21 de abril de 2007 .
Lin, Feiyu; Krizhanovsky, Andrés (2011). "Coincidencia de ontologías multilingües basada en datos de Wikcionario accesibles a través del punto final SPARQL". Proc. de la 13ª Conferencia Rusa sobre Bibliotecas Digitales RCDL'2011 . Vorónezh, Rusia. págs. 19-26. arXiv : 1109.0732 . Código Bib : 2011arXiv1109.0732L.
McFate, Clifton J.; Forbus, Kenneth D. (2011). "NULEX: un léxico de amplia cobertura de licencia abierta" (PDF) . La 49ª Reunión Anual de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Actas de la Conferencia . Portland, Oregon, EE.UU.: Asociación de Lingüística Informática. págs. 363–367. ISBN 978-1-932432-88-6.
Medero, Julie; Ostendorf, Mari (2009). «Análisis de la dificultad del vocabulario utilizando el wikcionario» (PDF) . Proc. Taller PIZARRA . Archivado desde el original (PDF) el 24 de abril de 2014 . Consultado el 10 de mayo de 2013 .
Meyer, CM; Gurévych, I. (2010). "Vale su peso en oro u otro recurso más: un estudio comparativo de Wikcionario, OpenThesaurus y GermaNet" (PDF) . Proc. XI Conferencia Internacional sobre Procesamiento Inteligente de Textos y Lingüística Computacional, Iasi, Rumania . págs. 38–49. Archivado desde el original (PDF) el 1 de diciembre de 2017 . Consultado el 10 de mayo de 2013 .
Meyer, CM; Gurévych, I. (2012). "OntoWiktionary: construcción de una ontología a partir del Wikcionario del diccionario colaborativo en línea" (PDF) . En Pazienza, MT; Stellato, A. (eds.). Desarrollo de Ontologías Semiautomática: Procesos y Recursos . IGI Global. págs. 131-161. ISBN 978-1-4666-0188-8. Archivado desde el original (PDF) el 9 de octubre de 2013.
Otte, Pim; Tyers, FM (2011). "Traducción automática rápida basada en reglas entre holandés y afrikáans" (PDF) . En Forcada, Mikel L.; Depraetere, Heidi; Vandeghinste, Vicente (eds.). 16ª Conferencia Anual de la Asociación Europea de Traducción Automática, EAMT11 . Lovaina, Bélgica. págs. 153-160. Archivado desde el original (PDF) el 25 de febrero de 2021 . Consultado el 10 de mayo de 2013 .
Sascha, Wolfer; Müller-Spitzer, Carolin (2016). "¿Cuántas personas constituyen una multitud y qué hacen? Análisis cuantitativos de las revisiones en las ediciones del Wikcionario en inglés y alemán". Léxicos . 26 : 347–371. ISSN 1684-4904. OCLC 7211535994. Archivado desde el original el 9 de mayo de 2023 . Consultado el 27 de agosto de 2021 a través de ProQuest.
Schlippe, Tim; Ochs, Sebastián; Schultz, Tanja (2012). "Generación de modelos de grafema a fonema para lenguas indoeuropeas" (PDF) . Acústica, Habla y Procesamiento de Señales (ICASSP) . Kyoto, Japón. págs. 4801–4804. Archivado desde el original (PDF) el 6 de octubre de 2014 . Consultado el 10 de mayo de 2013 .
Smirnov A, Levashova T, Karpov A, Kipyatkova I, Ronzhin A, Krizhanovsky A, Krizhanovsky N (2012). "Análisis del corpus de citas del Wikcionario ruso". Investigación en Ciencias de la Computación . 56 : 101-112. arXiv : 2002.00734 . CiteSeerX 10.1.1.694.9627 . doi :10.13053/rcs-56-1-11 (inactivo el 3 de febrero de 2024). S2CID 10726045.{{cite journal}}: CS1 maint: DOI inactive as of February 2024 (link)
Zesch, Torsten; Müller, Christof; Gurévych, Iryna (2008). "Extracción de conocimiento semántico léxico de Wikipedia y Wikcionario" (PDF) . Actas de la Conferencia sobre Evaluación y Recursos Lingüísticos (LREC) . Marrakech, Marruecos.
"Wikcionario". Los 101 mejores sitios web. Revista PC . Ziff Davis. 6 de abril de 2005. Archivado desde el original el 21 de diciembre de 2005 . Consultado el 16 de diciembre de 2005 .
enlaces externos
Busque Wikcionario en Wikcionario, el diccionario gratuito.
Página web oficial
Lista de todas las ediciones de Wikcionario
Paquete Wiktionary de Android en el repositorio de F-Droid