stringtranslate.com

Wikcionario

Wikcionario ( Reino Unido : / ˈ w ɪ k ʃ ən ər i / ,WIK-shə-nər-ee;EE. UU.:/ ˈ w ɪ k ʃ ə n ɛr i / ,WIK-shə-nerr-eeproyectomultilingüela webdiccionariode contenido libre de términos (incluyendopalabras,frases,proverbios,reconstrucciones lingüísticas, etc.) en todoslos idiomas naturalesy en variosidiomas artificiales. Estas entradas pueden contenerdefiniciones,imágenespara ilustración,pronunciaciones,etimologías,inflexiones, ejemplos de uso,citas, términos relacionados ytraduccionesde términos a otros idiomas, entre otras características. Seedita de forma colaborativaa través de unawiki. Su nombre es unacrónimode las palabraswikiydiccionario. Está disponible en 194 idiomas y eninglés simple. Al igual que su proyecto hermanoWikipedia, Wikcionario está dirigido por laFundación Wikimedia, y está escrito de forma colaborativa porvoluntarios, denominados "Wikcionarios". Susoftware wiki,MediaWiki, permite a casi cualquier persona con acceso al sitio web crear y editar entradas.

Como Wikcionario no está limitado por consideraciones de espacio de impresión, la mayoría de las ediciones de idiomas de Wikcionario proporcionan definiciones y traducciones de términos de muchos idiomas, y algunas ediciones ofrecen información adicional que normalmente se encuentra en los tesauros .

Los datos de Wikcionario se utilizan con frecuencia en diversas tareas de procesamiento del lenguaje natural.

Historia y desarrollo

Wikcionario se puso en línea el 12 de diciembre de 2002, [2] a raíz de una propuesta de Daniel Alston y una idea de Larry Sanger , cofundador de Wikipedia. [3] El 28 de marzo de 2004, se iniciaron los primeros Wikcionarios no ingleses en francés y polaco . Desde entonces se han iniciado Wikcionarios en muchos otros idiomas. Wikcionario estuvo alojado en un nombre de dominio temporal (wiktionary.wikipedia.org) hasta el 1 de mayo de 2004, cuando cambió al nombre de dominio actual. [a] A julio de 2021 , Wikcionario presenta más de 30 millones de artículos (e incluso más entradas) en sus ediciones. [4] La edición en idioma más grande es el Wikcionario en inglés, con más de 7,5 millones de entradas, seguido por el Wikcionario en francés con más de 4,7 millones y el Wikcionario en malgache con más de 3,5 millones de entradas. Cuarenta y tres ediciones de idiomas de Wikcionario contienen más de 100.000 entradas cada una. [b]

El uso de bots para generar grandes cantidades de artículos se puede ver como "rachas de crecimiento" en este gráfico de recuento de artículos en las ocho ediciones más grandes de Wikcionario. (Datos de diciembre de 2009 )

Muchas de las definiciones de las ediciones más importantes del proyecto en los distintos idiomas fueron creadas por bots que encontraron formas creativas de generar entradas o (raramente) importaron automáticamente miles de entradas de diccionarios publicados previamente. Siete de los 18 bots registrados en el Wikcionario en inglés en 2007 [c] crearon 163.000 de las entradas que hay allí. [5]

Otro de estos bots, "ThirdPersBot", fue responsable de la adición de una serie de conjugaciones en tercera persona que no habrían recibido sus propias entradas en los diccionarios estándar; por ejemplo, definió "smoulders" como la "forma presente simple de tercera persona singular de smoulder". De las 1.269.938 definiciones que proporciona el Wikcionario en inglés para 996.450 palabras en inglés, 478.068 son definiciones de "forma de" de este tipo. [6] Esto significa que incluso sin dichas entradas, su cobertura del inglés es significativamente mayor que la de los principales diccionarios impresos monolingües. El Third New International Dictionary of the English Language, Unabridged de Merriam-Webster , por ejemplo, tiene 475.000 entradas (con muchas palabras clave adicionales incrustadas); El Oxford English Dictionary tiene 615.000 entradas, pero también incluye el inglés medio , para el que el Wikcionario inglés tiene 34.234 definiciones de glosas adicionales. Existen estadísticas detalladas para mostrar cuántas entradas de varios tipos existen.

El Wikcionario en inglés no depende de bots en la medida en que lo hacen otras ediciones. Los Wikcionarios en francés y vietnamita , por ejemplo, importaron grandes secciones del Free Vietnamese Dictionary Project (FVDP), que proporciona diccionarios bilingües de contenido gratuito hacia y desde el vietnamita. [d] Estas entradas importadas constituyen prácticamente la totalidad del contenido de la edición vietnamita. Al igual que la edición en inglés, el Wikcionario en francés ha importado aproximadamente 20.000 entradas de la base de datos Unihan de caracteres chinos, japoneses, coreanos e indios . El Wikcionario en francés creció rápidamente en 2006 gracias en gran parte a los bots que copiaron muchas entradas de diccionarios antiguos con licencia libre, como la octava edición del Dictionnaire de l'Académie française (1935, alrededor de 35.000 palabras), y al uso de bots para agregar palabras de otras ediciones del Wikcionario con traducciones al francés. La edición rusa creció en casi 80.000 entradas a medida que "LXbot" agregó entradas estándar (con encabezados, pero sin definiciones) para palabras en inglés y alemán . [7]

En julio de 2021, el Wikcionario en inglés tiene más de 791.870 definiciones de glosa y más de 1.269.938 definiciones totales (incluidas diferentes formas) solo para entradas en inglés, con un total de más de 9.928.056 definiciones en todos los idiomas. [8]

Logotipos

Históricamente, Wikcionario no ha tenido un logotipo uniforme en sus numerosas ediciones en distintos idiomas. Algunas ediciones utilizan logotipos que representan una entrada de diccionario sobre el término "Wikcionario", basándose en el logotipo anterior de Wikcionario en inglés, que fue diseñado por Brooke Vibber, una desarrolladora de MediaWiki . [9] Debido a que un logotipo puramente textual debe variar considerablemente de un idioma a otro, se llevó a cabo un concurso de cuatro fases para adoptar un logotipo uniforme en Wikimedia Meta-Wiki entre septiembre y octubre de 2006. [e] Algunas comunidades adoptaron la propuesta ganadora de "Smurrayinchester", una cuadrícula de 3x3 de baldosas de madera, cada una con un carácter de un sistema de escritura diferente. Sin embargo, la encuesta no tuvo tanta participación de la comunidad de Wikcionario como algunos miembros de la comunidad esperaban, y varios de los wikis más grandes finalmente mantuvieron sus logotipos textuales. [e]

En abril de 2009, el tema resurgió con un nuevo concurso. Esta vez, una representación de "AAEngelman" de un diccionario de tapa dura abierto ganó una votación directa contra el logotipo de 2006, pero el proceso para refinar y adoptar el nuevo logotipo se estancó. [10] En los años siguientes, algunas wikis reemplazaron sus logotipos textuales con uno de los dos logotipos más nuevos. En 2012, 55 wikis que habían estado usando el logotipo de Wikcionario en inglés recibieron versiones localizadas del diseño de 2006 de "Smurrayinchester". [f] En julio de 2016, el Wikcionario en inglés adoptó una variante de este logotipo. [11] Al 4 de julio de 2016 , 135 wikis, que representan el 61% de las entradas de Wikcionario, usan un logotipo basado en el diseño de 2006 de "Smurrayinchester", 33 wikis (36%) usan un logotipo textual y tres wikis (3%) usan el diseño de 2009 de "AAEngelman". [12]

Plurilingüe

En octubre de 2024, existen sitios de Wikcionario para 194 idiomas, de los cuales 170 están activos y 24 están cerrados. [1] Los sitios activos tienen 41.666.387 artículos y los sitios cerrados tienen 339 artículos. [13] Hay 7.386.971 usuarios registrados, de los cuales 5.987 están activos recientemente. [13]

Los diez proyectos de idiomas más importantes de Wikcionario según el número de artículos en el espacio principal: [13]

Para obtener una lista completa con los totales, consulte las estadísticas de Wikimedia: [14]

Recepción crítica

La recepción crítica de Wikcionario ha sido mixta. En 2006, Jill Lepore escribió en el artículo "El Arca de Noé" para The New Yorker : [g]

En Wikcionario no se levanta la mano . Ni siquiera hay un equipo editorial. "¡Sé tu propio lexicógrafo!", podría ser el lema de Wikcionario . ¿Quién necesita expertos? ¿Por qué pagar un buen dinero por un diccionario escrito por lexicógrafos cuando podríamos improvisar uno nosotros mismos?

Wikcionario no es tanto republicano o democrático como maoísta . Y es tan bueno como los libros con derechos de autor vencidos de los que roba.

La reseña de Keir Graff para Booklist fue menos crítica:

¿Hay un lugar para Wikcionario? Sin duda. La industria y el entusiasmo de sus numerosos creadores son prueba de que existe un mercado. Y es maravilloso tener otra fuente sólida para utilizar cuando se buscan los términos extraños que aparecen en el mundo de rápido cambio de hoy y en el entorno en línea. Pero, como sucede con tantas fuentes web (incluida esta columna), es mejor que los usuarios sofisticados lo utilicen junto con fuentes más confiables. [ cita requerida ]

Las referencias en otras publicaciones son fugaces y forman parte de discusiones más amplias sobre Wikipedia, sin avanzar más allá de una definición, aunque David Brooks en The Nashua Telegraph la describió como "salvaje y confusa". [16] Uno de los impedimentos para la cobertura independiente de Wikcionario es la continua confusión de que es meramente una extensión de Wikipedia. [h]

La medida de corrección de las flexiones para un subconjunto de las palabras polacas en el Wikcionario en inglés mostró que estos datos gramaticales son muy estables (un estudio mostró que solo 131 de 4.748 palabras polacas tuvieron sus datos de flexión corregidos). [17]

A partir de 2016 , Wikcionario ha experimentado un uso creciente en el ámbito académico . [18]

Datos de Wikcionario en el procesamiento del lenguaje natural

Wikcionario tiene datos semiestructurados . [19] Los datos lexicográficos de Wikcionario se pueden convertir a un formato legible por máquina para poder usarlos en tareas de procesamiento del lenguaje natural . [20] [21] [22]

La minería de datos de Wikcionario es una tarea compleja. Existen las siguientes dificultades: [23]

Hay varios analizadores para diferentes ediciones de idiomas de Wikcionario: [24]

Algunos ejemplos de tareas de procesamiento del lenguaje natural que se han resuelto con la ayuda de datos de Wiktionary incluyen:

" Wikidata : datos lexicográficos" se inició en 2018 para proporcionar soporte de datos estructurados a los Wikcionarios. Almacena datos de palabras de todos los idiomas en un modelo de datos legible por máquina, bajo un espacio de nombres dedicado " Lexeme " en Wikidata. En octubre de 2021, el proyecto ha acumulado más de 600.000 entradas de lexema en varios idiomas. [47]

Véase también

Notas

  1. ^ La URL actual de Wiktionary es www.wiktionary.org
  2. ^ El recuento total de artículos de Wikcionario se encuentra aquí. Las estadísticas detalladas por tipo de palabra están disponibles aquí [1].
  3. ^ La lista de usuarios en el Wikcionario en inglés identifica las cuentas a las que se les ha otorgado el "estado de bot".
  4. ^ Hồ Ngọc Đức, Proyecto de diccionario vietnamita gratuito. Detalles en el Wikcionario vietnamita.
  5. ^ ab "Wikcionario/logotipo", Meta-Wiki, Fundación Wikimedia .
  6. ^ [Traductores-l] 56 Wikcionarios tienen un logotipo localizado
  7. ^ El artículo completo no está disponible en línea. [15]
  8. ^ En esta cita, el autor se refiere a Wikcionario como parte del sitio Wikipedia: Adaptado de un artículo de Naomi DeTullio (2006). "Wikis para bibliotecarios" (PDF) . NETLS News #142 . Northeast Texas Library System. p. 15. Archivado desde el original (boletín PDF) el 5 de junio de 2007 . Consultado el 21 de abril de 2007 .
  9. ^ Por ejemplo, compare la estructura de entradas y las reglas de formato en Wikcionario en inglés y Wikcionario en ruso.
  10. ^ Las citas se extraen únicamente del Wikcionario ruso. [33]
  11. ^ Si hay varias notaciones IPA en una página de Wikcionario, ya sea para diferentes idiomas o para variantes de pronunciación, entonces se extrajo la primera pronunciación. [39]
  12. ^ El código fuente y los resultados del etiquetado POS están disponibles en https://code.google.com/p/wikily-supervised-pos-tagger

Referencias

Citas

  1. ^ ab API MediaWiki de Wikimedia : Sitematrix. Obtenido en octubre de 2024 de Datos: Wikipedia stats/meta.tab
  2. ^ "Discusión en el archivo de la lista de correo de Wikipedia que anuncia la apertura del proyecto Wikcionario". 12 de diciembre de 2002. Archivado desde el original el 20 de junio de 2014. Consultado el 3 de mayo de 2011 .
  3. ^ Discusión en el archivo de la lista de correo de Wikipedia de Larry Sanger dando la idea sobre Wikcionario Archivado el 20 de junio de 2014 en Wayback Machine – Consultado el 3 de mayo de 2011
  4. ^ "Wikcionario". www.wiktionary.org . Archivado desde el original el 13 de septiembre de 2008 . Consultado el 28 de octubre de 2021 .
  5. ^ TheDaveBot Archivado el 11 de octubre de 2007 en Wayback Machine , TheCheatBot Archivado el 11 de octubre de 2007 en Wayback Machine , Websterbot Archivado el 11 de octubre de 2007 en Wayback Machine , PastBot Archivado el 11 de octubre de 2007 en Wayback Machine , NanshuBot Archivado el 11 de octubre de 2007 en Wayback Machine
  6. ^ Estadísticas detalladas Archivado el 23 de julio de 2021 en Wayback Machine al 21 de julio de 2021
  7. ^ "LXbot". Archivado desde el original el 24 de mayo de 2008.
  8. ^ «Wikcionario:Estadísticas». 29 de marzo de 2022. Archivado desde el original el 6 de marzo de 2023. Consultado el 6 de marzo de 2023 – vía Wikcionario.
  9. ^ "Wikcionario discusión:Logotipo de Wikcionario", Wikcionario en inglés, Fundación Wikimedia.
  10. ^ "Wikcionario/logotipo/actualizar/votación", Meta-Wiki, Fundación Wikimedia.
  11. ^ nombre:T139255
  12. ^ m:Wiktionary/logo#Estadísticas de uso del logotipo.
  13. ^ API MediaWiki de abc Wikimedia : Siteinfo. Obtenido en octubre de 2024 de Datos: Wikipedia stats/data.tab
  14. ^ «Estadísticas de Wikcionario». Meta.Wikimedia.org . Archivado desde el original el 2 de septiembre de 2020. Consultado el 11 de septiembre de 2020 .
  15. ^ Lepore 2006.
  16. ^ David Brooks, "La enciclopedia interactiva en línea ya no es sólo para geeks, ¡porque todo el mundo parece necesitarla ahora, más que nunca!" The Nashua Telegraph (4 de agosto de 2004)
  17. ^ Kurmas 2010.
  18. ^ Sascha y Müller-Spitzer 2016, pág. 348
  19. ^ Meyer y Gurevych 2012, pág. 140.
  20. ^ Zesch, Müller y Gurevych 2008, pág. 4, Figura 1.
  21. ^ Meyer y Gurevych 2010, pág. 40.
  22. ^ Krizhanovsky, Transformación 2010, p. 1.
  23. ^ Hellmann & Auer 2013, pág. 302, pág. 16 en PDF.
  24. ^ Hellmann, Brekle y Auer 2012, pág. 3, Tabla 1.
  25. ^ "Wikcionario de DBpedia". Archivado desde el original el 4 de mayo de 2013.
  26. ^ Hellmann, Brekle y Auer 2012, págs. 8-9.
  27. ^ Hellmann, Brekle y Auer 2012, pág. 10.
  28. ^ Hellmann, Brekle y Auer 2012, pág. 11.
  29. ^ "Bienvenidos". DKPro JWKTL . Archivado desde el original el 23 de enero de 2021 . Consultado el 23 de junio de 2019 .
  30. ^ Zesch, Müller y Gurevych 2008.
  31. ^ «Wikokit - Wikcionario legible por máquina». 19 de diciembre de 2022. Archivado desde el original el 2 de octubre de 2020. Consultado el 7 de noviembre de 2015 – vía GitHub.
  32. ^ Krizhanovsky, Transformación 2010.
  33. ^ desde Smirnov y otros, 2012.
  34. ^ Krizhanovsky, Comparación 2010.
  35. ^ "Investigación de Gerard de Melo en ICSI, Berkeley". gerard.demelo.org . Archivado desde el original el 27 de marzo de 2023 . Consultado el 6 de marzo de 2023 .
  36. ^ Otte y Tyers 2011.
  37. ^ McFate y Forbus 2011.
  38. ^ Schlippe, Ochs y Schultz 2012.
  39. ^ Schlippe, Ochs y Schultz 2012, pág. 4802.
  40. ^ Schlippe, Ochs y Schultz 2012, pág. 4804.
  41. ^ Meyer y Gurevych 2012.
  42. ^ "ConceptNet 5". conceptnet5.media.mit.edu . Archivado desde el original el 19 de octubre de 2011 . Consultado el 23 de septiembre de 2023 .
  43. ^ Lin y Krizhanovsky 2011.
  44. ^ Medero y Ostendorf 2009.
  45. ^ Li, Graça y Taskar 2012.
  46. ^ Chesley y otros. 2006.
  47. ^ «Wikidata:Wikcionario». Archivado desde el original el 3 de enero de 2023. Consultado el 12 de octubre de 2012 .

Fuentes

Enlaces externos