stringtranslate.com

Wikcionario

Wikcionario ( Reino Unido : / ˈ w ɪ k ʃ ən ər i / , WIK -shə-nər-ee ; EE . UU .: / ˈ w ɪ k ʃ ə n ɛr i / , WIK -shə-nerr-ee ; rima con "diccionario" ) es un proyecto multilingüe basado en web para crear un diccionario de términos de contenido gratuito (incluidas palabras , frases , refranes , reconstrucciones lingüísticas , etc.) en todos los lenguajes naturales y en varios lenguajes artificiales . Estas entradas pueden contener definiciones , imágenes para ilustración, pronunciaciones , etimologías , inflexiones , ejemplos de uso, citas , términos relacionados y traducciones de términos a otros idiomas, entre otras características. Se edita de forma colaborativa a través de una wiki . Su nombre es un acrónimo de las palabras wiki y diccionario . Está disponible en 192 idiomas y en inglés sencillo . Al igual que su proyecto hermano Wikipedia , Wikcionario está dirigido por la Fundación Wikimedia y está escrito en colaboración por voluntarios , denominados "wikcionarios". Su software wiki , MediaWiki , permite a casi cualquier persona con acceso al sitio web crear y editar entradas.

Debido a que Wikcionario no está limitado por consideraciones de espacio de impresión, la mayoría de las ediciones de idiomas de Wikcionario proporcionan definiciones y traducciones de términos de muchos idiomas, y algunas ediciones ofrecen información adicional que normalmente se encuentra en los tesauros .

Los datos de Wikcionario se utilizan con frecuencia en diversas tareas de procesamiento del lenguaje natural.

Historia y desarrollo

Wikcionario se puso en línea el 12 de diciembre de 2002, [2] tras una propuesta de Daniel Alston y una idea de Larry Sanger , cofundador de Wikipedia. [3] El 28 de marzo de 2004, se iniciaron los primeros Wikcionarios no ingleses en francés y polaco . Desde entonces se han iniciado wikcionarios en muchos otros idiomas. Wikcionario estuvo alojado en un nombre de dominio temporal (wiktionary.wikipedia.org) hasta el 1 de mayo de 2004, cuando cambió al nombre de dominio actual. [a] En julio de 2021 , Wikcionario presenta más de 30 millones de artículos (e incluso más entradas) en sus ediciones. [4] La mayor de las ediciones en idiomas es el Wikcionario en inglés, con más de 7,5 millones de entradas, seguido por el Wikcionario en francés con más de 4,7 millones y el Wikcionario en malgache con más de 3,5 millones de entradas. Cuarenta y tres ediciones en idioma Wikcionario contienen más de 100.000 entradas cada una. [b]

El uso de bots para generar una gran cantidad de artículos es visible como "aceleraciones de crecimiento" en este gráfico de recuentos de artículos en las ocho ediciones más grandes de Wikcionario. (Datos a diciembre de 2009 )

Muchas de las definiciones en las ediciones de idiomas más grandes del proyecto fueron creadas por robots que encontraron formas creativas de generar entradas o (raramente) importaron automáticamente miles de entradas de diccionarios publicados anteriormente. Siete de los 18 bots registrados en el Wikcionario en inglés en 2007 [c] crearon 163.000 entradas allí. [5]

Otro de estos robots, "ThirdPersBot", fue responsable de agregar una serie de conjugaciones en tercera persona que no habrían recibido sus propias entradas en los diccionarios estándar; por ejemplo, definió "smoulders" como la "tercera persona del singular simple presente de arder". De las 1.269.938 definiciones que el Wikcionario en inglés proporciona para 996.450 palabras en inglés, 478.068 son definiciones de "forma de" de este tipo. [6] Esto significa que incluso sin tales entradas, su cobertura del inglés es significativamente mayor que la de los principales diccionarios impresos monolingües. El tercer nuevo diccionario internacional del idioma inglés de Merriam-Webster, íntegro , por ejemplo, tiene 475.000 entradas (con muchos encabezados adicionales incorporados); el Diccionario de ingles Oxford tiene 615.000 palabras clave, pero también incluye inglés medio , para el cual el Wikcionario en inglés tiene 34.234 definiciones de brillo adicionales. Existen estadísticas detalladas para mostrar cuántas entradas de diversos tipos existen.

El Wikcionario en inglés no depende de bots en la medida en que lo hacen otras ediciones. Los Wikcionarios francés y vietnamita , por ejemplo, importaron grandes secciones del Proyecto de diccionario vietnamita gratuito (FVDP), que proporciona diccionarios bilingües de contenido gratuito hacia y desde vietnamita. [d] Estas entradas importadas constituyen prácticamente todo el contenido de la edición vietnamita. Al igual que la edición en inglés, el Wikcionario francés ha importado aproximadamente 20.000 entradas de la base de datos Unihan de caracteres chinos, japoneses, coreanos e indios . El Wikcionario francés creció rápidamente en 2006 gracias en gran parte a que los robots copiaron muchas entradas de diccionarios antiguos con licencia gratuita, como la octava edición del Dictionnaire de l'Académie française (1935, alrededor de 35.000 palabras), y utilizaron robots para agregar palabras de otras ediciones de Wikcionario con traducciones al francés. La edición rusa creció en casi 80.000 entradas a medida que "LXbot" añadió entradas estándar (con títulos, pero sin definiciones) para palabras en inglés y alemán . [7]

En julio de 2021, el Wikcionario en inglés tiene más de 791,870 definiciones de glosa y más de 1,269,938 definiciones totales (incluidas diferentes formas) solo para entradas en inglés, con un total de más de 9,928,056 definiciones en todos los idiomas. [8]

Logotipos

Históricamente, Wikcionario ha carecido de un logotipo uniforme en sus numerosas ediciones en idiomas. Algunas ediciones utilizan logotipos que representan una entrada del diccionario sobre el término "Wikcionario", basado en el logotipo anterior de Wikcionario en inglés, que fue diseñado por Brooke Vibber, un desarrollador de MediaWiki . [9] Debido a que un logotipo puramente textual debe variar considerablemente de un idioma a otro, de septiembre a octubre de 2006 se llevó a cabo en Wikimedia Meta-Wiki un concurso de cuatro fases para adoptar un logotipo uniforme. [e] Algunas comunidades adoptaron el diseño ganador por "Smurrayinchester", una cuadrícula de 3 × 3 de baldosas de madera, cada una con un carácter de un sistema de escritura diferente. Sin embargo, la encuesta no vio tanta participación de la comunidad Wikcionaria como algunos miembros de la comunidad esperaban, y varios de los wikis más grandes finalmente mantuvieron sus logotipos textuales. [mi]

En abril de 2009, el tema resucitó con un nuevo concurso. Esta vez, una representación de "AAEngelman" de un diccionario abierto de tapa dura ganó una votación directa contra el logotipo de 2006, pero el proceso para refinar y adoptar el nuevo logotipo se estancó. [10] En los años siguientes, algunos wikis reemplazaron sus logotipos textuales con uno de los dos logotipos más nuevos. En 2012, 55 wikis que habían estado usando el logotipo de Wikcionario en inglés recibieron versiones localizadas del diseño de 2006 de "Smurrayinchester". [f] En julio de 2016, el Wikcionario en inglés adoptó una variante de este logotipo. [11] Al 4 de julio de 2016 , 135 wikis, que representan el 61% de las entradas de Wikcionario, utilizan un logotipo basado en el diseño de 2006 de "Smurrayinchester", 33 wikis (36%) utilizan un logotipo textual y tres wikis (3%) Utilice el diseño de 2009 de "AAEngelman". [12]

Plurilingüe

En febrero de 2024, existen sitios Wikcionarios para 192 idiomas, de los cuales 168 están activos y 24 están cerrados. [1] Los sitios activos tienen 38.348.590 artículos y los sitios cerrados tienen 339 artículos. [13] Hay 7.202.561 usuarios registrados de los cuales 6.058 están activos recientemente. [13]

Los diez principales proyectos de lenguaje Wikcionario por recuento de artículos en el espacio principal: [13]

Para obtener una lista completa con totales, consulte Estadísticas de Wikimedia: [14]

Recepción de la crítica

La recepción crítica de Wikcionario ha sido mixta. En 2006, Jill Lepore escribió en el artículo "El arca de Noé" para The New Yorker , [g]

No se levanta la mano en Wikcionario . Ni siquiera hay redacción. "¡Sé tu propio lexicógrafo!", podría ser el lema de Wikcionario . ¿Quién necesita expertos? ¿Por qué pagar mucho dinero por un diccionario escrito por lexicógrafos cuando podríamos improvisar uno nosotros mismos?

Wikcionario no es tanto republicano o democrático como maoísta . Y es tan bueno como los libros con derechos de autor vencidos que roba.

La resena de Keir Graff para Booklist fue menos critica:

¿Hay lugar para el Wikcionario? Indudablemente. La industria y el entusiasmo de sus numerosos creadores son prueba de que hay mercado. Y es maravilloso tener otra fuente sólida para usar al buscar los términos extraños que surgen en el mundo en rápida evolución y el entorno en línea de hoy. Pero como ocurre con tantas fuentes web (incluida esta columna), es mejor que lo utilicen usuarios sofisticados junto con fuentes más acreditadas. [ cita necesaria ]

Las referencias en otras publicaciones son fugaces y forman parte de discusiones más amplias sobre Wikipedia, sin avanzar más allá de una definición, aunque David Brooks en The Nashua Telegraph la describió como "salvaje y confusa". [16] Uno de los impedimentos para la cobertura independiente de Wikcionario es la continua confusión de que es simplemente una extensión de Wikipedia. [h]

La medida de la corrección de las inflexiones de un subconjunto de palabras polacas en el Wikcionario en inglés mostró que estos datos gramaticales son muy estables (un estudio mostró que solo se han corregido los datos de inflexión de 131 de 4.748 palabras polacas). [17]

A partir de 2016 , Wikcionario ha experimentado un uso cada vez mayor en el mundo académico . [18]

Datos de Wikcionario en el procesamiento del lenguaje natural.

Wikcionario tiene datos semiestructurados . [19] Los datos lexicográficos de Wikcionario se pueden convertir a un formato legible por máquina para utilizarlos en tareas de procesamiento del lenguaje natural . [20] [21] [22]

La extracción de datos de Wikcionario es una tarea compleja. Existen las siguientes dificultades: [23]

Hay varios analizadores para diferentes ediciones de idiomas de Wikcionario: [24]

Ejemplos de tareas de procesamiento del lenguaje natural que se han resuelto con la ayuda de datos de Wikcionario incluyen:

" Wikidata : datos lexicográficos" se inició en 2018 para proporcionar soporte de datos estructurados a los Wikcionarios. Almacena datos de palabras de todos los idiomas en un modelo de datos legible por máquina, bajo un espacio de nombres dedicado " Lexeme " en Wikidata. En octubre de 2021, el proyecto ha acumulado más de 600.000 entradas de lexema en varios idiomas. [47]

Ver también

Notas

  1. ^ La URL actual de Wiktionary es www.wiktionary.org
  2. ^ El recuento total de artículos del Wikcionario está aquí. Las estadísticas detalladas por tipo de palabra están disponibles aquí [1].
  3. ^ La lista de usuarios en el Wikcionario en inglés identifica las cuentas a las que se les ha otorgado "estado de bot".
  4. ^ Hồ Ngọc Đức, Proyecto de diccionario vietnamita gratuito. Detalles en el Wikcionario vietnamita.
  5. ^ ab "Wikcionario/logotipo", Meta-Wiki, Fundación Wikimedia .
  6. ^ [Traductores-l] 56 Wikcionarios obtuvieron un logotipo localizado
  7. ^ El artículo completo no está disponible en línea. [15]
  8. ^ En esta cita, el autor se refiere a Wikcionario como parte del sitio Wikipedia: Adaptado de un artículo de Naomi DeTullio (2006). "Wikis para bibliotecarios" (PDF) . Noticias NETLS # 142 . Sistema de bibliotecas del noreste de Texas. pag. 15. Archivado desde el original (boletín PDF) el 5 de junio de 2007 . Consultado el 21 de abril de 2007 .
  9. ^ Por ejemplo, compare la estructura de entrada y las reglas de formato en el Wikcionario en inglés y en el Wikcionario en ruso.
  10. ^ Las citas se extraen únicamente del Wikcionario ruso. [33]
  11. ^ Si hay varias notaciones IPA en una página de Wikcionario, ya sea para diferentes idiomas o para variantes de pronunciación, entonces se extrajo la primera pronunciación. [39]
  12. ^ El código fuente y los resultados del etiquetado POS están disponibles en https://code.google.com/p/wikily-supervised-pos-tagger

Referencias

Citas

  1. ^ ab API MediaWiki de Wikimedia : Sitematrix. Obtenido en febrero de 2024 de Datos: Wikipedia stats/meta.tab
  2. ^ "Discusión sobre el archivo de la lista de correo de Wikipedia que anuncia la apertura del proyecto Wikcionario". 12 de diciembre de 2002. Archivado desde el original el 20 de junio de 2014 . Consultado el 3 de mayo de 2011 .
  3. ^ Discusión sobre el archivo de la lista de correo de Wikipedia de Larry Sanger dando la idea en Wikcionario Archivado el 20 de junio de 2014 en Wayback Machine - Consultado el 3 de mayo de 2011.
  4. ^ "Wikcionario". www.wikcionario.org . Archivado desde el original el 13 de septiembre de 2008 . Consultado el 28 de octubre de 2021 .
  5. ^ TheDaveBot Archivado el 11 de octubre de 2007 en Wayback Machine , TheCheatBot Archivado el 11 de octubre de 2007 en Wayback Machine , Websterbot Archivado el 11 de octubre de 2007 en Wayback Machine , PastBot Archivado el 11 de octubre de 2007 en Wayback Machine , NanshuBot Archivado el 11 de octubre de 2007 en Wayback Machine .
  6. ^ Estadísticas detalladas Archivadas el 23 de julio de 2021 en Wayback Machine al 21 de julio de 2021.
  7. ^ "LXbot". Archivado desde el original el 24 de mayo de 2008.
  8. ^ "Wikcionario: estadísticas". 29 de marzo de 2022. Archivado desde el original el 6 de marzo de 2023 . Consultado el 6 de marzo de 2023 a través de Wikcionario.
  9. ^ "Charla de Wikcionario: Logotipo de Wikcionario", Wikcionario en inglés, Fundación Wikimedia.
  10. ^ "Wikcionario/logo/actualizar/votar", Meta-Wiki, Fundación Wikimedia.
  11. ^ fab:T139255
  12. ^ m:Wikcionario/logo#Estadísticas de uso del logotipo.
  13. ^ API MediaWiki de abc Wikimedia : Siteinfo. Obtenido en febrero de 2024 de Datos: Wikipedia stats/data.tab
  14. ^ "Estadísticas del Wikcionario". Meta.Wikimedia.org . Archivado desde el original el 2 de septiembre de 2020 . Consultado el 11 de septiembre de 2020 .
  15. ^ Lepore 2006.
  16. ^ David Brooks, "La enciclopedia interactiva en línea ya no es solo para geeks, ¡porque todos parecen necesitarla ahora, más que nunca!". The Nashua Telegraph (4 de agosto de 2004)
  17. ^ Kurmas 2010.
  18. ^ Sascha y Müller-Spitzer 2016, pág. 348
  19. ^ Meyer y Gurevych 2012, pág. 140.
  20. ^ Zesch, Müller y Gurevych 2008, pág. 4, Figura 1.
  21. ^ Meyer y Gurevych 2010, pág. 40.
  22. ^ Krizhanovsky, Transformación 2010, p. 1.
  23. ^ Hellmann y Auer 2013, pag. 302, pág. 16 en PDF.
  24. ^ Hellmann, Brekle y Auer 2012, pág. 3, Tabla 1.
  25. ^ "Wikcionario de DBpedia". Archivado desde el original el 4 de mayo de 2013.
  26. ^ Hellmann, Brekle y Auer 2012, págs. 8–9.
  27. ^ Hellmann, Brekle y Auer 2012, pág. 10.
  28. ^ Hellmann, Brekle y Auer 2012, pág. 11.
  29. ^ "Bienvenido". DKPro JWKTL . Archivado desde el original el 23 de enero de 2021 . Consultado el 23 de junio de 2019 .
  30. ^ Zesch, Müller y Gurevych 2008.
  31. ^ "Wikokit: Wikcionario legible por máquina". 19 de diciembre de 2022. Archivado desde el original el 2 de octubre de 2020 . Consultado el 7 de noviembre de 2015 a través de GitHub.
  32. ^ Krizhanovsky, Transformación 2010.
  33. ^ ab Smirnov y col. 2012.
  34. ^ Krizhanovsky, Comparación 2010.
  35. ^ "Investigación de Gerard de Melo en ICSI, Berkeley". gerard.demelo.org . Archivado desde el original el 27 de marzo de 2023 . Consultado el 6 de marzo de 2023 .
  36. ^ Otte y Tyers 2011.
  37. ^ McFate y Forbus 2011.
  38. ^ Schlippe, Ochs y Schultz 2012.
  39. ^ Schlippe, Ochs y Schultz 2012, pág. 4802.
  40. ^ Schlippe, Ochs y Schultz 2012, pág. 4804.
  41. ^ Meyer y Gurévych 2012.
  42. ^ "ConceptNet 5". conceptnet5.media.mit.edu . Archivado desde el original el 19 de octubre de 2011 . Consultado el 23 de septiembre de 2023 .
  43. ^ Lin y Krizhanovsky 2011.
  44. ^ Medero y Ostendorf 2009.
  45. ^ Li, Graça y Taskar 2012.
  46. ^ Chesley y col. 2006.
  47. ^ "Wikidata: Wikcionario". Archivado desde el original el 3 de enero de 2023 . Consultado el 12 de octubre de 2012 .

Fuentes

enlaces externos