stringtranslate.com

Wikipedia: Modelando el crecimiento de Wikipedia

Texto total del artículo en Wikipedia en inglés, medido en gigabytes (comprimido) [1]
Crecimiento de nuevos artículos frente a las predicciones del modelo de Gompertz, el modelo logístico y el modelo de crecimiento extendido
  • WP: CRECIMIENTO

Esta página analiza los datos de recuento de artículos en Wikipedia:Tamaño de Wikipedia e intenta ajustar un modelo numérico simple de crecimiento pasado y futuro a los datos de crecimiento y tamaño de recuento de artículos observados.

La tasa de creación de nuevos artículos en la Wikipedia en inglés creció exponencialmente hasta alrededor de 2007, aunque ya no es así. La tasa de creación de artículos está disminuyendo muy lentamente desde su pico de entonces de alrededor de 50.000 artículos nuevos creados por mes. Los dos modelos de crecimiento más creíbles para toda la vida de Wikipedia son un modelo de función de Gompertz que predice que la creación de artículos eventualmente se acercará asintóticamente a cero, y un modelo de Gompertz modificado (ver más abajo) que predice que el crecimiento continuará indefinidamente, pero a un ritmo significativamente menor que en los primeros días de Wikipedia. A partir del 19 de octubre de 2024, hay 6.898.170 artículos. En los últimos años, el aumento en el número de páginas ha disminuido de 372.000 en 2010 a 164.000 en 2022 y 169.000 en 2023.

Por otra parte, la cantidad total de texto en los artículos de Wikipedia ha aumentado de manera esencialmente lineal, y la tasa de crecimiento se mantiene prácticamente sin cambios desde 2006. Sin embargo, hay un aumento en la tasa de crecimiento en 2020. Esto no implica que la contribución a Wikipedia esté disminuyendo con el tiempo, sino que relativamente más del trabajo realizado se centra en expandir artículos existentes o incluso fusionar artículos que son similares en alcance en lugar de crear otros nuevos.

Crecimiento del número de artículos

El siguiente gráfico muestra el número de artículos en Wikipedia en inglés desde su creación en 2001 hasta 2015.

Aquí se presentan varios modelos para intentar explicar las tendencias generales observadas en el crecimiento de artículos.

Antiguo modelo exponencial para el recuento de artículos de Wikipedia

Gráficos del recuento de artículos de la Wikipedia en inglés, desde el 10 de enero de 2001 hasta el 9 de septiembre de 2007, basados ​​en estadísticas de esta página y Wikipedia:Anuncios . Los dos gráficos muestran ejes y logarítmicos y lineales. Los gráficos también muestran la tasa aproximada de aumento de artículos por día, junto con el número proyectado de artículos basado en la duplicación anual con referencia al 1 de enero de 2003.

El crecimiento de artículos había sido de aproximadamente 100% anual desde 2003 hasta la mayor parte de 2006, pero se ha desacelerado desde aproximadamente septiembre de 2006. La tendencia ya no es de crecimiento exponencial , sino que ha sido más cercana a lineal desde entonces.

Notas

Algunas notas sobre las características del gráfico:

Crítica del modelo exponencial

El modelo exponencial de crecimiento de Wikipedia se basa en lo siguiente:

Además, se supone que la tasa media de crecimiento es proporcional al tamaño de Wikipedia, por lo que el crecimiento sería exponencial .

El gráfico de recuento de artículos de la derecha está trazado en una escala logarítmica, por lo que el crecimiento exponencial debería manifestarse como un comportamiento lineal de los datos. Entre octubre de 2002 y julio de 2006, los datos se ajustan muy bien a lo largo de la línea de puntos que se muestra, mientras que a partir de julio de 2006 se observa una notable disminución del comportamiento lineal. Antes de octubre de 2002, el comportamiento es más complejo.

El gráfico de la derecha es un primer plano de los puntos de datos que siguen una tendencia lineal: la línea de mejor ajuste en rojo se calculó mediante regresión lineal . A partir de la pendiente de esta línea de mejor ajuste, se puede encontrar el momento adecuado del crecimiento exponencial, que da:

La expresión anterior significa que el número de artículos se duplicó una vez cada 346 días desde octubre de 2002 hasta octubre de 2006, lo que supone una aproximación muy buena. Si Wikipedia hubiera seguido esta tendencia, como se muestra en el gráfico, el número de artículos en diciembre de 2006 habría sido de 1.900.000, en junio de 2007 de 2.800.000 y en diciembre de 2007 de 4.000.000, aunque se ha producido una ralentización del crecimiento y Wikipedia parece haber dejado de crecer exponencialmente.

Crecimiento de Wikipedia y predicciones desde julio de 2006 hasta diciembre de 2008
Crecimiento de Wikipedia y predicciones desde julio de 2006 hasta diciembre de 2008

El gráfico de la derecha es una proyección de crecimiento exponencial realizada en julio de 2006. El número de artículos en la Wikipedia en inglés hasta julio de 2006 se muestra en rojo, y se extrapola en azul utilizando una función exponencial (aproximadamente 38000*exp(0,0017 t ) artículos, donde t es el número de días desde el 1 de enero de 2001).

A finales de 2006, cuando había 1,5 millones de artículos, la proyección ya sobreestimaba el crecimiento en un 10-15%, y la predicción de más de 3 millones de artículos a finales de 2007 es significativamente mayor que la cifra real de alrededor de 2,1 millones de artículos.

Se ha planteado la hipótesis de que la tasa de crecimiento de Wikipedia consiste en un número constante de artículos por día, enviados por wikipedistas "devotos", con artículos adicionales enviados por wikipedistas menos entusiastas proporcionales al número actual de artículos de Wikipedia. En este modelo, la tasa de crecimiento debería ser una función lineal del tamaño de Wikipedia.

Preguntas:

Con el tiempo, probablemente llegará un momento en el que la cantidad de artículos creados cada día comenzará a disminuir, debido a la falta de cosas sobre las que escribir. Pero es probable que la cantidad de información en cada artículo comience a aumentar en lugar de un aumento en la cantidad de artículos. Las limitaciones en la interfaz (actual) de Wikipedia causarán una especie de cuello de botella, limitando el tipo (y por defecto, la cantidad ) de crecimiento a patrones de crecimiento monolingües verticales, en oposición a patrones de crecimiento interlingües laterales.

Tenga en cuenta que desde principios de diciembre de 2005, sólo los usuarios registrados pueden crear páginas nuevas.

Modelo cuadrático para el recuento de artículos de Wikipedia

Nota: A finales de 2008, WP:Tamaño de Wikipedia#Tasa de crecimiento anual utilizó un modelo simple con una tasa decreciente de nuevos artículos para predecir cuándo terminaría el crecimiento.

Modelo de crecimiento extendido

Tasa de crecimiento mensual pasada y proyectada en artículos por mes.

En 2009, el fuerte crecimiento continuo indicó que no había un punto medio obvio cercano en el crecimiento de nuevos artículos. Aunque el crecimiento se estaba desacelerando, lo estaba haciendo de manera más gradual y se podía esperar que continuara más allá de otros 15 años, creando hasta 10 millones de artículos. La fecha prevista para la marca de 3 millones de artículos se creía que para entonces era a mediados de agosto de 2009, aunque solo terminó sucediendo entre diciembre de 2009 y enero de 2010. [2] El crecimiento fue respaldado por la necesidad de varios artículos derivados, como artículos de mano invisible y mundo perdido, millones de artículos de enlace rojo faltantes, más muchos miles de nuevas páginas de desambiguación necesarias para conectar los otros millones de páginas. El nuevo punto medio proyectado podría ocurrir en el año 2011 [ necesita actualización ] , aunque cualquier carga automática masiva de numerosos artículos podría cambiar el cronograma, como un esfuerzo masivo y automatizado para generar automáticamente esbozos de enlace rojo con fuentes sugeridas a partir de los resultados del motor de búsqueda. El fuerte crecimiento continuo se ajusta al modelo, alcanzando alrededor de 10 millones de artículos, antes de que las eliminaciones y fusiones compensen el aumento de nuevos artículos que se agregan.

Modelo exponencial de dos fases

La tasa de crecimiento N'(t) de Wikipedia (número de artículos nuevos por unidad de tiempo) se puede modelar con precisión mediante dos exponenciales, una creciente ("fase 1") y otra decreciente ("fase 2"), con un cruce bastante pronunciado alrededor de enero de 2006. En los gráficos siguientes, los puntos son los recuentos observados N(t) (limpiados y remuestreados en "meses" iguales de 28 días) y los respectivos incrementos N'(t) (artículos nuevos por mes de 28 días). Las líneas continuas son los valores de N'(t) y N(t) calculados por el modelo.

Modulación estacional desde 2006

Desde 2006, también se observa una marcada variación semestral en la tasa de artículos nuevos, con picos en febrero y agosto. Los siguientes gráficos incluyen este factor modulador:

Trascendencia

Algunas implicaciones de este modelo:

Más información

Aquí se incluye el archivo de texto con los datos utilizados para generar estos gráficos. La primera columna es el tiempo t , específicamente los días transcurridos desde el 1 de enero de 2001. Las columnas 2, 3 y 4 son año, mes y día. La columna 5 es el recuento de artículos observado N(t) en esa fecha (limpiado y remuestreado). La columna 7 es el valor de N(t) predicho por el modelo. Las columnas 9 y 11 son las tasas de crecimiento observadas y predichas N'(t) en artículos por mes "lunar" (28 días). También hay un informe técnico que describe el modelo y el conjunto de datos.

Modelo de Gompertz (2010–)

Este modelo se basa en la función de Gompertz . La función de Gompertz es como una función logística, pero la asíntota del valor futuro de la función se aproxima de forma mucho más gradual, a diferencia de la función logística, en la que la curva se aproxima a ambas asíntotas de forma simétrica.

Las razones de este nuevo modelo son:

La fórmula para la función de Gompertz para en.wikipedia es , con

a= 4378449 (el máximo previsto para aproximadamente 4,4 millones de artículos)
b= -15,42677
c= -0,384124
t es el tiempo en años desde el 01-01-2000 (por lo que el 01-01-2010 es t=10,00)

El máximo esperado del modelo de Gompertz está entre el modelo logístico y el modelo de crecimiento extendido de Wikipedia .

Vea a continuación 3 gráficos del modelo de Gompertz, seguidos de 3 gráficos correspondientes del modelo logístico, un gráfico para una comparación general entre los modelos logístico, de Gompertz y de crecimiento extendido, y un gráfico de las 20 principales Wikipedias que en general muestran el mismo comportamiento en porcentaje de crecimiento de artículos.

Modelo de Gompertz modificado

Ha comenzado a desarrollarse una pequeña pero significativa disparidad entre el recuento de artículos medido y la curva de Gompertz ajustada, y el recuento de artículos aumenta más rápido de lo previsto desde mediados de 2011.

Un modelo posible, basado en la inspección visual de File:EnwikipediapercgrowthGom.PNG , podría ser una curva de Gompertz con un pequeño término de crecimiento exponencial constante adicional, , que tendría la propiedad de que el término pequeño se "descubriría" solo en las últimas etapas de la curva de crecimiento de Gompertz, porque estaría dominado por el término anterior a ese punto.

Aplicando esto a los datos de Wikipedia:Size_of_Wikipedia#The_data_set , usando un poco de optimización numérica para encontrar los parámetros, se obtiene un ajuste mucho mejor al menos a las partes más recientes de los datos, de esta manera:

Aunque con el parámetro adicional, resulta mucho más fácil ajustar cualquier curva y existe el peligro de sobreajuste . También se ajusta menos bien al principio, antes del comienzo de la ventana de ajuste en 2004.5 (hecho para eliminar las fluctuaciones de crecimiento salvaje de los datos de la era Rambot). Pero agrega cierta plausibilidad al modelo y, como mínimo, proporciona una nueva extrapolación ad hoc que parece plausible y que se puede comparar con los otros candidatos en el futuro.

A continuación se muestran los cambios porcentuales correspondientes de intervalo a intervalo, utilizando las series de datos remuestreadas en intervalos de 0,05 años, con una escala logarítmica en el eje y, que muestra la proximidad del ajuste desde 2005 en adelante:

Aquí están los resultados correspondientes para dewiki:, que no tenía las perturbaciones iniciales de Rambot/ralentización del servidor de la era 2002 que se encontraron en los datos de enwiki:

Conjunto de datos para el número de artículos

Como las estadísticas de Erik Zachte para la Wikipedia en inglés no se actualizan desde octubre de 2006, estas son las cifras que utilizo yo (HenkvD) para generar los gráficos. Los datos hasta octubre de 2006 se obtuvieron de una de las Descargas de Erik. Los datos desde entonces los tomé manualmente cada mes en la fecha (o un día después) utilizando la página Especial:Estadísticas . Véase también Wikipedia:Tamaño de Wikipedia#El conjunto de datos para obtener una lista de valores del recuento oficial, registrados manualmente a intervalos irregulares.

Otras mediciones del crecimiento de los artículos

Ediciones por artículo

El siguiente gráfico muestra el número medio de ediciones por artículo y está pensado como una medida de la calidad de los artículos, asumiendo que la edición mejora el contenido.

El gráfico está trazado en escala logarítmica, y estos datos también encajan bien con el crecimiento exponencial a partir de octubre de 2002. Desde entonces, el número de ediciones por artículo se ha duplicado una vez cada 505 días, una tasa consistente con la ley de Moore .

Modelado del crecimiento de las visitas a páginas de Wikipedia por millón

Utilizando los datos de visitas a páginas de Alexa por millón de Wikipedia: estadísticas de concientización (ver [1] para un gráfico) en el período del 1 de enero de 2003 al 5 de septiembre de 2005, filtrando todos los puntos a menos de 28 días del punto anterior (para evitar una ponderación excesiva durante períodos de tiempo en los que los puntos están muestreados densamente) y realizando un ajuste lineal de mínimos cuadrados del logaritmo de los datos, se obtiene la siguiente fórmula aproximada:

log_e(páginas vistas por millón) = -50 + 5e-08 * época_de_fecha_unix

para n = 21 puntos ajustados

Esto implica un período de duplicación de (log_e(2) / 5e-08) / 86400 días, que es aproximadamente 160 días, y un factor de crecimiento anual en páginas vistas por millón de aproximadamente exp(5e-08*365*86400), que es aproximadamente 5.

Jugando con diferentes períodos de tiempo y tiempos de filtro, obtenemos un rango de resultados de los cuales podemos decir razonablemente que el tiempo de duplicación estimado de visitas a páginas por millón de Wikipedia está en algún lugar en el rango de 130 a 160 días , con el tiempo de duplicación reciente (2005) de 156 días aproximadamente dentro del rango del tiempo de duplicación de más largo plazo de aproximadamente 155 a 159 días, siendo el período de 2004 la excepción a las tendencias a largo y corto plazo.

Modelado de mejoras en el ranking de tráfico de Alexa en Wikipedia

Aumento histórico del ranking de tráfico de Alexa en Wikipedia, 2002-2004

La aplicación de un ajuste de regresión lineal similar al logaritmo del ranking de tráfico de Alexa de Wikipedia desde octubre de 2002 hasta septiembre de 2005 arroja un resultado similar, con un período de reducción a la mitad (cuanto menor, mejor para el ranking) de aproximadamente 134 a 138 días a largo plazo, con un tiempo de reducción a la mitad (solo con los datos de 2005) de 114 días. Dado que el PageRank en septiembre de 2005 era aproximadamente 40, esto sugiere, si se lleva a extremos lógicos y se utiliza la más cautelosa de las tres cifras y se redondea a 4,5 meses, que Wikipedia alcanzaría:

Entonces, claramente este crecimiento exponencial tenía que detenerse o desacelerarse, o iba a ser un viaje salvaje...

Noviembre de 2005 : el ranking diario de páginas promediaba 34 y llegó a 31 en octubre.

Enero de 2006 : el ranking diario de páginas promedió 20 durante aproximadamente una semana, en línea con las predicciones originales anteriores.

Abril de 2006 : promedió 16/17 este mes, aunque en marzo alcanzó el puesto 12, el récord de entonces.

Julio de 2006 : nos desviamos de las predicciones: se suponía que Wikipedia ya habría alcanzado el puesto 10, pero durante todo el mes de junio estuvimos entre el 16 y el 18.

Septiembre de 2006 : se desvió mucho de las predicciones; a fines de octubre, Wikipedia supuestamente alcanzaría el puesto 5, pero aún así solo logró avances pequeños, y ahora se encuentra entre el puesto 14 y el 16. El ascenso en la clasificación se ha ralentizado, pero por ahora seguimos subiendo. Wikipedia ha superado la barrera de los "50 000 usuarios", lo que significa que llegamos a tantas personas como youtube.com e incluso más que myspace.com.

Noviembre de 2006 : el ranking semanal de Alexa ahora es el 12 y sigue subiendo, con ocasionales altibajos diarios hasta el 11. ¡Wikipedia una vez estuvo entre los 10 primeros en el puesto 12!

Febrero de 2007 : 18 meses después de las predicciones, creo que es seguro decir que el modelo es defectuoso. Deberíamos estar en el tercer puesto, pero el máximo es 8, con un promedio de 10/11. Seguimos ganando popularidad, pero no tan rápido como se esperaba.

Mayo de 2008 : oscila entre 7 y 8 durante los últimos meses, siendo 8 un poco más común. El aumento, aunque lento, continúa.

Diciembre de 2008 : el ranking de tráfico sigue estando alrededor de 8. No se observa una tendencia clara en el ranking, pero el número de páginas vistas diarias muestra un descenso constante desde junio de 2008.

Marzo de 2009 : el ranking de tráfico se mantiene en 7 desde hace más de 6 semanas y no ha bajado de 8 en tres meses. El gráfico semestral sugiere un período de transición de octubre a febrero para pasar del ranking 8 al 7. Las visitas a la página se han recuperado ligeramente y han vuelto a alcanzar los niveles de julio de 2008, aunque todavía están lejos de los de junio de 2008.

Junio ​​de 2009 : bastante consistente: 7, con solo caídas intermitentes a 8. Las páginas vistas se mantienen bastante estables en alrededor del 0,5 % del total global, con una leve tendencia al alza evidente.

Septiembre de 2009 : paso más tiempo en 6, con retornos intermitentes a 7. Las páginas vistas representan alrededor del 0,55-0,6% del total global, con una tendencia ascendente aún evidente.

Noviembre de 2009 : principalmente en 6, con retornos ocasionales a 7. Las páginas vistas se mantienen en alrededor de 0,53-0,6% del total global.

Abril de 2011 : 8. Sin embargo, los resultados de ComScore a enero de 2010 sitúan a todas las propiedades de Wikimedia en conjunto en 5: consulte http://meta.wikimedia.org/wiki/Wikipedia:Modelling_Wikipedia%27s_growth/User:Stu/comScore_data_on_Wikimedia

Noviembre de 2012 : vuelve al puesto 6, con un alcance del 13 %. A modo de comparación, Google, que ocupa el puesto 2 a nivel mundial, tiene aproximadamente cuatro veces más alcance, con un 46 %.

Diciembre de 2013 : puesto 6 a nivel mundial y puesto 7 solo en EE. UU.

Diciembre de 2014 : puesto 7 a nivel mundial y puesto 6 solo en EE. UU.

Junio ​​de 2015 : puesto 6 a nivel mundial y puesto 6 solo en EE. UU.

Febrero de 2019 : puesto 5 a nivel mundial y puesto 5 solo en EE. UU.

Enero de 2020 : el ranking mundial cae al puesto 10 y el ranking exclusivo de EE. UU. también cae al puesto 7.

Agosto de 2020 : el ranking mundial vuelve a caer al puesto 14, junto con el ranking exclusivo de EE. UU., aunque de forma más moderada, ahora en el puesto 8.

Abril de 2021 : el ranking mundial subió al puesto 13, mientras que el ranking de Estados Unidos se mantuvo estable en el puesto 8. [3]

Crecimiento de la red Wikipedia

En el contexto de la teoría de redes complejas , existen varios intentos de modelar el crecimiento de la red Wikipedia, en la que los nodos representan los artículos y los enlaces son los hipervínculos entre los artículos. [4] [5] Este tipo de modelos se basan en reglas probabilísticas locales simples que deberían reproducir diferentes distribuciones de las variables estadísticas de Wikipedia. El análisis muestra que la distribución del número de hipervínculos que apuntan a un artículo determinado tiene un exponente de ley de potencia muy estable para varias Wikipedias en diferentes idiomas. También se confirmó que la reciprocidad (ratio entre el número de hipervínculos que conectan dos artículos en ambas direcciones y el número total de hipervínculos) es muy estable para varias Wikipedias diferentes.

Véase también

Referencias

  1. ^ Datos de en:Wikipedia:Descargar base de datos
  2. ^ "Wikistats - Estadísticas para proyectos Wikimedia".
  3. ^ "wikipedia.org Análisis competitivo, combinación de marketing y tráfico - Alexa". www.alexa.com . Consultado el 20 de abril de 2021 .
  4. ^ Zlatić, Vinko; Štefančić, Hrvoje (2011), "Modelo de crecimiento de Wikipedia basado en el intercambio de información mediante arcos recíprocos", EPL , 93 (5): 58005, arXiv : 0902.3548 , Bibcode :2011EL.....9358005Z, doi :10.1209/0295- 5075/93/58005, S2CID  17519212
  5. ^ Capocci, A.; Servedio, V.D.; Colaiori, F.; Buriol, LS; Donato, D.; Leonardi, S.; Caldarelli, G. (2006), "El apego preferencial en el crecimiento de las redes sociales: la enciclopedia de Internet Wikipedia" (PDF) , Physical Review E , 74 (3): 036116, arXiv : physics/0602026 , Bibcode :2006PhRvE..74c6116C, doi :10.1103/PhysRevE.74.036116, PMID  17025717, S2CID  8853906

Enlaces externos