Este es un análisis preliminar de estadísticas seleccionadas de Wikipedia en inglés durante el período de enero de 2002 a marzo de 2005. Los datos se examinan para buscar evidencia de un cambio en los valores y la composición cultural de la comunidad wikipedista. Este análisis se basa en datos incompletos y no se puede extraer ninguna conclusión certera.
El analista es Xiong Changnian .
Erik Zachte mantiene scripts que preparan automáticamente gráficos y tablas extensos y completos disponibles para que el público los vea en [1]. Una de estas tablas es Wikipedia Statistics English. El 28 de abril de 2005 se descargó esta página y se modificó para que tuviera un formato adecuado para su posterior análisis (Fuente n.° 1) .
Los datos adicionales se almacenan en [2]. Este consta de una gran cantidad de archivos CSV y de otros tipos. De este archivo se extrae un único archivo, "StatisticsUsers.csv", tal como se encontró el 14 de mayo de 2005 (Fuente n.° 2) . Este archivo contiene un registro para cada usuario en todos los idiomas.
No está claro si estos archivos CSV contienen información actualizada al momento de la descarga o si se cortan en algún momento determinado.
El valor principal de la presentación de Zachte, en mi opinión, es la comparación entre diferentes Wikipedias, por ejemplo, entre la Wikipedia en inglés y la Wikipedia en alemán. En este análisis he decidido centrarme solo en la Wikipedia en inglés, ya que es la que tiene la historia más larga y me interesa el análisis de tendencias: la comparación del estado del proyecto en varios puntos del tiempo y la extrapolación a estados futuros hipotéticos.
La fuente n.° 1 produce dos conjuntos de datos.
El conjunto de datos n.° 1-1, "Artículos" , se extrae de las columnas E, I y H de la fuente. Estas representan, respectivamente, el recuento oficial de artículos, la media de bytes por artículo y la media de ediciones por artículo. Se entiende que se refieren exclusivamente a las páginas del espacio de nombres del artículo principal (ns0).
El conjunto de datos n.° 1-2, "Wikipedianos" , se extrae de las columnas A, D y C de la fuente. A se define como el número total de usuarios que alguna vez han realizado al menos 10 ediciones ("colaboradores"); D es el número total de los que, en el último mes, han realizado más de 100 ediciones ("muy activos"); C es el número de los que han realizado más de 5, pero no más de 100 ediciones ("activos"). (Obsérvese una peculiaridad de este conjunto de datos: es posible que un usuario realice más de 5 ediciones en un mes, pero menos de 10 en alguna ocasión; dicho usuario es "activo", pero no un "colaborador").
La fuente n.° 2 se incorpora a FileMaker y se eliminan todos los registros de usuarios que no sean EN. Quedan 62 836 registros. Para cada usuario, se muestran medidas agregadas de la actividad de edición. Lamentablemente, este archivo no contiene información histórica; solo la actividad de los últimos 30 días y toda la actividad desde el inicio del proyecto.
Los usuarios individuales no son un problema y algunos nombres de usuario elegidos realmente dañan Excel, por lo que se asignan números de identificación de usuario locales arbitrarios antes de la exportación. Observamos que es una desventaja que los bots no siempre estén claramente identificados. Este es el conjunto de datos n.° 2-1.
Esta gran cantidad de registros es difícil de manejar, no solo son demasiados para que los procese el sistema antiguo de este autor, no solo son demasiados para los límites estrictos de Excel, sino que son demasiados para que queden claros cuando se representan gráficamente. Por lo tanto, se toma una muestra aleatoria; el 10% de la población, que es el conjunto de datos n.° 2-2, "Editores muestreados" : 6259 usuarios. El método de muestreo consiste en asignar un número pseudoaleatorio a cada registro de usuario en el conjunto de datos n.° 2-1 y encontrar aquellos que sean ≤ 0,10. Esto parece haber excluido convenientemente a todos los bots.
Las columnas J, K, L y M de la hoja de cálculo son directas desde la fuente; respectivamente, las ediciones del usuario dado a "artículos" para "todo el tiempo", las ediciones a los artículos durante los últimos 30 días ("recientes"), las ediciones a "otros" espacios de nombres para todo el tiempo y para los últimos 30. Las columnas P y Q son totales generados sumando J+L y K+M. La columna R es la relación K/P, mientras que S = L/Q.
Los datos anteriores a enero de 2002, como se indica en la página de origen, son sospechosos y se han descartado. No se incluyeron en el análisis proyectos en otros idiomas porque no todos comenzaron al mismo tiempo; la Wikipedia en inglés es el proyecto raíz y el más antiguo.
Este análisis, totalmente preliminar, plantea muchas preguntas que no pueden responderse con los datos disponibles en estas fuentes. Un análisis más completo requiere información mucho más detallada, como por ejemplo:
Puede existir una limitación estricta y seria para todos los análisis estadísticos de este proyecto: no está claro que exista ningún archivo independiente. Por lo tanto, toda la información histórica debe procesarse a partir del estado actual de la base de datos. En teoría, la arquitectura wiki conserva toda la información del estado anterior en el estado actual, pero esto puede no ser así en la práctica y, en ausencia de estados anteriores archivados, es imposible probarlo. Esta situación, de ser cierta, se verá exacerbada por la reestructuración de la base de datos que se producirá en MediaWiki 1.5.
Para el análisis de tendencias es fundamental preservar la información histórica. Este autor espera que se descubran los estados anteriores archivados y que se registren resúmenes estadísticos del estado actual fuera de la base de datos del proyecto.
Existen varias preguntas sobre la conservación de ciertas acciones, como la protección y eliminación de páginas. Esta información puede o no perderse. La resolución de estas preguntas es una prioridad.
En este momento, este autor no posee la documentación completa de la estructura de la base de datos. Hay una declaración explícita disponible en SourceForge, pero, por supuesto, se necesitan más conocimientos para comprenderla. m:Help:Database layout está desactualizado desde hace dos años, pero incluye enlaces a explicaciones detalladas de las distintas "tablas" de la base de datos. Un análisis más riguroso debe incluir descripciones precisas y actuales de la fuente y la naturaleza de cada grupo de datos.
La frecuencia relativa de edición de los espacios de nombres de artículos y otros espacios de nombres es de gran interés. A primera vista , la edición de artículos tiene mayor valor que, por ejemplo, la edición de espacios de conversación. Después de todo, la primera produce valor directamente para el usuario final, el lector.
Hay que tener cuidado al pasar de lo general a lo específico; un usuario que no hace nada más que editar espacios de discusión puede estar realizando una función útil para el proyecto. Este autor desaprueba la "calificación" de individuos por sus índices de edición de espacios de nombres y no tiene intención de producir tales calificaciones. Sin embargo, el porcentaje general de edición (por número de ediciones y por bytes editados) puede ser una medida valiosa de "gastos generales": el trabajo necesario para unir el proyecto y hacer posible la edición de artículos.
El usuario medio ha realizado alrededor de 10 veces más ediciones en todo el tiempo que recientemente; en todo el tiempo, alrededor de 11 ediciones de "artículos" por cada 4 de "otros"; recientemente, esa cifra ha disminuido a alrededor de 7 a 3 (una disminución del 17%) .
El análisis de estas variables se ve seriamente limitado por la escasez de datos. Es prácticamente imposible extraer alguna tendencia útil de un conjunto de datos que consiste únicamente en datos agregados y recientes.
Estos gráficos incluyen detalles que se visualizan mejor en tamaño completo. Si no dispone de un segundo monitor de alta resolución, se recomienda que descargue e imprima los gráficos antes de continuar con el análisis.
El libro de trabajo de Excel está disponible a pedido.
El primer gráfico resultará familiar para cualquiera que tenga un interés superficial en el crecimiento de Wikipedia. Aunque, como muchas actividades humanas, debe culminar en una curva logística , en esta etapa inicial aparece como una curva de crecimiento exponencial. Excel genera una curva exponencial con un ajuste excelente cuando se excluye la anomalía de Rambot de finales de 2002.
El crecimiento exponencial se representa mejor en un gráfico con un eje logarítmico ; esto hace que la curva parezca una línea recta. En el mismo gráfico, pero trazado contra los ejes lineales de la derecha, se muestran otras dos series de datos importantes: la media de bytes por artículo y la media de ediciones por artículo.
Hace tres años, el artículo promedio había sido editado 3 o 4 veces; hace dos años, alrededor de 7 veces; el año pasado, 11 veces; y este año, más de 18 veces. Obviamente, los artículos viejos están siendo reeditados constantemente; pero ¿no debería este efecto verse eclipsado por la afluencia exponencial de artículos nuevos? Parece que todos los artículos están siendo editados más intensamente, y que esta tendencia está aumentando.
¿Quizás se estén agregando grandes cantidades de contenido nuevo a los artículos existentes? El tamaño promedio de un artículo está aumentando, pero no de manera constante.
Antes de Rambot, el tamaño medio de los artículos rondaba los 1700 bytes, lo que representa un período de crecimiento relativamente rápido. Después, el tamaño de los artículos aumentó de forma constante durante los cinco trimestres siguientes, un período de relativa consolidación, aunque el número total de artículos siguió creciendo exponencialmente.
Otros tres trimestres se mantuvieron estables en alrededor de 2200 bytes; actualmente nos encontramos en otro período de consolidación. Estas fluctuaciones en el crecimiento del tamaño de los artículos no se reflejan en las ediciones por artículo, cuya cifra ha aumentado rápidamente en un factor de cinco, incluso cuando el recuento total de artículos ha aumentado aproximadamente en el mismo factor. Otra forma de decirlo es que el número total de ediciones se ha multiplicado por 22 desde el final de la anomalía de Rambot.
A mediados de mayo de 2004 se produce un punto de inflexión muy marcado en las ediciones por artículo, por lo que la tendencia se está acelerando. Se sospecha que se está editando un mismo texto con mayor frecuencia, efecto que se mantiene cuando se tienen en cuenta los demás.
La prueba irrefutable se encuentra cuando graficamos la cantidad de artículos en el proyecto por cada wikipedista en la comunidad. Dado que ambas cifras están creciendo exponencialmente, podríamos esperar que su proporción se mantuviera estable, pero sorprendentemente, la proporción está decayendo a lo largo de una función que parece logarítmica o polinómica . Rambot, por supuesto, agregó muchos artículos sin agregar ningún usuario; pero mucho después de que esta proporción cayera por debajo de los niveles previos a Rambot, continúa cayendo, lenta pero seguramente. No es seguro si esto se estabilizará en algún lugar por encima de los 20 artículos por colaborador.
Esto explica en parte el rápido aumento de las ediciones por artículo: hay menos artículos por editor, pero no explica por qué las ediciones por colaborador están aumentando.
Finalmente, detectamos una correlación con la inflexión en las ediciones por artículo del segundo trimestre de 2004; incluso cuando el número total de colaboradores estaba aumentando, las ediciones por colaborador pasaron de un mínimo local de aproximadamente 380 y han aumentado tan rápidamente que podemos anticipar que igualarán a Rambot antes de 2006.
El número de miembros de la comunidad, al igual que el número de artículos, ha ido creciendo exponencialmente. No hay ninguna anomalía obvia en Rambot, ya que, después de todo, Rambot es un único usuario, aunque muy activo. La curva, trazada como los otros gráficos en un eje logarítmico, es muy plana. No está claro por qué otras dos curvas son relativamente ruidosas: editores "activos" y "muy activos". Nótese que la suma de estas dos curvas no se acerca a la de todos los wikipedistas; la mayoría de los usuarios realizan 5 o menos ediciones por mes.
Analizamos la relación entre los miembros más activos y los menos activos. La relación entre estas dos curvas es en sí misma muy ruidosa, pero hay tendencias claras. Si los usuarios se están volviendo más activos en promedio, entonces tal vez más de ellos lo serán como individuos.
Pero lo que vemos es exactamente el efecto opuesto: la proporción de editores meramente "activos" aumenta, mientras que la de editores "muy activos" disminuye. Lo que es aún más sorprendente es que esta disminución constante es sólo la tendencia más reciente. Antes de Rambot, esta proporción estaba en aumento; la proporción de editores "muy activos" se duplicó aproximadamente en unos seis meses. Después de Rambot, la proporción se redujo aún más rápidamente antes de asumir la disminución irregular actual.
A diferencia de los demás, este es un gráfico de dispersión XY . Ambos ejes representan una cierta cantidad de ediciones; la única diferencia es la escala: el eje X, que se extiende a lo largo de la parte inferior del gráfico, cubre un rango mucho más amplio que el eje Y (5:1).
De esta manera, la línea roja m=1 conecta puntos de igual valor en ambos ejes; su pendiente es 1. Cualquiera de las series de datos del conjunto de datos 2-1 o 2-2 se puede representar gráficamente en cualquiera de los ejes. En cada caso, se compara un par de series de datos; la primera serie del par se representa gráficamente en el eje X y la segunda en el eje Y.
Los datos (incluso los muestreados) cubren un rango extremadamente amplio, con algunos editores que superan las 25.000 ediciones en todo el tiempo (y no creo que sean siquiera bots). Sin embargo, el usuario promedio solo realiza alrededor de 5 ediciones en todo el tiempo. Por lo tanto, los mismos datos se examinan en diferentes escalas. Desafortunadamente, en la escala más pequeña, la naturaleza entera de los datos obliga a que los puntos de datos se apilen, lo que oculta la densidad.
En un primer momento, los resultados son desalentadores. En todas las escalas, parece haber un continuo de editores; la única subpoblación obvia es la de los muy numerosos "turistas" , que hacen una pequeña cantidad de ediciones y luego se van. Aun así, no hay un límite claro para este grupo.
El primer par, PQ, compara las ediciones de todos los tiempos con las recientes. Naturalmente, ningún usuario puede realizar más ediciones recientemente que en todo el tiempo, por lo que ninguna cae por encima de la línea roja m=1. KM compara las ediciones de artículos de todos los tiempos con otras; LN hace la misma comparación para las recientes. Los editores que se encuentran por encima de la línea roja han realizado más ediciones fuera del espacio principal del artículo que dentro de él.
En las escalas mayores, se observa inmediatamente una gran concentración de usuarios en el "extremo pequeño" del gráfico. Los valores atípicos son pocos; los editores excepcionalmente pesados son, de hecho, raros. En escalas menores, surge una característica: la cantidad de usuarios "muertos" que no han realizado ninguna edición recientemente, aunque pueden haber realizado miles en todo el tiempo.
En todas las escalas, existe una preferencia saludable por la edición de artículos , aunque se encuentran varios usuarios por encima de la línea. Esto parece ser así tanto para los editores recientes como para los de todos los tiempos. Sin embargo, cabe señalar que, si bien muchos editores importantes de todos los tiempos se encuentran muy por debajo de la línea, los editores importantes recientes parecen tender a estar más cerca de ella. No está claro en qué medida esto es una ilusión causada por la preponderancia de editores cada vez más pequeños.
Esta distribución asimétrica naturalmente lleva a pensar en la normalización. R y S, al ser razones (de números naturales) que no pueden exceder 1, están restringidas al rango (0 .. 1). Para recapitular, R es la razón (para cada editor) del artículo con respecto a todas las ediciones, para todo el tiempo; S es la misma razón solo para las ediciones recientes. Los ejes son iguales y la nueva línea m=1 se muestra en verde. Las nuevas líneas rojas dividen el gráfico en cuadrantes que corresponden a la división del conjunto anterior de gráficos por sus líneas rojas m=1.
Para reiterar el último punto: en el primer conjunto de gráficos de dispersión, la actividad se trazó a lo largo de ambos ejes. Las comparaciones KM y LN cayeron por debajo de la línea roja cuando los editores hicieron principalmente ediciones de artículos; por encima cuando la mayoría de las ediciones fueron a otros espacios de nombres. En este gráfico de dispersión, estas proporciones se expresan directamente. Los editores que favorecen la edición de artículos tienden a la derecha y la parte superior; aquellos que favorecen otras ediciones tienden a la izquierda y la parte inferior del gráfico. Las preferencias de edición de todos los tiempos van de izquierda a derecha, mientras que las recientes van de abajo a arriba.
Dado que los usuarios "muertos" no han realizado modificaciones recientes, sus preferencias recientes no existen y no se pueden normalizar en función de una actividad inexistente. En este gráfico, estos usuarios se ven forzados a aparecer por debajo del eje X; el valor indicado de -0,10 es totalmente falso.
La actividad total ya no se muestra y sólo surgen unos pocos patrones distintos. Una serie de editores se encuentran a lo largo del eje X; sus ediciones recientes han sido todas en otros espacios de nombres. Más editores se encuentran a lo largo de la línea Y=1 en la parte superior; han realizado sólo ediciones de artículos recientemente, cualquiera que sea su desempeño anterior. Entre ellos, hay una masa bastante indiferenciada sobre la cual sólo se puede decir (a) que la mayoría de los usuarios prefieren editar artículos; y (b) que hay una correlación débil entre los ejes, lo que sugiere que las preferencias son algo persistentes.
El mismo conjunto de datos se representa en este gráfico de burbujas dos veces (cada punto aparece en ambas series), pero la primera serie está ponderada por K, ediciones de todos los tiempos, y la segunda por L, ediciones recientes. Esta ponderación otorga más "importancia" a los editores más activos; por lo demás, es idéntica al gráfico anterior. El área de cada burbuja representa la actividad general del editor en cuestión. Tenga en cuenta que cada editor está representado por dos burbujas concéntricas, visibles o no.
Como antes, los usuarios "muertos" se ven obligados a introducir un valor falso; ahora podemos ver cuánto contribuyeron al proyecto en general. Algunos editores que se encuentran en la parte superior (aquellos que recientemente han contribuido exclusivamente a artículos) editaron otras páginas con mayor frecuencia en todo el tiempo.
Parece que muy pocos usuarios significativamente activos han preferido fuertemente editar fuera del espacio de los artículos. Aquellos que lo han hecho , por lo general lo han hecho siempre; pero hay una cantidad de editores muy por debajo y a la derecha de la línea verde m=1. Estos editores recientemente prefieren editar fuera del espacio de los artículos más de lo que lo hicieron siempre. La mayoría de estos editores no han sido especialmente activos recientemente. No están equilibrados por una cantidad igual de editores prolíficos que han invertido su preferencia en la dirección opuesta.
Hay una subpoblación considerable justo a la izquierda del centro; estos editores siempre han preferido ligeramente la edición ajena. Lo que hace que este grupo sea notable es que siguen estando activos recientemente.
En el cuadrante superior derecho se encuentra el gran rebaño, que ha editado artículos y sigue haciéndolo. Los usuarios más activos, tanto recientemente como en el pasado, se encuentran aquí. Es bastante claro que la mayoría se establece en un patrón de edición y se apega a él; tanto los editores más activos como los menos activos se correlacionan bien entre las proporciones de edición recientes y de todos los tiempos.
Sería fatuo sacar conclusiones definitivas a partir de datos tan escasos. Se requiere una gran cantidad de análisis adicional y muchos más datos para alimentar el proceso. Este autor se aventurará sólo a algunas conclusiones, totalmente provisionales, que son indicios de que algo está sucediendo.
Algo está sucediendo; no podemos decir qué es sin realizar más estudios basados en datos más numerosos y mejor calificados.
- Charla de Xiong * 05:49, 20 de mayo de 2005 (UTC)
Por favor vea Hablar.