Los motores de búsqueda como Google y Bing ofrecen resultados de búsqueda mediante programas informáticos denominados rastreadores web que "navegan" por Internet en busca de nuevas páginas para añadir a los índices de búsqueda y de actualizaciones de las páginas "rastreadas" anteriormente. Estos programas potencialmente intrusivos se rigen por un conjunto de estándares que permiten a los propietarios de sitios web controlar qué páginas pueden visitar los rastreadores y qué enlaces pueden seguir para llegar a nuevas páginas. En el contexto de Wikipedia, esto significa que tenemos la capacidad de controlar qué páginas son accesibles para los rastreadores web y, por lo tanto, qué páginas devuelven los motores de búsqueda como Google.
Desde la fundación de Wikipedia, todo su contenido se hizo accesible a los rastreadores web y a los motores de búsqueda. Robots.txt , el archivo que controla el acceso de los rastreadores web, se utilizó principalmente para bloquear a los rastreadores web individuales que realizaban rastreos excesivamente largos o rápidos y, por lo tanto, consumían recursos del sistema. Esto significó que, además de todo nuestro contenido enciclopédico, enormes cantidades de discusión, disputas y drama se pusieron a disposición de las búsquedas externas. Este material es el foco de un número considerable de quejas al servicio OTRS y, a menudo, puede contener información personal no deseada sobre los usuarios, debates acalorados indeseablemente sobre los temas de los artículos y otro contenido que no hace nada para mejorar la reputación de Wikipedia como enciclopedia profesional. En 2006, la Wikipedia alemana celebró una "Meinungsbilder" (algo más o menos análogo a una RfC ) y pidió a los desarrolladores que excluyeran todos los espacios de nombres de discusión de los rastreadores web (véase T6937), en un intento de controlar parte de este contenido.
La poderosa presencia de Wikipedia como el octavo sitio web más popular de Internet le otorga a todas nuestras páginas un peso muy importante en los rankings de los motores de búsqueda ; una página de Wikipedia que coincida con el término de búsqueda ingresado tiene casi garantizado un lugar entre los diez primeros resultados, independientemente del contenido real de la página. Si bien este es un estatus extremadamente positivo para nuestros artículos y contenido, no siempre es beneficioso:
En junio de 2006, MediaWiki fue mejorada para brindar a los desarrolladores la posibilidad de excluir espacios de nombres individuales de la indexación por parte de los rastreadores web. Esta funcionalidad fue ampliada en febrero de 2008 para permitir a los desarrolladores establecer políticas de indexación en páginas individuales. Finalmente, en julio de 2008, se les dio a los usuarios la posibilidad de establecer manualmente políticas de indexación para páginas individuales utilizando dos palabras mágicas __INDEX__
y __NOINDEX__
; los desarrolladores pueden personalizar en qué páginas funcionan estas palabras mágicas.
Hasta finales de 2008, la mala calidad del motor de búsqueda interno de Wikipedia significaba que los editores dependían de Google para encontrar material para fines internos, como discusiones pasadas, páginas de ayuda útiles y otra información. En octubre de 2008, la función de búsqueda interna se mejoró significativamente , habilitando toda la funcionalidad ya disponible a través de motores de búsqueda como Google, y también incorporando una serie de características exclusivas de Wikipedia, como la identificación automática de redirecciones y secciones de página, y clasificaciones de búsqueda más apropiadas. Esto hizo que la búsqueda interna fuera un método superior para encontrar contenido interno que las búsquedas externas como Google. En diciembre de 2008, nuevas actualizaciones del software MediaWiki permitieron la inserción de botones de búsqueda en línea para buscar a través de conjuntos de subpáginas, como los archivos de páginas de discusión o el tablón de anuncios de los administradores .
Como resultado, la totalidad de las páginas editoriales han sido rastreadas (publicadas en motores de búsqueda como Google). Para un sitio web pequeño, esto no fue un gran problema. Para un sitio web "top 5-10" sí lo es. El diálogo de los usuarios de Wikipedia, incluidas sus acciones internas como editores, es rutinariamente un "éxito principal" para las personas mucho después de que editan, y las páginas que no sean el espacio principal y partes bien vigiladas de otros espacios pueden contener grandes cantidades de escritos de usuarios no verificados ni controlados que cualquier usuario puede colocar dentro de una variedad de espacios de nombres. A menos que sean significativamente problemáticos y se detecten activamente, pueden pasar desapercibidos y ser rastreados como contenido de Wikipedia durante años.
Nuestros visitantes y lectores buscan contenido enciclopédico, no discusiones introspectivas ni disputas entre usuarios. Nuestros lectores son lo primero. Hay una cantidad considerable de contenido que queremos que el público encuentre y vea. Ese es el producto final del proyecto.
El resto, incluidas las páginas populares del proyecto como AFD y todos los espacios de nombres de "discusión", páginas de resolución de disputas, páginas de usuarios, etc., no son de gran beneficio para el proyecto si se indexan en los motores de búsqueda. Muchas de ellas también plantean considerables preocupaciones sobre la privacidad y la facilidad para encontrar material dañino (disputas/acusaciones de usuarios) en Google, mucho más de lo que ayudan al proyecto. No necesitamos que se publiquen. Son páginas internas (de uso editorial).
Se propone que finalmente es hora de cerrar la brecha. En lugar de NOINDEXAR páginas individuales en su mayoría ad hoc, no puedo ver ninguna razón sólida actual para que se rastree ninguna página "interna" en absoluto, y puedo ver que los problemas se reducen al eliminarlo. Utilice la búsqueda interna para encontrar ese material y elimine el rastreo de todo aquello que no sea realmente de interés público genuino como nuestro "resultado/producto".
Se ha llevado a cabo un debate previo en Wikipedia:Village pump (policy)#NOINDEX of all non-content namespaces (Dec 2008 - Jan 2009). Esta propuesta se está creando para ver formalmente si existe consenso para solicitar estos cambios y para identificar los medios técnicos para hacerlo.
Los cambios propuestos se dividen en dos áreas: técnica y procedimental, como se describe a continuación.
Los espacios de nombres de tema Wikipedia:, MediaWiki: y Template:, y todos los espacios de nombres de discusión, están configurados para no indexarse de manera predeterminada; es decir, los rastreadores web no encontrarán páginas en estos espacios de nombres y, por lo tanto, no aparecerán en las clasificaciones de los motores de búsqueda, aunque todas las páginas seguirán siendo visibles en los resultados de búsqueda internos de Wikipedia .
Además, las palabras mágicas __INDEX__
y __NOINDEX__
están deshabilitadas en los espacios de nombres de temas MediaWiki: y Help: y en todos los espacios de nombres de discusión. Esto tiene el efecto de "bloquear" la configuración predeterminada para que no se pueda cambiar página por página.
Las nuevas configuraciones de indexación se muestran gráficamente en la tabla de la derecha.
Con estos cambios, se hace necesario desarrollar nuevas pautas para regir el uso de las palabras mágicas __INDEX__
y __NOINDEX__
en aquellos espacios de nombres donde funcionan.
Algunos contenidos (material no enciclopédico, como informes de errores , logotipos internos de proyectos , etc.) pueden no indexarse por consenso. Es probable que se lleve a cabo una discusión sobre la NOINDEXACIÓN de medios que no sean libres , independientemente de esta propuesta.
Las categorías de 'Mantenimiento' se NOINDEXARÁN manualmente, todas las demás categorías (es decir, categorías de contenido) no deben anularse y permanecerán indexadas .