stringtranslate.com

Wikipedia:Propuesta de indexación de motores de búsqueda

  • WP:SEI

Los motores de búsqueda como Google y Bing ofrecen resultados de búsqueda mediante programas informáticos denominados rastreadores web que "navegan" por Internet en busca de nuevas páginas para añadir a los índices de búsqueda y de actualizaciones de las páginas "rastreadas" anteriormente. Estos programas potencialmente intrusivos se rigen por un conjunto de estándares que permiten a los propietarios de sitios web controlar qué páginas pueden visitar los rastreadores y qué enlaces pueden seguir para llegar a nuevas páginas. En el contexto de Wikipedia, esto significa que tenemos la capacidad de controlar qué páginas son accesibles para los rastreadores web y, por lo tanto, qué páginas devuelven los motores de búsqueda como Google.

Fondo

Desde la fundación de Wikipedia, todo su contenido se hizo accesible a los rastreadores web y a los motores de búsqueda. Robots.txt , el archivo que controla el acceso de los rastreadores web, se utilizó principalmente para bloquear a los rastreadores web individuales que realizaban rastreos excesivamente largos o rápidos y, por lo tanto, consumían recursos del sistema. Esto significó que, además de todo nuestro contenido enciclopédico, enormes cantidades de discusión, disputas y drama se pusieron a disposición de las búsquedas externas. Este material es el foco de un número considerable de quejas al servicio OTRS y, a menudo, puede contener información personal no deseada sobre los usuarios, debates acalorados indeseablemente sobre los temas de los artículos y otro contenido que no hace nada para mejorar la reputación de Wikipedia como enciclopedia profesional. En 2006, la Wikipedia alemana celebró una "Meinungsbilder" (algo más o menos análogo a una RfC ) y pidió a los desarrolladores que excluyeran todos los espacios de nombres de discusión de los rastreadores web (véase T6937), en un intento de controlar parte de este contenido.

La poderosa presencia de Wikipedia como el octavo sitio web más popular de Internet le otorga a todas nuestras páginas un peso muy importante en los rankings de los motores de búsqueda ; una página de Wikipedia que coincida con el término de búsqueda ingresado tiene casi garantizado un lugar entre los diez primeros resultados, independientemente del contenido real de la página. Si bien este es un estatus extremadamente positivo para nuestros artículos y contenido, no siempre es beneficioso:


En junio de 2006, MediaWiki fue mejorada para brindar a los desarrolladores la posibilidad de excluir espacios de nombres individuales de la indexación por parte de los rastreadores web. Esta funcionalidad fue ampliada en febrero de 2008 para permitir a los desarrolladores establecer políticas de indexación en páginas individuales. Finalmente, en julio de 2008, se les dio a los usuarios la posibilidad de establecer manualmente políticas de indexación para páginas individuales utilizando dos palabras mágicas __INDEX__y __NOINDEX__; los desarrolladores pueden personalizar en qué páginas funcionan estas palabras mágicas.

Hasta finales de 2008, la mala calidad del motor de búsqueda interno de Wikipedia significaba que los editores dependían de Google para encontrar material para fines internos, como discusiones pasadas, páginas de ayuda útiles y otra información. En octubre de 2008, la función de búsqueda interna se mejoró significativamente , habilitando toda la funcionalidad ya disponible a través de motores de búsqueda como Google, y también incorporando una serie de características exclusivas de Wikipedia, como la identificación automática de redirecciones y secciones de página, y clasificaciones de búsqueda más apropiadas. Esto hizo que la búsqueda interna fuera un método superior para encontrar contenido interno que las búsquedas externas como Google. En diciembre de 2008, nuevas actualizaciones del software MediaWiki permitieron la inserción de botones de búsqueda en línea para buscar a través de conjuntos de subpáginas, como los archivos de páginas de discusión o el tablón de anuncios de los administradores .


Como resultado, la totalidad de las páginas editoriales han sido rastreadas (publicadas en motores de búsqueda como Google). Para un sitio web pequeño, esto no fue un gran problema. Para un sitio web "top 5-10" sí lo es. El diálogo de los usuarios de Wikipedia, incluidas sus acciones internas como editores, es rutinariamente un "éxito principal" para las personas mucho después de que editan, y las páginas que no sean el espacio principal y partes bien vigiladas de otros espacios pueden contener grandes cantidades de escritos de usuarios no verificados ni controlados que cualquier usuario puede colocar dentro de una variedad de espacios de nombres. A menos que sean significativamente problemáticos y se detecten activamente, pueden pasar desapercibidos y ser rastreados como contenido de Wikipedia durante años.

Nuestros visitantes y lectores buscan contenido enciclopédico, no discusiones introspectivas ni disputas entre usuarios. Nuestros lectores son lo primero. Hay una cantidad considerable de contenido que queremos que el público encuentre y vea. Ese es el producto final del proyecto.

El resto, incluidas las páginas populares del proyecto como AFD y todos los espacios de nombres de "discusión", páginas de resolución de disputas, páginas de usuarios, etc., no son de gran beneficio para el proyecto si se indexan en los motores de búsqueda. Muchas de ellas también plantean considerables preocupaciones sobre la privacidad y la facilidad para encontrar material dañino (disputas/acusaciones de usuarios) en Google, mucho más de lo que ayudan al proyecto. No necesitamos que se publiquen. Son páginas internas (de uso editorial).

Se propone que finalmente es hora de cerrar la brecha. En lugar de NOINDEXAR páginas individuales en su mayoría ad hoc, no puedo ver ninguna razón sólida actual para que se rastree ninguna página "interna" en absoluto, y puedo ver que los problemas se reducen al eliminarlo. Utilice la búsqueda interna para encontrar ese material y elimine el rastreo de todo aquello que no sea realmente de interés público genuino como nuestro "resultado/producto".

Se ha llevado a cabo un debate previo en Wikipedia:Village pump (policy)#NOINDEX of all non-content namespaces (Dec 2008 - Jan 2009). Esta propuesta se está creando para ver formalmente si existe consenso para solicitar estos cambios y para identificar los medios técnicos para hacerlo.

Propuesta

Los cambios propuestos se dividen en dos áreas: técnica y procedimental, como se describe a continuación.

Técnico

Los espacios de nombres de tema Wikipedia:, MediaWiki: y Template:, y todos los espacios de nombres de discusión, están configurados para no indexarse ​​de manera predeterminada; es decir, los rastreadores web no encontrarán páginas en estos espacios de nombres y, por lo tanto, no aparecerán en las clasificaciones de los motores de búsqueda, aunque todas las páginas seguirán siendo visibles en los resultados de búsqueda internos de Wikipedia .

Además, las palabras mágicas __INDEX__y __NOINDEX__están deshabilitadas en los espacios de nombres de temas MediaWiki: y Help: y en todos los espacios de nombres de discusión. Esto tiene el efecto de "bloquear" la configuración predeterminada para que no se pueda cambiar página por página.

Las nuevas configuraciones de indexación se muestran gráficamente en la tabla de la derecha.

Procesal

Con estos cambios, se hace necesario desarrollar nuevas pautas para regir el uso de las palabras mágicas __INDEX__y __NOINDEX__en aquellos espacios de nombres donde funcionan.

ÍNDICE en Usuario: espacio de nombres
ÍNDICE en Wikipedia: espacio de nombres
NOINDEX en archivo: espacio de nombres

Algunos contenidos (material no enciclopédico, como informes de errores , logotipos internos de proyectos , etc.) pueden no indexarse ​​por consenso. Es probable que se lleve a cabo una discusión sobre la NOINDEXACIÓN de medios que no sean libres , independientemente de esta propuesta.

ÍNDICE en plantilla: espacio de nombres
NOINDEX en la categoría: espacio de nombres

Las categorías de 'Mantenimiento' se NOINDEXARÁN manualmente, todas las demás categorías (es decir, categorías de contenido) no deben anularse y permanecerán indexadas .

NOINDEX en Portal: espacio de nombres

Implementación

Preguntas frecuentes

No. En noviembre de 2008 se mejoró la búsqueda interna del sitio . La nueva búsqueda maneja consultas complejas del mismo tipo que Google y otras características que la hacen mejor para buscar en estos espacios que Google.
Por ejemplo, la búsqueda interna puede manejar las mismas expresiones booleanas y la búsqueda de "título de página" que la búsqueda avanzada de Google, pero ahora también entiende espacios de nombres, "secciones" de páginas, puede buscar palabras con comodines , etc., algo que Google no puede hacer. Además, las numerosas páginas que ya están NOINDEXED se pueden buscar mediante la búsqueda interna, pero Google no puede verlas.
Los usuarios deberán utilizar la búsqueda interna en lugar de la externa para encontrar material en discusiones pasadas. Descubrirán que, una vez que se acostumbren a hacer clic en "Buscar" en lugar de "Google", se aceptarán los mismos formatos que la Búsqueda avanzada de Google y, además, que habrá disponible información más directamente útil y relevante para los wikipedistas que busquen discusiones pasadas, como limitar la búsqueda a espacios de nombres específicos o información de "sección" y "título de sección", que no tenían antes de usar Google.
Un cambio de este tipo requiere un aviso previo claro . Los usuarios serían notificados del cambio mediante un banner claro y mensajes en el tablón de anuncios con un mes de antelación y se les dirigiría a un enlace útil e información de ayuda. También se utilizarían al máximo otros medios para facilitar el cambio. Los nuevos usuarios aprenderían "así es como se buscan discusiones" de la misma manera que aprenden a revisar las revisiones del historial, o el marcado, o cualquier otro conocimiento editorial de Wikipedia.
Cuando se haya discutido el aspecto técnico y haya pasado un mes de aviso, es probable que la mayoría de las páginas del espacio de proyectos que obviamente necesitan ser INDEXADAS, o aquellas en las que se podría llegar a un consenso, ya hayan sido etiquetadas como INDEXADAS. Es poco probable que los usuarios esperen :)
Wikipedia ocupa un puesto destacado en muchos temas porque su contenido está muy referenciado. El impacto de esta propuesta es muy difícil de predecir.
Respuesta corta : es probable que las páginas que queremos rastrear en Projectspace cambien relativamente lento en número o ubicación. Las que no queremos rastrear se escribirán en un abrir y cerrar de ojos o serán poco conocidas, y probablemente sean mucho más numerosas. Por lo tanto, no indexamos a menos que lo decidamos.

Respuesta corta: Sí, tanto los desarrolladores de MediaWiki como los administradores de en.wiki pueden realizar estas configuraciones, aunque la solución más efectiva implica una combinación de ambos.
La comunidad nunca ha tenido la oportunidad de formar un consenso sobre este tema; como se explicó anteriormente, la capacidad de restringir el acceso de los rastreadores web a las páginas se implementó mucho después de la formación de Wikipedia, y hasta hace poco la pobre función de búsqueda interna hizo que la noindexación fuera imposible. Ahora que la situación ha cambiado, podemos formar un consenso legítimo. No olvidemos que, incluso si la comunidad hubiera decidido previamente que las páginas que no pertenecen al espacio principal deberían indexarse ​​(lo que no ha hecho), dicho consenso puede cambiar con el tiempo a medida que cambie la situación, como por ejemplo la búsqueda interna actualizada.

Véase también