stringtranslate.com

Wikipedia:Prueba de motor de búsqueda

Un motor de búsqueda ofrece una lista de páginas web en Internet . Esto facilita la investigación al ofrecer una variedad inmediata de opciones aplicables. Entre los elementos que pueden resultar útiles en la lista de resultados se encuentran el material fuente o las herramientas electrónicas que puede proporcionar un sitio web, como un diccionario, pero la lista en sí, en su conjunto, también puede indicar información importante. Sin embargo, discernir esa información puede requerir perspicacia.

Los resultados de los motores de búsqueda pueden ayudar a los editores a retener (lo que es notable ) o eliminar (lo que no es verificable ) el material fuente, dependiendo de su fiabilidad. Existe una gran demanda de fiabilidad en Wikipedia . Discernir la fiabilidad del material fuente es una habilidad especialmente fundamental para el uso de la web, mientras que la wiki en sí misma solo facilita la creación de múltiples borradores. A medida que avanzan las presentaciones y las eliminaciones, esta variedad de opciones para la entrada tiende a producir el objetivo deseado: un punto de vista neutral . Dependiendo del tipo de consulta y del tipo de motor de búsqueda, esta variedad puede abrirse a un solo autor.

Algunas pruebas de motores de búsqueda

  1. Popularidad : consulte la herramienta de tendencias de Google a continuación.
  2. Uso : Identificar la notoriedad de un término. (Véase, por ejemplo, la herramienta ngram de Google).
  3. Autenticidad – Identificar un engaño o una leyenda urbana .
  4. Notabilidad : decide si una página debe ser nominada para su eliminación.
  5. Existencia – Descubra qué fuentes (incluidos sitios web) existen realmente para una posible presentación.
  6. Información – Revisar la confiabilidad de los hechos y citas.
  7. Nombres y terminología : Identifique los nombres utilizados para las cosas (incluidos nombres alternativos y terminología).
  8. Derechos de autor : identifique si el material está copiado y, de ser así, verifique la licencia.

Esta página describe tanto estas pruebas de búsqueda web como las herramientas de búsqueda web que pueden ayudar a desarrollar Wikipedia, y describe sus sesgos y limitaciones.

Las ventajas de un motor de búsqueda específico se pueden distinguir si se utilizan distintos motores de búsqueda comunes. Las ventajas distintivas de cada uno son su interfaz de usuario y, de forma menos obvia, sus algoritmos para compilar y buscar en sus propios índices. Dado que se puede bloquear un rastreador web (en particular o en general), diferentes motores de búsqueda pueden incluir distintos sitios web, y hay más sitios web disponibles por URL que los que están indexados en cualquier base de datos.

Los motores de búsqueda más comunes son Google, Bing y Yahoo. Existen motores de búsqueda especializados para medicina , ciencia , noticias y derecho , entre otros. Existen varios motores de búsqueda generalizados. Estos adaptan su consulta a muchos motores de búsqueda. Consulte § Motores de búsqueda comunes a continuación. Esta página utiliza principalmente Google en lugar de Bing o Yahoo , pero apunta a la generalidad donde puede. Por ejemplo, describe Google Groups (grupos de Usenet), Google Scholar (academia), Google News y Google Books.

Búsqueda de buena fe: una regla de oro

  • Página de inicio: GFG
  • WP:GOOGLECHECK

Si una adición sin fuentes a un artículo parece plausible, considere tomarse un momento para utilizar un motor de búsqueda adecuado para encontrar una fuente confiable antes de decidir si volver a publicarla.

Pruebas de motores de búsqueda

Según el tema y el cuidado con el que se utilice, una prueba de motor de búsqueda puede ser muy eficaz y útil o producir resultados engañosos o inútiles. En la mayoría de los casos, una prueba de motor de búsqueda es una heurística de primer paso o una " regla de oro ".

Qué puede y no puede hacer una prueba de búsqueda

Un motor de búsqueda puede indexar páginas y textos que otros han colocado en Internet, como un gran índice al final de un libro.

Los motores de búsqueda pueden:

Los motores de búsqueda no pueden:

Y los motores de búsqueda a menudo no:

Una prueba de motor de búsqueda no puede ayudarle a evitar el trabajo de interpretar sus resultados y decidir qué muestran realmente. La aparición en un índice por sí sola no suele ser prueba de nada.

Pruebas de motores de búsqueda y políticas de Wikipedia

Verificabilidad

Las pruebas de los motores de búsqueda pueden arrojar resultados ficticios, tendenciosos, engañosos o similares. Es importante considerar si la información utilizada proviene de fuentes confiables antes de utilizarla o citarla. Las fuentes menos confiables pueden resultar inútiles o es necesario aclarar su estado y fundamento para que otros lectores obtengan una comprensión neutral e informada para juzgar cuán confiables son las fuentes.

Neutralidad

Google (y otros sistemas de búsqueda) no buscan un punto de vista neutral . Wikipedia sí lo hace. Google indexa páginas creadas por él mismo y páginas de medios que no tienen una política de neutralidad. Wikipedia tiene una política de neutralidad que es obligatoria y se aplica a todos los artículos y a toda la actividad editorial relacionada con los artículos.

Por tanto, Google no es una fuente específica de títulos neutrales, sino solo de títulos populares. La neutralidad es obligatoria en Wikipedia (lo que incluye decidir cómo se llaman las cosas), aunque no en otros lugares, y, en concreto, la neutralidad triunfa sobre la popularidad.

(Consulte WP:NPOV § Neutralidad y verificabilidad para obtener información sobre cómo equilibrar las políticas de verificabilidad y neutralidad, y WP:NPOV § Denominación de artículos para saber cómo deben nombrarse los artículos)

Notabilidad

El recuento de "resultados" (de búsqueda) es una medida muy burda de importancia. Algunos temas poco importantes tienen muchos "resultados", mientras que otros importantes tienen pocos o ninguno, por razones que se explican más adelante en esta página.

Los números de resultados por sí solos rara vez pueden "probar" algo sobre la notabilidad , sin una discusión más detallada sobre el tipo de resultados, qué se ha buscado, cómo se ha buscado y qué interpretación dar a los resultados. Por otro lado, examinar los tipos de resultados que surgen [ aclaración necesaria ] (o su falta) a menudo proporciona información útil relacionada con la notabilidad.

Además, los motores de búsqueda no desambiguan y tienden a hacer coincidir las búsquedas parciales. (Sin embargo, como se describe a continuación, puede eliminar las coincidencias parciales citando la frase que se va a buscar): Si bien Madonna of the Rocks es sin duda una entrada enciclopédica y notable, no es un ícono de la cultura pop. Sin embargo, debido a que Madonna aparece como una coincidencia parcial, así como a otras referencias a Madonna no relacionadas con la pintura, los resultados de una búsqueda en Google o Bing serán desproporcionados en comparación con cualquier pintura renacentista igualmente notable. Para excluir las coincidencias parciales al buscar la frase en Google, cite la frase que se va a buscar de la siguiente manera: "Madonna of the Rocks".

Usando motores de búsqueda

Expresiones de motores de búsqueda (ejemplos y tutorial)

En esta sección se explican algunas expresiones de búsqueda utilizadas en la búsqueda web de Google . [2] Enfoques similares funcionarán en muchos otros motores de búsqueda y otras búsquedas de Google, pero siempre lea sus páginas de ayuda para obtener más información, ya que las capacidades y el funcionamiento de los motores de búsqueda suelen diferir. Tenga en cuenta que si ha iniciado sesión en una cuenta de Google cuando realiza una búsqueda en Google, esto puede afectar los resultados que obtenga, según su historial de búsqueda. [3] Asegúrese también de marcar "Idiomas para mostrar resultados (de búsqueda)" en "Configuración de búsqueda". [4] )

La herramienta de búsqueda más útil puede ser el uso de comillas para encontrar una coincidencia exacta de una frase. Sin embargo, un motor de búsqueda como Google tiene una búsqueda fácil y una búsqueda avanzada con más opciones de búsqueda. La búsqueda avanzada facilita la introducción de opciones avanzadas que pueden ayudar en la búsqueda. Las siguientes secciones plegables cubren ejemplos básicos y ayudan a usar motores de búsqueda con Wikipedia.

Los motores de búsqueda especializados, como los archivos de artículos médicos, tienen su propia estructura de búsqueda especializada que no se trata aquí.

Usos específicos de los motores de búsqueda en Wikipedia

Interpretación de resultados

General

  • WP:ÉXITOS

Nunca se debe confiar en un recuento de resultados bruto para demostrar la notoriedad. En cambio, se debe prestar atención a lo que se encuentra (libros, artículos de noticias, artículos académicos y páginas web) y si realmente demuestran notoriedad o no, caso por caso. Los recuentos de resultados siempre han sido, y muy probablemente siempre seguirán siendo, una herramienta extremadamente errónea para medir la notoriedad y no deben considerarse definitivos ni concluyentes. Se debe abrir una muestra manejable de los resultados encontrados y leerlos individualmente para verificar realmente su relevancia.

En el caso de Google (y otros motores de búsqueda como Bing y Yahoo!), el recuento de resultados que aparece en la parte superior de la página no es fiable y, por lo general, no se debería informar. El recuento de resultados que aparece en la penúltima página de resultados (la penúltima) puede ser ligeramente más preciso. En el caso de las búsquedas con pocos resultados informados (menos de 1000), el recuento real de resultados necesarios para llegar al final de la última página de resultados puede ser más preciso, pero ni siquiera esto es algo seguro. Google muestra diferentes resultados de búsqueda en función de factores como el historial de búsqueda anterior y el servidor de Google en el que se acceda a ellos. [8] [9]

Otras consideraciones útiles para interpretar los resultados son:

Sesgos que hay que tener en cuenta

En la mayoría de los casos, los resultados de búsqueda deben analizarse con atención y escepticismo antes de confiar en ellos. Los sesgos más comunes incluyen:

Sesgos generales

General (Internet o las personas en su conjunto):

Motores de búsqueda web generales (Google, búsqueda web Bing, etc.):

Otro:

Lenguas extranjeras, escrituras no latinas y nombres antiguos

A menudo, en el caso de elementos de origen no inglés o en escrituras no latinas, se obtiene una cantidad considerablemente mayor de resultados al buscar en la escritura correcta o en varias transcripciones; asegúrese de consultar " Idiomas para mostrar resultados (de búsqueda) " en " Configuración de búsqueda ". [4] Por ejemplo, un nombre árabe debe buscarse en la escritura original, lo que se hace fácilmente con Google (siempre que uno sepa qué buscar), pero pueden surgir problemas si, por ejemplo, las páginas web en inglés, francés y alemán transcriben el nombre utilizando diferentes convenciones. Incluso en las páginas web solo en inglés puede haber muchas variantes del mismo nombre árabe o ruso . Es posible que haya que buscar nombres personales en otros idiomas (ruso, anglosajón ) incluyendo y excluyendo el patronímico , y las búsquedas de nombres y otras palabras en idiomas con una fuerte inflexión deben tener en cuenta que para llegar al número total de resultados puede ser necesario buscar formas con diferentes terminaciones de mayúsculas y minúsculas u otras variaciones gramaticales que no sean obvias para alguien que no conozca el idioma. Los nombres de muchas culturas se dan tradicionalmente junto con títulos que se consideran parte del nombre, pero también pueden omitirse (como en Gazi Mustafa Kemal Pasha ).

Incluso en inglés antiguo , la ortografía y la interpretación de nombres más antiguos pueden permitir docenas de variaciones para la misma persona. Una búsqueda simplista de una variante en particular puede subrepresentar la presencia en la web en un orden de magnitud.

Una búsqueda como esta requiere una cierta competencia lingüística que no todos los wikipedistas poseen, pero la comunidad de Wikipedia en su conjunto incluye a muchas personas bilingües y multilingües y es importante que los nominadores y votantes de AfD al menos sean conscientes de sus propias limitaciones y no hagan suposiciones inapropiadas cuando el sesgo lingüístico o de transcripción pueda ser un factor.

Problemas con el recuento de páginas diferenciadas de Google

Tenga en cuenta también que la cantidad de coincidencias de cadenas de búsqueda que informan los motores de búsqueda es solo una estimación. Por ejemplo, Google solo calculará la cantidad real de coincidencias una vez que el usuario navegue por todas las páginas de resultados, hasta la última, e incluso entonces impone restricciones a la cifra. A veces, la estimación del recuento de "coincidencias" puede ser significativamente diferente (en uno o más órdenes de magnitud ) del recuento total de resultados que se muestran en la última página de resultados.

Una búsqueda específica del sitio puede ayudar a determinar si la mayoría de las coincidencias provienen del mismo sitio web; un solo sitio web puede representar cientos de miles de visitas.

Para los términos de búsqueda que devuelven muchos resultados, Google utiliza un proceso que elimina los resultados que son "muy similares" a otros resultados enumerados, tanto ignorando las páginas con contenido sustancialmente similar como limitando el número de páginas que se pueden devolver de un dominio determinado. Por ejemplo, una búsqueda de "Taco Bell" dará solo un par de páginas de tacobell.com, aunque muchas en ese dominio seguramente coincidirán. Además, la lista de resultados distintos de Google se construye seleccionando primero los 1000 resultados principales y luego eliminando duplicados sin reemplazos. Por lo tanto, la lista de resultados distintos siempre contendrá menos de 1000 resultados independientemente de cuántas páginas web coincidan realmente con los términos de búsqueda. Por ejemplo, al 14 de diciembre de 2010 , de los aproximadamente 742 millones de páginas relacionadas con "Microsoft", Google estaba devolviendo 572 resultados "distintos". [10] Se debe tener cuidado al juzgar la importancia relativa de los sitios web que arrojan más de 1000 resultados de búsqueda.

Limitaciones de los motores de búsqueda: notas técnicas

  • WP:LÍMITES DE GOOGLE

Muchas de las páginas web públicas que existen, probablemente la mayoría, no están indexadas. Cada motor de búsqueda captura un porcentaje diferente del total. Nadie puede decir exactamente qué parte captura.

Se estima que el tamaño de la World Wide Web es de al menos 11.500 millones de páginas [11] , pero existe una Web mucho más profunda (y más grande) , estimada en más de 3 billones de páginas, dentro de bases de datos cuyo contenido no indexan los motores de búsqueda. Estas páginas web dinámicas son formateadas por un servidor web cuando un usuario las solicita y, como tal, no pueden ser indexadas por los motores de búsqueda convencionales. El sitio web de la Oficina de Patentes y Marcas de los Estados Unidos es un ejemplo; aunque un motor de búsqueda puede encontrar su página principal, uno solo puede buscar en su base de datos de patentes individuales ingresando consultas en el sitio mismo. [12]

Google, como todos los buscadores de Internet, solo puede encontrar información que realmente está disponible en Internet. Aún existe una cantidad considerable de información que no está disponible en Internet.

Google, al igual que todos los principales servicios de búsqueda web, sigue el protocolo robots.txt y puede ser bloqueado por sitios que no desean que Google indexe o almacene en caché su contenido. Los sitios que contienen grandes cantidades de contenido protegido por derechos de autor (galerías de imágenes, periódicos por suscripción, cómics web, películas, videos, servicios de asistencia), que generalmente implican membresía, bloquearán a Google y otros motores de búsqueda. Otros sitios también pueden bloquear a Google debido a problemas de ancho de banda o estrés en el servidor que aloja el contenido.

Los motores de búsqueda también podrían no poder leer enlaces o metadatos que normalmente requieren un complemento del navegador, Adobe PDF o Macromedia Flash, o donde un sitio web se muestra como parte de una imagen. Los motores de búsqueda tampoco pueden escuchar podcasts u otras transmisiones de audio, o incluso videos que mencionen un término de búsqueda. De manera similar, los motores de búsqueda no pueden leer archivos PDF que consisten en escaneos de fotografías ni mirar dentro de archivos comprimidos (.zip).

Los foros, los sitios exclusivos para miembros y suscripciones (ya que Googlebot no se registra para acceder a ellos) y los sitios que reciclan su contenido no se almacenan en caché ni se indexan en ningún motor de búsqueda. A medida que más sitios migren a diseños AJAX/Web 2.0, esta limitación se hará más frecuente, ya que los motores de búsqueda solo simularán seguir los enlaces de una página web. Las configuraciones de página AJAX (como Google Maps) devuelven datos de forma dinámica en función de la manipulación en tiempo real de JavaScript.

Google también ha sido víctima de ataques de redirección que pueden provocar que devuelva más resultados para un término de búsqueda específico que las páginas de contenido reales.

Google y otros motores de búsqueda populares también son un objetivo para los motores de búsqueda que realizan "mejoras de resultados de búsqueda", también conocidos como optimizadores de motores de búsqueda, por lo que también pueden aparecer muchos resultados que conduzcan a una página que solo sirve como publicidad. A veces, las páginas contienen cientos de palabras clave diseñadas específicamente para atraer a los usuarios de los motores de búsqueda a esa página, pero de hecho muestran un anuncio en lugar de una página con contenido relacionado con la palabra clave.

Los recuentos de resultados informados por Google son solo estimaciones, que en algunos casos han demostrado estar necesariamente erradas en casi un orden de magnitud, especialmente para recuentos de resultados superiores a unos pocos miles. [13] [14] Para palabras tan comunes como para producir varios miles de resultados en Google, los corpus de texto disponibles gratuitamente , como el Corpus Nacional Británico (para inglés británico) y el Corpus de Inglés Americano Contemporáneo (para inglés americano), pueden proporcionar una estimación más precisa de las frecuencias relativas de dos palabras.

Ejemplo de las limitaciones

El sitio de la Cumbre sobre el Delito Económico es un sitio poco compatible con Google e Internet Archive. Tiene muchos gráficos, por lo que Google no tiene mucho que buscar y faltan muchas páginas en la versión de Internet Archive. Por lo tanto, si bien se puede buscar la Conferencia de la Cumbre sobre el Delito Económico de 2002, el enlace de descripción general que indicaría quién presentó qué no funciona. El archivo de la Conferencia de la Cumbre sobre el Delito Económico de 2004 es aún peor, ya que estaba en tres lugares y ninguno de los enlaces archivados indica nada sobre los trabajos presentados.

A través de Internet Archive, se ha podido comprobar que en Internet existía cierta información sobre el "Impacto de los avances en la tecnología informática en el procesamiento de pruebas". [15] Sin embargo, hoy en día Google no puede encontrar esa información. Un programa que se sabe que formó parte de la Conferencia Cumbre sobre Delitos Económicos de 2002 y que en algún momento estuvo incluido en un sitio web de Internet, actualmente [ ¿cuándo? ] no puede ser encontrado por Google.

Motores de búsqueda comunes

  • H:CSE

Los motores de búsqueda más comunes son Google, Bing, Yahoo y DuckDuckGo, pero los motores de búsqueda más útiles, que dependen de un contexto, pueden no ser los más comunes.

Motores de búsqueda especializados

Google Scholar funciona bien en campos orientados a la publicación de artículos y que tienen presencia en línea en todos (o casi todos) los sitios respetados. Este motor de búsqueda es un buen complemento para la Web of Knowledge de Thompson ISI disponible comercialmente, especialmente en las áreas que no están bien cubiertas en esta última, incluidos libros, artículos de conferencias, revistas no estadounidenses, las revistas generales en el campo de la estrategia, la gestión, los negocios internacionales, [16] la enseñanza del idioma inglés y la tecnología educativa. [17] El análisis del algoritmo PageRank utilizado por Google Scholar demostró que este motor de búsqueda, así como sus análogos comerciales, proporciona una información adecuada sobre la popularidad de alguna fuente concreta, [18] aunque eso no refleja automáticamente la contribución científica real de la publicación concreta. [18]

MedLine , ahora parte de PubMed , es el motor de búsqueda original de base amplia, que se originó hace más de cuatro décadas e indexa incluso artículos anteriores. Por lo tanto, especialmente en biología y medicina, los "artículos asociados" de PubMed son un proxy de Google Scholar para artículos más antiguos que no tienen presencia en línea. Por ejemplo, la revista Stroke coloca artículos en línea desde la década de 1970. Para este artículo de 1978 [1], Google Scholar enumera 100 artículos que citan, mientras que PubMed enumera 89 artículos asociados.

Hay una gran cantidad de bibliotecas jurídicas en línea en muchos países, entre ellas: Biblioteca del Congreso, Biblioteca del Congreso (THOMAS), Corte Suprema de Indiana, FindLaw (EE. UU.); Biblioteca y fuentes de Derecho de la Universidad de Kent (Reino Unido).

Vea también esta lista de motores de búsqueda .

Motores de búsqueda generalizados

Existen varios motores de búsqueda generalizados que adaptan su consulta a varios motores de búsqueda. Los navegadores web ofrecen una variedad de motores de búsqueda para elegir para el cuadro de búsqueda, y estos se pueden usar de a uno por vez para experimentar con los resultados de búsqueda. Los metabuscadores usan varios motores de búsqueda a la vez. Un complemento del navegador web puede agregar un motor de búsqueda o un metabuscador a su lista de opciones.

Véase también

Referencias

  1. ^ Por ejemplo, si hay 16 resultados en Google Books bajo un nombre y 24 bajo otro, solo hay un 70 % de confianza de que el segundo nombre sea en realidad más común.
  2. ^ Operadores de búsqueda de Google y más ayuda para la búsqueda
  3. ^ Personalización del historial de búsqueda
  4. ^ ab Configuración de búsqueda de Google
  5. ^ Evite inauthor:"Books, LLC", ya que LLC "publica" impresiones sin procesar de artículos de Wikipedia.
  6. ^ Búsqueda en Google de: AYB O AYBABTU O "Toda tu base"
  7. ^ Pregunta de Google Answers sobre la frecuencia de las palabras en las fuentes de noticias
  8. ^ Takuya, Funahashi; Hayato, Yamana (2010). "Verificación de la fiabilidad de los recuentos de visitas de los motores de búsqueda" (PDF) . Actas de la 10.ª conferencia internacional sobre tendencias actuales en ingeniería web . División de Ciencias de la Computación e Ingeniería, Universidad de Waseda . Consultado el 5 de mayo de 2015 .
  9. ^ Sullivan, Danny (21 de octubre de 2010). "Por qué Google no puede contar los resultados correctamente". SearchEngineLand.com . Consultado el 5 de mayo de 2015 .
  10. ^ Búsqueda en Google de "Microsoft"
  11. ^ Gulli, Antonio; Signorini, Alessio (28 de agosto de 2005). "La Web indexable tiene más de 11.500 millones de páginas". {{cite journal}}: Requiere citar revista |journal=( ayuda )
  12. ^ More, Alvin; Murray, Brian H. (2000). "Dimensionando Internet". Cyveillance. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  13. ^ Mark Liberman (2009), "Citas con y sin comillas", Language Log .
  14. ^ Liberman, Mark (2005), "Cuestionando la realidad", Language Log ; y otras publicaciones de Language Log vinculadas desde allí.
  15. ^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
  16. ^ Harzing, AWK; van der Wal, R. (2008). Google Scholar como nueva fuente para el análisis de citas? Ethics in Science and Environmental Politics , vol. 8, núm. 1, págs. 62–71
  17. ^ van Aalst, Jan. (2010) Uso de Google Scholar para estimar el impacto de los artículos de revistas en educación. Educational Researcher 39: 387.
  18. ^ ab Maslov, S.; Redner, S. (2008). Promesas y dificultades de la extensión del algoritmo PageRank de Google a las redes de citas. Journal of Neuroscience, 28, 11103–11105

Lectura adicional