stringtranslate.com

Wikipedia: prueba de motor de búsqueda

Un motor de búsqueda enumera páginas web en Internet . Esto facilita la investigación al ofrecer una variedad inmediata de opciones aplicables. Los elementos posiblemente útiles de la lista de resultados incluyen el material fuente o las herramientas electrónicas que un sitio web puede proporcionar, como un diccionario, pero la lista en sí, en su conjunto, también puede indicar información importante. Sin embargo, discernir esa información puede requerir perspicacia.

Los resultados del motor de búsqueda pueden ayudar a los editores a retener (lo que es notable ) o eliminar (lo que no es verificable ) el material fuente, dependiendo de su confiabilidad. Existe una gran demanda de confiabilidad en Wikipedia . Discernir la confiabilidad del material fuente es una habilidad especialmente básica para usar la web, mientras que la wiki en sí misma sólo facilita la creación de múltiples borradores. A medida que avanzan las presentaciones y eliminaciones, esta variedad de opciones de aportes tiende a producir el objetivo deseado: un punto de vista neutral . Dependiendo del tipo de consulta y tipo de motor de búsqueda, esta variedad puede abrirse a un solo autor.

Algunas pruebas de motores de búsqueda

  1. Popularidad : consulte la herramienta de tendencias de Google a continuación.
  2. Uso : identificar la notoriedad de un término. (Consulte, por ejemplo, la herramienta ngram de Google).
  3. Autenticidad – Identificar un bulo espurio o una leyenda urbana .
  4. Notabilidad : decida si una página debe ser nominada para su eliminación.
  5. Existencia : descubra qué fuentes (incluidos sitios web) existen realmente para una posible presentación.
  6. Información : revisar la confiabilidad de los hechos y las citas.
  7. Nombres y terminología : identificar los nombres utilizados para las cosas (incluidos nombres y terminología alternativos).
  8. Derechos de autor : identifique si el material está copiado y, de ser así, verifique la licencia.

Esta página describe tanto estas pruebas de búsqueda web como las herramientas de búsqueda web que pueden ayudar a desarrollar Wikipedia, y describe sus sesgos y limitaciones.

The advantages of a specific search engine can be distinguished by using a variety of common search engines. The distinct advantages of each are their user interface and, less obviously, their algorithms for compiling and searching their own indexes. Because a web crawler can be blocked—specific ones or just in general—different search engines can list different web sites, and there are more web sites available by URL than are indexed in any database.

The most common search engines are Google, Bing, and Yahoo. Specialized search engines exist for medicine, science, news and law amongst others. Several generalized search engines exist. These adapt your query to many search engines. See § Common search engines below. This page mostly uses Google instead of Bing or Yahoo, but aims for generality where it can. For example, it describes Google Groups (usenet groups), Google Scholar (academia), Google News, and Google Books.

Good-faith searching: a rule of thumb

  • WP:GFG
  • WP:GOOGLECHECK

If an unsourced addition to an article appears plausible, consider taking a moment to use a suitable search engine to find a reliable source before deciding whether to revert.

Search engine tests

Depending on the subject matter, and how carefully it is used, a search engine test can be very effective and helpful, or produce misleading or non-useful results. In most cases, a search engine test is a first-pass heuristic or "rule of thumb".

What a search test can do, and what it can't

A search engine can index pages and text which others have placed on the internet, just like a big index at the back of a book.

Search engines can:

Search engines cannot:

y los motores de búsqueda a menudo no:

Una prueba de motor de búsqueda no puede ayudarle a evitar el trabajo de interpretar sus resultados y decidir qué muestran realmente. La aparición en un índice por sí sola no suele ser prueba de nada.

Pruebas de motores de búsqueda y políticas de Wikipedia

Verificabilidad

Las pruebas de los motores de búsqueda pueden arrojar resultados ficticios, sesgados, engañosos o similares. Es importante considerar si la información utilizada deriva de fuentes confiables antes de usarla o citarla. Las fuentes menos confiables pueden resultar inútiles o necesitar que se aclare su estado y fundamento, para que otros lectores obtengan una comprensión neutral e informada para juzgar qué tan confiables son las fuentes.

Neutralidad

Google (y otros sistemas de búsqueda) no aspiran a un punto de vista neutral . Wikipedia lo hace. Google indexa páginas de creación propia y páginas de medios que no tienen una política de neutralidad. Wikipedia tiene una política de neutralidad que es obligatoria y se aplica a todos los artículos y a toda la actividad editorial relacionada con los artículos.

Como tal, Google no es específicamente una fuente de títulos neutrales, sólo de títulos populares. La neutralidad es obligatoria en Wikipedia (incluida la decisión de cómo se llaman las cosas) incluso si no en otros lugares, y específicamente, la neutralidad triunfa sobre la popularidad.

(Consulte WP:NPOV § Neutralidad y verificabilidad para obtener información sobre cómo equilibrar las políticas sobre verificabilidad y neutralidad, y WP:NPOV § Denominación de artículos sobre cómo se deben nombrar los artículos)

Notabilidad

El recuento bruto de "aciertos" (resultados de búsqueda) es una medida muy burda de importancia. Algunos temas sin importancia tienen muchos "aciertos", algunos notables tienen pocos o ninguno, por razones que se analizan más adelante en esta página.

Los números de recuento de visitas por sí solos rara vez pueden "probar" algo sobre la notabilidad , sin una discusión adicional sobre el tipo de visitas, qué se ha buscado, cómo se buscó y qué interpretación dar a los resultados. Por otro lado, examinar los tipos de aciertos que surgen [ aclaración necesaria ] (o su falta) a menudo proporciona información útil relacionada con la notoriedad.

Además, los motores de búsqueda no eliminan la ambigüedad y tienden a coincidir con búsquedas parciales. (Sin embargo, como se describe a continuación, puede eliminar coincidencias parciales citando la frase que desea coincidir): Si bien Madonna of the Rocks es ciertamente una entrada enciclopédica y notable, no es un ícono de la cultura pop. Sin embargo, debido a que Madonna coincide parcialmente, así como a otras referencias de Madonna no relacionadas con la pintura, los resultados de un recuento de resultados de búsqueda en Google o Bing serán desproporcionados en comparación con cualquier pintura renacentista igualmente notable. Para excluir coincidencias parciales al buscar la frase en Google, cite la frase que desea buscar de la siguiente manera: "Madonna of the Rocks".

Usando motores de búsqueda

Expresiones de motores de búsqueda (ejemplos y tutorial)

Esta sección explica algunas expresiones de búsqueda utilizadas en la búsqueda web de Google . [2] Enfoques similares funcionarán en muchos otros motores de búsqueda y otras búsquedas de Google, pero siempre lea sus páginas de ayuda para obtener más información, ya que las capacidades y el funcionamiento de los motores de búsqueda a menudo difieren. Tenga en cuenta que si ha iniciado sesión en una cuenta de Google cuando realiza búsquedas en Google, esto puede afectar los resultados que obtenga, según su historial de búsqueda. [3] También asegúrese de marcar "Idiomas para mostrar resultados (de búsqueda)" en "Configuración de búsqueda". [4] )

La herramienta de motor de búsqueda más útil puede ser el uso de comillas para encontrar una coincidencia exacta para una frase. Sin embargo, un motor de búsqueda como Google tiene una búsqueda fácil y avanzada con más opciones de búsqueda. La búsqueda avanzada facilita el ingreso de opciones avanzadas que pueden ayudarlo en su búsqueda. Las siguientes secciones plegables cubren ejemplos básicos y ayuda para usar motores de búsqueda con Wikipedia.

Los motores de búsqueda especializados, como los archivos de artículos médicos, tienen su propia estructura de búsqueda especializada que no se trata aquí.

Usos específicos de los buscadores en Wikipedia

Interpretación de resultados

General

  • WP: ÉXITOS

Nunca se debe confiar en un recuento bruto de hits para demostrar la notoriedad. En cambio, se debe prestar atención a lo que se encuentra (los libros, artículos de noticias, artículos académicos y páginas web) y si realmente demuestran notoriedad o no notoriedad, caso por caso. Los recuentos de aciertos siempre han sido, y muy probablemente seguirán siendo, una herramienta extremadamente errónea para medir la notoriedad, y no deben considerarse ni definitivos ni concluyentes. Se debe abrir individualmente y leer una muestra manejable de los resultados encontrados para verificar realmente su relevancia.

En el caso de Google (y otros motores de búsqueda como Bing y Yahoo!), el recuento de visitas en la parte superior de la página no es confiable y normalmente no debe informarse. El recuento de visitas informado en la penúltima (penúltima) página de resultados puede ser un poco más preciso. Para búsquedas con pocos resultados reportados (menos de 1000), el recuento real de resultados necesarios para llegar al final de la última página de resultados puede ser más preciso, pero ni siquiera esto es seguro. Google devuelve diferentes resultados de búsqueda dependiendo de factores como su historial de búsqueda anterior y el servidor de Google al que acceda. [8] [9]

Otras consideraciones útiles al interpretar los resultados son:

Sesgos a tener en cuenta

En la mayoría de los casos, los resultados de la búsqueda deben revisarse con conciencia y cuidadoso escepticismo antes de confiar en ellos. Los sesgos comunes incluyen:

Sesgos generales

General (Internet o las personas en su conjunto):

Motores de búsqueda web generales (Google, búsqueda web Bing, etc.):

Otro:

Idiomas extranjeros, escrituras no latinas y nombres antiguos

A menudo, para elementos de origen no inglés o en escrituras no latinas, se obtiene un número considerablemente mayor de resultados al buscar en la escritura correcta o en varias transcripciones; asegúrese de marcar " Idiomas para mostrar los resultados (de búsqueda) " en " Buscar ". Ajustes ". [4] Un nombre árabe , por ejemplo, debe buscarse en la escritura original, algo que se puede hacer fácilmente con Google (siempre que se sepa qué buscar), pero pueden surgir problemas si, por ejemplo, se utilizan inglés, francés y alemán. Las páginas web transcriben el nombre utilizando diferentes convenciones. Incluso en el caso de páginas web únicamente en inglés, puede haber muchas variantes del mismo nombre árabe o ruso . Es posible que sea necesario buscar nombres personales en otros idiomas (ruso, anglosajón ) incluyendo y excluyendo el patronímico , y las búsquedas de nombres y otras palabras en idiomas fuertemente flexionados deben tener en cuenta que llegar al número total de resultados puede requerir buscar formas con diferentes terminaciones de casos u otras variaciones gramaticales que no sean obvias para alguien que no conoce el idioma. Los nombres de muchas culturas se dan tradicionalmente junto con títulos que se consideran parte del nombre, pero que también pueden omitirse (como en Gazi Mustafa Kemal Pasha ).

Incluso en inglés antiguo , la ortografía y la interpretación de nombres más antiguos pueden permitir docenas de variaciones para la misma persona. Una búsqueda simplista de una variante particular puede subestimar la presencia en la web en un orden de magnitud.

Una búsqueda como esta requiere una cierta competencia lingüística que no todos los wikipedistas poseen, pero la comunidad de Wikipedia en su conjunto incluye muchas personas bilingües y multilingües y es importante que los nominadores y votantes de AfD al menos sean conscientes de sus propias limitaciones y no hacer suposiciones inadecuadas cuando el sesgo del lenguaje o la transcripción puede ser un factor.

Problemas de recuento de páginas distintas de Google

Tenga en cuenta también que el número de coincidencias de cadenas de búsqueda reportadas por los motores de búsqueda es sólo una estimación. Por ejemplo, Google solo calculará el número real de coincidencias una vez que el usuario navegue por todas las páginas de resultados, hasta la última, e incluso entonces impone restricciones a la cifra. En ocasiones, la estimación del recuento de "coincidencias" puede ser significativamente diferente (en uno o más órdenes de magnitud ) del recuento total de resultados que se muestran en la última página de resultados.

Una búsqueda de un sitio específico puede ayudar a determinar si la mayoría de las coincidencias provienen del mismo sitio web; un solo sitio web puede generar cientos de miles de visitas.

Para los términos de búsqueda que devuelven muchos resultados, Google utiliza un proceso que elimina los resultados que son "muy similares" a otros resultados enumerados, ignorando las páginas con contenido sustancialmente similar y limitando el número de páginas que pueden devolverse desde un dominio determinado. Por ejemplo, una búsqueda en "Taco Bell" arrojará sólo un par de páginas de tacobell.com, aunque muchas de ese dominio seguramente coincidirán. Además, la lista de resultados distintos de Google se construye seleccionando primero los 1.000 resultados principales y luego eliminando los duplicados sin reemplazos. Por lo tanto, la lista de resultados distintos siempre contendrá menos de 1000 resultados, independientemente de cuántas páginas web coincidan realmente con los términos de búsqueda. Por ejemplo, el 14 de diciembre de 2010 , de los aproximadamente 742 millones de páginas relacionadas con "Microsoft", Google arrojaba 572 resultados "distintos". [10] . Se debe tener precaución al juzgar la importancia relativa de los sitios web que arrojan más de 1.000 resultados de búsqueda.

Limitaciones del motor de búsqueda – notas técnicas

  • WP: LÍMITES DE GOOGLE

Muchas, probablemente la mayoría, de las páginas web disponibles públicamente que existen no están indexadas. Cada buscador capta un porcentaje diferente del total. Nadie puede decir exactamente qué porción se captura.

El tamaño estimado de la World Wide Web es de al menos 11,5 mil millones de páginas, [11] pero existe una Web mucho más profunda (y más grande) , estimada en más de 3 billones de páginas, dentro de bases de datos cuyo contenido los motores de búsqueda no indexan. Estas páginas web dinámicas son formateadas por un servidor web cuando un usuario las solicita y, como tales, no pueden ser indexadas por los motores de búsqueda convencionales. El sitio web de la Oficina de Patentes y Marcas de los Estados Unidos es un ejemplo; aunque un motor de búsqueda puede encontrar su página principal, sólo se puede buscar en su base de datos de patentes individuales ingresando consultas en el propio sitio. [12]

Google, como todos los motores de búsqueda de Internet, sólo puede encontrar información que realmente esté disponible en Internet. Todavía hay una cantidad considerable de información que no está en Internet.

Google, como todos los principales servicios de búsqueda web, sigue el protocolo robots.txt y puede ser bloqueado por sitios que no desean que Google indexe o almacene en caché su contenido. Los sitios que contienen grandes cantidades de contenido protegido por derechos de autor (galerías de imágenes, periódicos por suscripción, cómics web, películas, vídeos, servicios de asistencia), que normalmente implican membresía, bloquearán Google y otros motores de búsqueda. Otros sitios también pueden bloquear a Google debido al estrés o problemas de ancho de banda en el servidor que aloja el contenido.

Es posible que los motores de búsqueda tampoco puedan leer enlaces o metadatos que normalmente requieren un complemento del navegador, Adobe PDF o Macromedia Flash, o donde un sitio web se muestra como parte de una imagen. Los motores de búsqueda tampoco pueden escuchar podcasts u otras transmisiones de audio, ni siquiera vídeos que mencionen un término de búsqueda. De manera similar, los motores de búsqueda no pueden leer archivos PDF que consistan en fotografías escaneadas ni mirar dentro de archivos comprimidos (.zip).

Los foros, los sitios exclusivos para membresía y suscripción (ya que el robot de Google no se registra para acceder al sitio) y los sitios que ciclan su contenido no se almacenan en caché ni se indexan en ningún motor de búsqueda. Con más sitios migrando a diseños AJAX/Web 2.0, esta limitación será más frecuente ya que los motores de búsqueda solo simulan seguir los enlaces en una página web. Las configuraciones de páginas AJAX (como Google Maps) devuelven datos dinámicamente basados ​​en la manipulación en tiempo real de JavaScript.

Google también ha sido víctima de ataques de redireccionamiento que pueden hacer que devuelva más resultados para un término de búsqueda específico que páginas de contenido reales.

Google y otros motores de búsqueda populares también son el objetivo de la "mejora de resultados de búsqueda" de los motores de búsqueda, también conocidos como optimizadores de motores de búsqueda, por lo que también es posible que se devuelvan muchos resultados que conduzcan a una página que solo sirve como publicidad. A veces, las páginas contienen cientos de palabras clave diseñadas específicamente para atraer a los usuarios de motores de búsqueda a esa página, pero en realidad muestran un anuncio en lugar de una página con contenido relacionado con la palabra clave.

Los recuentos de visitas reportados por Google son sólo estimaciones, que en algunos casos se ha demostrado que necesariamente están fuera de lugar en casi un orden de magnitud, especialmente para recuentos de visitas superiores a unos pocos miles. [13] [14] Para palabras tan comunes que generan varios miles de visitas en Google, corpus de texto disponibles gratuitamente , como el British National Corpus (para inglés británico) y el Corpus of Contemporary American English (para inglés americano), pueden proporcionar una información más precisa. Estimación de las frecuencias relativas de dos palabras.

Ejemplo de las limitaciones

El sitio de la Cumbre sobre Delitos Económicos es un sitio bastante poco amigable con Google e Internet Archive. Tiene muchos gráficos, lo que le proporciona a Google poco o nada que buscar y faltan muchas páginas en la versión de Internet Archive. Entonces, si bien se puede mencionar la Conferencia Cumbre sobre Delitos Económicos de 2002, el enlace general que le indicaría quién presentó qué no funciona. El archivo de la Conferencia de la Cumbre sobre Delitos Económicos de 2004 es aún peor, ya que estaba en tres lugares y ninguno de los enlaces archivados dice nada sobre los documentos presentados.

A través de Internet Archive tiene pruebas de que existía en Internet información sobre el "Impacto de los avances en la tecnología informática en el procesamiento de pruebas". [15] ¡ Sin embargo, hoy Google no puede encontrar esa información! Un programa conocido por ser parte de la Conferencia Cumbre sobre Delitos Económicos de 2002 y que en un momento figuraba en un sitio web en Internet actualmente [ ¿cuándo? ] no puede ser encontrado por Google.

Motores de búsqueda comunes

  • H:ESC

Los motores de búsqueda más comunes son Google, Bing, Yahoo y Duck Duck Go, pero los motores de búsqueda más útiles, que dependen del contexto, pueden no ser los más comunes.

Motores de búsqueda especializados

Google Scholar funciona bien para campos orientados al papel y que tienen presencia en línea en todos (o casi todos) los lugares respetados. Este motor de búsqueda es un buen complemento para el Thompson ISI Web of Knowledge disponible comercialmente, especialmente en las áreas que no están bien cubiertas en este último, incluidos libros, artículos de conferencias, revistas no estadounidenses, revistas generales en el campo de la estrategia, gestión, negocios internacionales, [16] enseñanza del idioma inglés y tecnología educativa. [17] El análisis del algoritmo PageRank utilizado por Google Scholar demostró que este motor de búsqueda, así como sus análogos comerciales, proporciona una información adecuada sobre la popularidad de alguna fuente concreta, [18] aunque eso no refleja automáticamente la contribución científica real. de publicación concreta. [18]

MedLine , ahora parte de PubMed , es el motor de búsqueda original de amplia base, que se originó hace más de cuatro décadas e indexa artículos incluso anteriores. Por lo tanto, especialmente en biología y medicina, los "artículos asociados" de PubMed son un proxy de Google Scholar para artículos más antiguos que no tienen presencia en línea. Por ejemplo, la revista Stroke publica artículos en línea desde la década de 1970. Para este artículo de 1978 [1], Google Scholar enumera 100 artículos que citan, mientras que PubMed enumera 89 artículos asociados.

Hay una gran cantidad de bibliotecas jurídicas en línea, en muchos países, entre ellas: Biblioteca del Congreso, Biblioteca del Congreso (THOMAS), Corte Suprema de Indiana, FindLaw (EE. UU.); Biblioteca de derecho y fuentes de la Universidad de Kent (Reino Unido).

Vea también esta lista de motores de búsqueda .

Motores de búsqueda generalizados

Existen varios motores de búsqueda generalizados. Estos adaptan su consulta a muchos motores de búsqueda. Los navegadores web ofrecen una variedad de motores de búsqueda para elegir emplear para el cuadro de búsqueda, y estos se pueden usar uno a la vez para experimentar con los resultados de la búsqueda. Los metabuscadores utilizan varios motores de búsqueda a la vez. Un complemento de navegador web puede agregar un motor de búsqueda o un metabuscador a su lista de opciones.

Ver también

Referencias

  1. ^ Por ejemplo, si hay 16 visitas a Google Books con un nombre y 24 con otro, solo hay un 70% de confianza en que el segundo nombre sea en realidad más común.
  2. ^ Operadores de búsqueda de Google y más ayuda para la búsqueda
  3. ^ Personalización del historial de búsqueda
  4. ^ ab Configuración de búsqueda de Google
  5. ^ Evite inauthor: "Books, LLC", ya que LLC 'publica' impresiones sin procesar de artículos de Wikipedia.
  6. ^ Búsqueda en Google de: AYB O AYBABTU O "Toda tu base"
  7. ^ Google responde a la pregunta sobre la frecuencia de las palabras en las fuentes de noticias.
  8. ^ Takuya, Funahashi; Hayato, Yamana (2010). "Verificación de la confiabilidad del recuento de visitas de los motores de búsqueda" (PDF) . Actas de la décima conferencia internacional sobre tendencias actuales en ingeniería web . División de Ingeniería y Ciencias de la Computación, Universidad de Waseda . Consultado el 5 de mayo de 2015 .
  9. ^ Sullivan, Danny (21 de octubre de 2010). "Por qué Google no puede contar los resultados correctamente". SearchEngineLand.com . Consultado el 5 de mayo de 2015 .
  10. ^ Búsqueda en Google de "Microsoft"
  11. ^ Gulli, Antonio; Signorini, Alessio (28 de agosto de 2005). "La Web Indexable tiene más de 11,5 mil millones de páginas". {{cite journal}}: Citar diario requiere |journal=( ayuda )
  12. ^ Más, Alvin; Murray, Brian H. (2000). "Dimensionamiento de Internet". Vigilancia. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  13. ^ Mark Liberman (2009), "Citas con y sin comillas", Registro de idiomas .
  14. ^ Liberman, Mark (2005), "Cuestionar la realidad", Language Log ; y otras publicaciones de Language Log vinculadas desde allí.
  15. ^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
  16. ^ Harzing, AWK; van der Wal, R. (2008). ¿Google Scholar como nueva fuente para el análisis de citas? Ética en la ciencia y la política ambiental , vol. 8, núm. 1, págs. 62–71
  17. ^ van Aalst, enero (2010) Uso de Google Scholar para estimar el impacto de los artículos de revistas en educación. Investigador Educativo 39: 387.
  18. ^ ab Maslov, S.; Redner, S. (2008). Promesas y riesgos de extender el algoritmo PageRank de Google a las redes de citas. Revista de Neurociencia, 28, 11103–11105

Otras lecturas