Wikipedia: prueba de motor de búsqueda

Un motor de búsqueda enumera páginas web en Internet . Esto facilita la investigación al ofrecer una variedad inmediata de opciones aplicables. Los elementos posiblemente útiles de la lista de resultados incluyen el material fuente o las herramientas electrónicas que un sitio web puede proporcionar, como un diccionario, pero la lista en sí, en su conjunto, también puede indicar información importante. Sin embargo, discernir esa información puede requerir perspicacia.

Los resultados del motor de búsqueda pueden ayudar a los editores a retener (lo que es notable ) o eliminar (lo que no es verificable ) el material fuente, dependiendo de su confiabilidad. Existe una gran demanda de confiabilidad en Wikipedia . Discernir la confiabilidad del material fuente es una habilidad especialmente básica para usar la web, mientras que la wiki en sí misma sólo facilita la creación de múltiples borradores. A medida que avanzan las presentaciones y eliminaciones, esta variedad de opciones de aportes tiende a producir el objetivo deseado: un punto de vista neutral . Dependiendo del tipo de consulta y tipo de motor de búsqueda, esta variedad puede abrirse a un solo autor.

Algunas pruebas de motores de búsqueda

Popularidad : consulte la herramienta de tendencias de Google a continuación.
Uso : identificar la notoriedad de un término. (Consulte, por ejemplo, la herramienta ngram de Google).
Autenticidad – Identificar un bulo espurio o una leyenda urbana .
Notabilidad : decida si una página debe ser nominada para su eliminación.
Existencia : descubra qué fuentes (incluidos sitios web) existen realmente para una posible presentación.
Información : revisar la confiabilidad de los hechos y las citas.
Nombres y terminología : identificar los nombres utilizados para las cosas (incluidos nombres y terminología alternativos).
Derechos de autor : identifique si el material está copiado y, de ser así, verifique la licencia.

Esta página describe tanto estas pruebas de búsqueda web como las herramientas de búsqueda web que pueden ayudar a desarrollar Wikipedia, y describe sus sesgos y limitaciones.

The advantages of a specific search engine can be distinguished by using a variety of common search engines. The distinct advantages of each are their user interface and, less obviously, their algorithms for compiling and searching their own indexes. Because a web crawler can be blocked—specific ones or just in general—different search engines can list different web sites, and there are more web sites available by URL than are indexed in any database.

The most common search engines are Google, Bing, and Yahoo. Specialized search engines exist for medicine, science, news and law amongst others. Several generalized search engines exist. These adapt your query to many search engines. See § Common search engines below. This page mostly uses Google instead of Bing or Yahoo, but aims for generality where it can. For example, it describes Google Groups (usenet groups), Google Scholar (academia), Google News, and Google Books.

Good-faith searching: a rule of thumb

Shortcuts

WP:GFG
WP:GOOGLECHECK

If an unsourced addition to an article appears plausible, consider taking a moment to use a suitable search engine to find a reliable source before deciding whether to revert.

Search engine tests

Depending on the subject matter, and how carefully it is used, a search engine test can be very effective and helpful, or produce misleading or non-useful results. In most cases, a search engine test is a first-pass heuristic or "rule of thumb".

What a search test can do, and what it can't

A search engine can index pages and text which others have placed on the internet, just like a big index at the back of a book.

Search engines can:

Provide information and lead to pages that assist with the above goals
Confirm "who's reported to have said what" according to sources (useful for neutral citing)
Often provide full cited copies of source documents
Confirm roughly how popularly referenced an expression is. Note, however, that Google searches may report vastly more hits than will ever be returned to the user, especially for exact quoted expressions. For example, a Google search for "the green goldfish", with quotes, in 2021 initially reports around 209,000 results, yet on paging through to the last search results page shows the returned number of hits to be 303. See also here to calculate statistical significance.^[1]
Search more specifically within certain websites, or for combined and alternative phrases (or excluding certain words and phrases that would otherwise confuse the results).

Search engines cannot:

Asegúrese de que los resultados sean confiables o "verdaderos" (los motores de búsqueda indexan cualquier texto que la gente elija publicar en línea, verdadero o falso).
Garantiza por qué algo se menciona mucho y que no se debe a marketing , repostaje como meme de Internet , spam o autopromoción, más que a importancia.
Garantice que los resultados reflejen los usos que usted quiere decir, en lugar de otros usos. (Por ejemplo, una búsqueda de un John Smith específico puede encontrar muchos "John Smiths" que no son los indicados, muchas páginas que contienen "John" y "Smith" por separado, y también perder todas las referencias útiles indexadas en "J . Smith" o, si el término está entre comillas, "John Michael Smith" y "Smith, John")
Asegúrese de no perderse referencias cruciales al elegir la expresión de búsqueda.
Garantice que los elementos poco mencionados o no mencionados automáticamente carezcan de importancia.
Garantice que un resultado particular sea la instancia original de un fragmento de texto y no una reimpresión, un extracto, una cita, una cita errónea o una violación de derechos de autor.

y los motores de búsqueda a menudo no:

Proporcionar las últimas investigaciones en profundidad, en la misma medida que las revistas y los libros, para temas en rápido desarrollo.
Sea neutral .

Una prueba de motor de búsqueda no puede ayudarle a evitar el trabajo de interpretar sus resultados y decidir qué muestran realmente. La aparición en un índice por sí sola no suele ser prueba de nada.

Pruebas de motores de búsqueda y políticas de Wikipedia

Verificabilidad

Las pruebas de los motores de búsqueda pueden arrojar resultados ficticios, sesgados, engañosos o similares. Es importante considerar si la información utilizada deriva de fuentes confiables antes de usarla o citarla. Las fuentes menos confiables pueden resultar inútiles o necesitar que se aclare su estado y fundamento, para que otros lectores obtengan una comprensión neutral e informada para juzgar qué tan confiables son las fuentes.

Neutralidad

Google (y otros sistemas de búsqueda) no aspiran a un punto de vista neutral . Wikipedia lo hace. Google indexa páginas de creación propia y páginas de medios que no tienen una política de neutralidad. Wikipedia tiene una política de neutralidad que es obligatoria y se aplica a todos los artículos y a toda la actividad editorial relacionada con los artículos.

Como tal, Google no es específicamente una fuente de títulos neutrales, sólo de títulos populares. La neutralidad es obligatoria en Wikipedia (incluida la decisión de cómo se llaman las cosas) incluso si no en otros lugares, y específicamente, la neutralidad triunfa sobre la popularidad.

(Consulte WP:NPOV § Neutralidad y verificabilidad para obtener información sobre cómo equilibrar las políticas sobre verificabilidad y neutralidad, y WP:NPOV § Denominación de artículos sobre cómo se deben nombrar los artículos)

Notabilidad

El recuento bruto de "aciertos" (resultados de búsqueda) es una medida muy burda de importancia. Algunos temas sin importancia tienen muchos "aciertos", algunos notables tienen pocos o ninguno, por razones que se analizan más adelante en esta página.

Los números de recuento de visitas por sí solos rara vez pueden "probar" algo sobre la notabilidad , sin una discusión adicional sobre el tipo de visitas, qué se ha buscado, cómo se buscó y qué interpretación dar a los resultados. Por otro lado, examinar los tipos de aciertos que surgen ^{[ aclaración necesaria ]} (o su falta) a menudo proporciona información útil relacionada con la notoriedad.

Además, los motores de búsqueda no eliminan la ambigüedad y tienden a coincidir con búsquedas parciales. (Sin embargo, como se describe a continuación, puede eliminar coincidencias parciales citando la frase que desea coincidir): Si bien Madonna of the Rocks es ciertamente una entrada enciclopédica y notable, no es un ícono de la cultura pop. Sin embargo, debido a que Madonna coincide parcialmente, así como a otras referencias de Madonna no relacionadas con la pintura, los resultados de un recuento de resultados de búsqueda en Google o Bing serán desproporcionados en comparación con cualquier pintura renacentista igualmente notable. Para excluir coincidencias parciales al buscar la frase en Google, cite la frase que desea buscar de la siguiente manera: "Madonna of the Rocks".

Usando motores de búsqueda

Expresiones de motores de búsqueda (ejemplos y tutorial)

Esta sección explica algunas expresiones de búsqueda utilizadas en la búsqueda web de Google . ^[2] Enfoques similares funcionarán en muchos otros motores de búsqueda y otras búsquedas de Google, pero siempre lea sus páginas de ayuda para obtener más información, ya que las capacidades y el funcionamiento de los motores de búsqueda a menudo difieren. Tenga en cuenta que si ha iniciado sesión en una cuenta de Google cuando realiza búsquedas en Google, esto puede afectar los resultados que obtenga, según su historial de búsqueda. ^[3] También asegúrese de marcar "Idiomas para mostrar resultados (de búsqueda)" en "Configuración de búsqueda". ^[4] )

La herramienta de motor de búsqueda más útil puede ser el uso de comillas para encontrar una coincidencia exacta para una frase. Sin embargo, un motor de búsqueda como Google tiene una búsqueda fácil y avanzada con más opciones de búsqueda. La búsqueda avanzada facilita el ingreso de opciones avanzadas que pueden ayudarlo en su búsqueda. Las siguientes secciones plegables cubren ejemplos básicos y ayuda para usar motores de búsqueda con Wikipedia.

Los motores de búsqueda especializados, como los archivos de artículos médicos, tienen su propia estructura de búsqueda especializada que no se trata aquí.

Usos específicos de los buscadores en Wikipedia

Google Trends puede permitirle encontrar qué representación de una palabra o nombre se busca más, como esta (nota: categoría de deportes) o así. Ejemplo de "maremoto" versus "tsunami", consulte también el ejemplo de Google Books a continuación.
Google Books tiene un patrón de cobertura que está más de acuerdo con el contenido de las enciclopedias tradicionales que la Web, en su conjunto; si tiene un sesgo sistémico, es un sesgo sistémico muy diferente de las búsquedas web de Google. Varias coincidencias con una frase exacta en la búsqueda de libros de Google proporcionan pruebas convincentes del uso real de la frase o concepto. Puede comparar el uso de términos, como "maremoto" y "tsunami". La búsqueda de libros de Google puede localizar testimonios publicados en forma impresa sobre la importancia de una persona, evento o concepto. También se puede utilizar para reemplazar un hecho de "conocimiento común" sin fuente con una versión impresa del mismo hecho. ^[5]
Grupos de Google u otros medios con fecha pueden ayudar a establecer el momento y el contexto de las primeras referencias a una palabra o frase. Búsqueda de Grupos de Google.
Google News puede ayudar a evaluar si algo es de interés periodístico. Google News solía ser menos susceptible a la manipulación por parte de los autopromotores, pero con la llegada de los sitios de pseudonoticias diseñados para recaudar ingresos por publicidad o promover agendas específicas, esta prueba a menudo no es más confiable que otras en áreas de interés popular, y indexa muchas fuentes de "noticias" que reflejan puntos de vista específicos. El archivo de noticias se remonta a muchos años atrás, pero es posible que no sea gratuito más allá de un período limitado. Los resultados de las noticias a menudo incluyen comunicados de prensa, que no son fuentes neutrales e independientes.
Google Scholar proporciona evidencia de cuántas veces una publicación, documento o autor ha sido citado o citado por otros. Lo mejor para temas científicos o académicos. Puede incluir trabajos de tesis de maestría y doctorado, patentes y documentos legales. Búsqueda en Google Académico.
Se puede verificar el tipo de referencia y la popularidad de los temas que supuestamente son notables por referencia popular. Un supuesto tema notable que sólo tiene unos pocos cientos de referencias en Internet puede no ser muy notable; Los memes de Internet verdaderamente populares pueden tener millones o incluso decenas de millones de referencias. ^[6] Sin embargo, tenga en cuenta que en algunas áreas, un tema notable puede tener muy pocas referencias; por ejemplo, uno podría esperar sólo un puñado de referencias a algún asunto arqueológico , y algunos asuntos no se reflejarán en línea en absoluto.
Los temas supuestamente genuinos se pueden verificar para comprobar si hacen referencia a fuentes independientes confiables; Esta es una buena prueba para detectar engaños y cosas por el estilo.
A menudo se pueden identificar violaciones de derechos de autor en sitios web (como se describe anteriormente).
Se pueden verificar las frecuencias relativas de ortografías y usos alternativos (por ejemplo, para un debate, cuál es el más común entre dos términos igualmente neutrales y aceptables). Google Trends puede comparar el uso en la categoría "Noticias" (ejemplo de "maremoto" versus "tsunami"), pero es posible que esto no sea confiable para noticias más antiguas. ^[7]

Interpretación de resultados

General

Atajo

WP: ÉXITOS

Nunca se debe confiar en un recuento bruto de hits para demostrar la notoriedad. En cambio, se debe prestar atención a lo que se encuentra (los libros, artículos de noticias, artículos académicos y páginas web) y si realmente demuestran notoriedad o no notoriedad, caso por caso. Los recuentos de aciertos siempre han sido, y muy probablemente seguirán siendo, una herramienta extremadamente errónea para medir la notoriedad, y no deben considerarse ni definitivos ni concluyentes. Se debe abrir individualmente y leer una muestra manejable de los resultados encontrados para verificar realmente su relevancia.

En el caso de Google (y otros motores de búsqueda como Bing y Yahoo!), el recuento de visitas en la parte superior de la página no es confiable y normalmente no debe informarse. El recuento de visitas informado en la penúltima (penúltima) página de resultados puede ser un poco más preciso. Para búsquedas con pocos resultados reportados (menos de 1000), el recuento real de resultados necesarios para llegar al final de la última página de resultados puede ser más preciso, pero ni siquiera esto es seguro. Google devuelve diferentes resultados de búsqueda dependiendo de factores como su historial de búsqueda anterior y el servidor de Google al que acceda. ^[8]^[9]

Otras consideraciones útiles al interpretar los resultados son:

Alcance del artículo: si es limitado, se requieren menos referencias. Intente categorizar el punto de vista, ya sea NPoV u otro; Por ejemplo, observe la diferencia entre Ontología y Ontología (informática) .
Asunto del artículo: Si se trata de algún personaje histórico, una o dos menciones en textos confiables pueden ser suficientes; si se trata de algún neologismo de Internet o una canción pop , puede que tenga 700 páginas y aún no se considere lo suficientemente "existente" como para mostrar notoriedad, para los propósitos de Wikipedia.

Sesgos a tener en cuenta

En la mayoría de los casos, los resultados de la búsqueda deben revisarse con conciencia y cuidadoso escepticismo antes de confiar en ellos. Los sesgos comunes incluyen:

Sesgos generales

General (Internet o las personas en su conjunto):

Sesgo personal : tendencia a ser más receptivo a creencias con las que uno está familiarizado, con las que está de acuerdo o que son comunes en la cultura diaria, y a descartar creencias y puntos de vista que contradicen los puntos de vista preferidos.
Sesgo cultural y de uso de computadoras : sesgo hacia la información de países desarrollados que utilizan Internet y sectores ricos de la sociedad (acceso a Internet). Los países donde el uso de computadoras no es tan común a menudo tendrán tasas más bajas de referencia a material igualmente notable, que por lo tanto puede parecer (erróneamente) no notable.
Peso indebido : puede representar desproporcionadamente algunos asuntos, especialmente los relacionados con la cultura popular (a algunos asuntos se les puede dar mucho más espacio y a otros mucho menos de lo que representa justamente su posición): popularidad no es notoriedad .
Fuentes que no son fácilmente accesibles : algunas fuentes son accesibles para todos, pero muchas son solo de pago o no se informan en línea. Esto puede, por ejemplo, afectar los resultados de búsqueda que obtiene sobre un tema histórico que alcanzó su máxima prominencia mediática hace 50 o 100 años; Es muy posible que existan fuentes válidas, pero se encontrarían en microfilmes o sitios de archivo de noticias por suscripción como ProQuest o Newspapers.com en lugar de una búsqueda general en Google.

Motores de búsqueda web generales (Google, búsqueda web Bing, etc.):

Red oscura : los motores de búsqueda excluyen una gran cantidad de páginas, y esto puede incluir un sesgo sistemático de modo que algunos asuntos se excluyan de manera desproporcionada (por ejemplo, porque son comúnmente visibles en sitios que no permiten la indexación de Google, o porque el contenido por razones técnicas no puede ser visible en sitios que no permiten la indexación de Google). estar indexados ( sitios web Flash o basados en imágenes, etc.)
Los motores de búsqueda como herramienta de promoción : existe una industria que busca influir en la posición, la popularidad y las calificaciones del sitio en dichas búsquedas, o vender espacios publicitarios relacionados con las búsquedas y las posiciones de búsqueda. Algunos temas, como los actores pornográficos , están tan dominados por estos que las búsquedas no pueden utilizarse de manera confiable para establecer popularidad.
El proceso de revisión varía; Algunos sitios aceptan cualquier información, mientras que otros cuentan con algún tipo de sistema de revisión o verificación.
Autorreflejo : a veces otros sitios clonan el contenido de Wikipedia, que luego circula por Internet, y se crean más páginas basadas en él (y a menudo no se citan), lo que significa que en realidad la fuente de gran parte de los hallazgos del motor de búsqueda son en realidad solo copias del texto anterior de Wikipedia, no fuentes genuinas.
Sesgo de uso popular : a menudo se informa que el uso popular y las leyendas urbanas son más correctos.
- Ejemplos:
  1. Una búsqueda del Charles Windsor incorrecto da 10 veces más resultados que el Charles Mountbatten-Windsor correcto .
  2. Una búsqueda de la ortografía más común de El Niño a menudo indicará que se escribe "El Niño", sin el signo diacrítico .
  3. Las leyendas urbanas suelen tener amplia difusión; por ejemplo, cientos de sitios informan que el USS Constitution zarpó en 1779, aunque la fecha correcta es 1797.
Es probable que se informen más sobre las opiniones y percepciones populares . Por ejemplo, puede haber muchas referencias a la acupuntura y confirmar que las personas a menudo son alérgicas a las pieles de animales , pero puede que sólo con una investigación cuidadosa se revele que existen evaluaciones médicas revisadas por pares sobre la primera, y que las personas generalmente no lo son. Alérgico al pelaje, pero a la piel pegajosa y a las partículas de saliva ( caspa ) dentro del pelaje.
Sesgo de selección de idioma : por ejemplo, un hablante de árabe que busca información sobre la homosexualidad en árabe probablemente encontrará páginas que reflejen un sesgo diferente al de un hablante de inglés que busca en inglés sobre el mismo tema, ya que las opiniones y creencias populares y de los medios sobre la homosexualidad pueden diferir ampliamente. entre países de habla inglesa (EE.UU., Reino Unido, Australia, etc.) que tienden a incluir una mayor proporción de grupos que aceptan la homosexualidad, y países de habla árabe (Oriente Medio) que tienden a incluir una proporción menor.

Otro:

Tenga en cuenta que otras búsquedas de Google, en particular la Búsqueda de libros de Google, tienen un sesgo sistémico diferente al de las búsquedas web de Google y ofrecen una verificación cruzada interesante y una visión algo independiente.

Idiomas extranjeros, escrituras no latinas y nombres antiguos

A menudo, para elementos de origen no inglés o en escrituras no latinas, se obtiene un número considerablemente mayor de resultados al buscar en la escritura correcta o en varias transcripciones; asegúrese de marcar " Idiomas para mostrar los resultados (de búsqueda) " en " Buscar ". Ajustes ". ^[4] Un nombre árabe , por ejemplo, debe buscarse en la escritura original, algo que se puede hacer fácilmente con Google (siempre que se sepa qué buscar), pero pueden surgir problemas si, por ejemplo, se utilizan inglés, francés y alemán. Las páginas web transcriben el nombre utilizando diferentes convenciones. Incluso en el caso de páginas web únicamente en inglés, puede haber muchas variantes del mismo nombre árabe o ruso . Es posible que sea necesario buscar nombres personales en otros idiomas (ruso, anglosajón ) incluyendo y excluyendo el patronímico , y las búsquedas de nombres y otras palabras en idiomas fuertemente flexionados deben tener en cuenta que llegar al número total de resultados puede requerir buscar formas con diferentes terminaciones de casos u otras variaciones gramaticales que no sean obvias para alguien que no conoce el idioma. Los nombres de muchas culturas se dan tradicionalmente junto con títulos que se consideran parte del nombre, pero que también pueden omitirse (como en Gazi Mustafa Kemal Pasha ).

Incluso en inglés antiguo , la ortografía y la interpretación de nombres más antiguos pueden permitir docenas de variaciones para la misma persona. Una búsqueda simplista de una variante particular puede subestimar la presencia en la web en un orden de magnitud.

Una búsqueda como esta requiere una cierta competencia lingüística que no todos los wikipedistas poseen, pero la comunidad de Wikipedia en su conjunto incluye muchas personas bilingües y multilingües y es importante que los nominadores y votantes de AfD al menos sean conscientes de sus propias limitaciones y no hacer suposiciones inadecuadas cuando el sesgo del lenguaje o la transcripción puede ser un factor.

Problemas de recuento de páginas distintas de Google

Tenga en cuenta también que el número de coincidencias de cadenas de búsqueda reportadas por los motores de búsqueda es sólo una estimación. Por ejemplo, Google solo calculará el número real de coincidencias una vez que el usuario navegue por todas las páginas de resultados, hasta la última, e incluso entonces impone restricciones a la cifra. En ocasiones, la estimación del recuento de "coincidencias" puede ser significativamente diferente (en uno o más órdenes de magnitud ) del recuento total de resultados que se muestran en la última página de resultados.

Una búsqueda de un sitio específico puede ayudar a determinar si la mayoría de las coincidencias provienen del mismo sitio web; un solo sitio web puede generar cientos de miles de visitas.

Para los términos de búsqueda que devuelven muchos resultados, Google utiliza un proceso que elimina los resultados que son "muy similares" a otros resultados enumerados, ignorando las páginas con contenido sustancialmente similar y limitando el número de páginas que pueden devolverse desde un dominio determinado. Por ejemplo, una búsqueda en "Taco Bell" arrojará sólo un par de páginas de tacobell.com, aunque muchas de ese dominio seguramente coincidirán. Además, la lista de resultados distintos de Google se construye seleccionando primero los 1.000 resultados principales y luego eliminando los duplicados sin reemplazos. Por lo tanto, la lista de resultados distintos siempre contendrá menos de 1000 resultados, independientemente de cuántas páginas web coincidan realmente con los términos de búsqueda. Por ejemplo, el 14 de diciembre de 2010 ^[actualizar], de los aproximadamente 742 millones de páginas relacionadas con "Microsoft", Google arrojaba 572 resultados "distintos". ^[10] . Se debe tener precaución al juzgar la importancia relativa de los sitios web que arrojan más de 1.000 resultados de búsqueda.

Limitaciones del motor de búsqueda – notas técnicas

Atajo

WP: LÍMITES DE GOOGLE

Muchas, probablemente la mayoría, de las páginas web disponibles públicamente que existen no están indexadas. Cada buscador capta un porcentaje diferente del total. Nadie puede decir exactamente qué porción se captura.

El tamaño estimado de la World Wide Web es de al menos 11,5 mil millones de páginas, ^[11] pero existe una Web mucho más profunda (y más grande) , estimada en más de 3 billones de páginas, dentro de bases de datos cuyo contenido los motores de búsqueda no indexan. Estas páginas web dinámicas son formateadas por un servidor web cuando un usuario las solicita y, como tales, no pueden ser indexadas por los motores de búsqueda convencionales. El sitio web de la Oficina de Patentes y Marcas de los Estados Unidos es un ejemplo; aunque un motor de búsqueda puede encontrar su página principal, sólo se puede buscar en su base de datos de patentes individuales ingresando consultas en el propio sitio. ^[12]

Google, como todos los motores de búsqueda de Internet, sólo puede encontrar información que realmente esté disponible en Internet. Todavía hay una cantidad considerable de información que no está en Internet.

Google, como todos los principales servicios de búsqueda web, sigue el protocolo robots.txt y puede ser bloqueado por sitios que no desean que Google indexe o almacene en caché su contenido. Los sitios que contienen grandes cantidades de contenido protegido por derechos de autor (galerías de imágenes, periódicos por suscripción, cómics web, películas, vídeos, servicios de asistencia), que normalmente implican membresía, bloquearán Google y otros motores de búsqueda. Otros sitios también pueden bloquear a Google debido al estrés o problemas de ancho de banda en el servidor que aloja el contenido.

Es posible que los motores de búsqueda tampoco puedan leer enlaces o metadatos que normalmente requieren un complemento del navegador, Adobe PDF o Macromedia Flash, o donde un sitio web se muestra como parte de una imagen. Los motores de búsqueda tampoco pueden escuchar podcasts u otras transmisiones de audio, ni siquiera vídeos que mencionen un término de búsqueda. De manera similar, los motores de búsqueda no pueden leer archivos PDF que consistan en fotografías escaneadas ni mirar dentro de archivos comprimidos (.zip).

Los foros, los sitios exclusivos para membresía y suscripción (ya que el robot de Google no se registra para acceder al sitio) y los sitios que ciclan su contenido no se almacenan en caché ni se indexan en ningún motor de búsqueda. Con más sitios migrando a diseños AJAX/Web 2.0, esta limitación será más frecuente ya que los motores de búsqueda solo simulan seguir los enlaces en una página web. Las configuraciones de páginas AJAX (como Google Maps) devuelven datos dinámicamente basados en la manipulación en tiempo real de JavaScript.

Google también ha sido víctima de ataques de redireccionamiento que pueden hacer que devuelva más resultados para un término de búsqueda específico que páginas de contenido reales.

Google y otros motores de búsqueda populares también son el objetivo de la "mejora de resultados de búsqueda" de los motores de búsqueda, también conocidos como optimizadores de motores de búsqueda, por lo que también es posible que se devuelvan muchos resultados que conduzcan a una página que solo sirve como publicidad. A veces, las páginas contienen cientos de palabras clave diseñadas específicamente para atraer a los usuarios de motores de búsqueda a esa página, pero en realidad muestran un anuncio en lugar de una página con contenido relacionado con la palabra clave.

Los recuentos de visitas reportados por Google son sólo estimaciones, que en algunos casos se ha demostrado que necesariamente están fuera de lugar en casi un orden de magnitud, especialmente para recuentos de visitas superiores a unos pocos miles. ^[13]^[14] Para palabras tan comunes que generan varios miles de visitas en Google, corpus de texto disponibles gratuitamente , como el British National Corpus (para inglés británico) y el Corpus of Contemporary American English (para inglés americano), pueden proporcionar una información más precisa. Estimación de las frecuencias relativas de dos palabras.

Ejemplo de las limitaciones

El sitio de la Cumbre sobre Delitos Económicos es un sitio bastante poco amigable con Google e Internet Archive. Tiene muchos gráficos, lo que le proporciona a Google poco o nada que buscar y faltan muchas páginas en la versión de Internet Archive. Entonces, si bien se puede mencionar la Conferencia Cumbre sobre Delitos Económicos de 2002, el enlace general que le indicaría quién presentó qué no funciona. El archivo de la Conferencia de la Cumbre sobre Delitos Económicos de 2004 es aún peor, ya que estaba en tres lugares y ninguno de los enlaces archivados dice nada sobre los documentos presentados.

A través de Internet Archive tiene pruebas de que existía en Internet información sobre el "Impacto de los avances en la tecnología informática en el procesamiento de pruebas". ^[15] ¡ Sin embargo, hoy Google no puede encontrar esa información! Un programa conocido por ser parte de la Conferencia Cumbre sobre Delitos Económicos de 2002 y que en un momento figuraba en un sitio web en Internet actualmente ^{[ ¿cuándo? ]} no puede ser encontrado por Google.

Motores de búsqueda comunes

Atajo

H:ESC

Los motores de búsqueda más comunes son Google, Bing, Yahoo y Duck Duck Go, pero los motores de búsqueda más útiles, que dependen del contexto, pueden no ser los más comunes.

Motores de búsqueda especializados

Google Scholar funciona bien para campos orientados al papel y que tienen presencia en línea en todos (o casi todos) los lugares respetados. Este motor de búsqueda es un buen complemento para el Thompson ISI Web of Knowledge disponible comercialmente, especialmente en las áreas que no están bien cubiertas en este último, incluidos libros, artículos de conferencias, revistas no estadounidenses, revistas generales en el campo de la estrategia, gestión, negocios internacionales, ^[16] enseñanza del idioma inglés y tecnología educativa. ^[17] El análisis del algoritmo PageRank utilizado por Google Scholar demostró que este motor de búsqueda, así como sus análogos comerciales, proporciona una información adecuada sobre la popularidad de alguna fuente concreta, ^[18] aunque eso no refleja automáticamente la contribución científica real. de publicación concreta. ^[18]

MedLine , ahora parte de PubMed , es el motor de búsqueda original de amplia base, que se originó hace más de cuatro décadas e indexa artículos incluso anteriores. Por lo tanto, especialmente en biología y medicina, los "artículos asociados" de PubMed son un proxy de Google Scholar para artículos más antiguos que no tienen presencia en línea. Por ejemplo, la revista Stroke publica artículos en línea desde la década de 1970. Para este artículo de 1978 [1], Google Scholar enumera 100 artículos que citan, mientras que PubMed enumera 89 artículos asociados.

Hay una gran cantidad de bibliotecas jurídicas en línea, en muchos países, entre ellas: Biblioteca del Congreso, Biblioteca del Congreso (THOMAS), Corte Suprema de Indiana, FindLaw (EE. UU.); Biblioteca de derecho y fuentes de la Universidad de Kent (Reino Unido).

Vea también esta lista de motores de búsqueda .

Motores de búsqueda generalizados

Existen varios motores de búsqueda generalizados. Estos adaptan su consulta a muchos motores de búsqueda. Los navegadores web ofrecen una variedad de motores de búsqueda para elegir emplear para el cuadro de búsqueda, y estos se pueden usar uno a la vez para experimentar con los resultados de la búsqueda. Los metabuscadores utilizan varios motores de búsqueda a la vez. Un complemento de navegador web puede agregar un motor de búsqueda o un metabuscador a su lista de opciones.

Ver también

Wikipedia: búsqueda avanzada de fuentes
{{ Buscar fuentes }} , una plantilla diseñada para ayudar con las búsquedas de Google Books, News Archive y Scholar
{{ Google }}
Meta: filtro espejo, una forma de filtrar sitios de la búsqueda de Google para eliminar sitios que reflejan el contenido de Wikimedia
Wikipedia: búsquedas y números de Google
Wikipedia: no se puede arreglar Google a través de Wikipedia , para corregir errores en los paneles de conocimiento de Google

Referencias

^ Por ejemplo, si hay 16 visitas a Google Books con un nombre y 24 con otro, solo hay un 70% de confianza en que el segundo nombre sea en realidad más común.
^ Operadores de búsqueda de Google y más ayuda para la búsqueda
^ Personalización del historial de búsqueda
^ ab Configuración de búsqueda de Google
^ Evite inauthor: "Books, LLC", ya que LLC 'publica' impresiones sin procesar de artículos de Wikipedia.
^ Búsqueda en Google de: AYB O AYBABTU O "Toda tu base"
^ Google responde a la pregunta sobre la frecuencia de las palabras en las fuentes de noticias.
^ Takuya, Funahashi; Hayato, Yamana (2010). "Verificación de la confiabilidad del recuento de visitas de los motores de búsqueda" (PDF) . Actas de la décima conferencia internacional sobre tendencias actuales en ingeniería web . División de Ingeniería y Ciencias de la Computación, Universidad de Waseda . Consultado el 5 de mayo de 2015 .
^ Sullivan, Danny (21 de octubre de 2010). "Por qué Google no puede contar los resultados correctamente". SearchEngineLand.com . Consultado el 5 de mayo de 2015 .
^ Búsqueda en Google de "Microsoft"
^ Gulli, Antonio; Signorini, Alessio (28 de agosto de 2005). "La Web Indexable tiene más de 11,5 mil millones de páginas". {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Más, Alvin; Murray, Brian H. (2000). "Dimensionamiento de Internet". Vigilancia. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Mark Liberman (2009), "Citas con y sin comillas", Registro de idiomas .
^ Liberman, Mark (2005), "Cuestionar la realidad", Language Log ; y otras publicaciones de Language Log vinculadas desde allí.
^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
^ Harzing, AWK; van der Wal, R. (2008). ¿Google Scholar como nueva fuente para el análisis de citas? Ética en la ciencia y la política ambiental , vol. 8, núm. 1, págs. 62–71
^ van Aalst, enero (2010) Uso de Google Scholar para estimar el impacto de los artículos de revistas en educación. Investigador Educativo 39: 387.
^ ab Maslov, S.; Redner, S. (2008). Promesas y riesgos de extender el algoritmo PageRank de Google a las redes de citas. Revista de Neurociencia, 28, 11103–11105

Otras lecturas

Joe Meert (30 de abril de 2006). "Argumentum ad Googlum". Ciencia, Anticiencia y Geología .—Meert observa que "La tentación de encontrar una respuesta rápida significa que, muchas veces, la gente no se molesta en comprobar la fuente cuidadosamente". y que "la gente buscará una frase específica que pueda sacarse de contexto para respaldar su argumento". Afirma que es "peligroso e irresponsable pensar que podemos buscar en Google una discusión compleja" y que "ha aprendido hace mucho tiempo que no hay sustituto para una investigación detallada sobre un tema".
Rich Turner (29 de febrero de 2004). "Argumentum ad Googlum; por qué obtener un millón de visitas a Google no prueba nada". Se queja . Archivado desde el original el 3 de marzo de 2016.—Turner señala que "que algo obtenga visitas en Google no significa que sea correcto" y da varios ejemplos de cosas incorrectas que generan miles de visitas en los resultados de búsqueda de Google.
Thelwall, M. (2008). Comparaciones cuantitativas de resultados de motores de búsqueda, Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Thelwall, M. (2008). Extracción de resultados precisos y completos de los motores de búsqueda: estudio de caso de Windows Live. Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, 59(1), 38–50. http://www.scit.wlv.ac.uk/~cm1993/papers/2007_Accurate_Complete_preprint.doc
Gómez, et al. (2000). Detección de documentos duplicados específicos de consultas. http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=6615209.PN.&OS=pn /6615209&RS=PN/6615209
Thelwall, M. (2008). Comparaciones cuantitativas de resultados de motores de búsqueda, Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Nakov, Preslav y Hearst, Martí (2005). Un estudio sobre el uso de visitas a páginas de motores de búsqueda como proxy de frecuencias de n-gramas, actas de avances recientes en el procesamiento del lenguaje natural 2005 http://biotext.berkeley.edu/papers/nakov_ranlp2005.pdf
Baroni, Marco y Ueyama, Motoko (2006) Creación de corpus de propósito general y especial mediante rastreo web, Actas del 13º Simposio Internacional NIJL: Corporas de lenguaje, su compilación y aplicación. http://tokuteicorpus.jp./result/pdf/2006_004.pdf