Wikipedia:Prueba de motor de búsqueda

Un motor de búsqueda ofrece una lista de páginas web en Internet . Esto facilita la investigación al ofrecer una variedad inmediata de opciones aplicables. Entre los elementos que pueden resultar útiles en la lista de resultados se encuentran el material fuente o las herramientas electrónicas que puede proporcionar un sitio web, como un diccionario, pero la lista en sí, en su conjunto, también puede indicar información importante. Sin embargo, discernir esa información puede requerir perspicacia.

Los resultados de los motores de búsqueda pueden ayudar a los editores a retener (lo que es notable ) o eliminar (lo que no es verificable ) el material fuente, dependiendo de su fiabilidad. Existe una gran demanda de fiabilidad en Wikipedia . Discernir la fiabilidad del material fuente es una habilidad especialmente fundamental para el uso de la web, mientras que la wiki en sí misma solo facilita la creación de múltiples borradores. A medida que avanzan las presentaciones y las eliminaciones, esta variedad de opciones para la entrada tiende a producir el objetivo deseado: un punto de vista neutral . Dependiendo del tipo de consulta y del tipo de motor de búsqueda, esta variedad puede abrirse a un solo autor.

Algunas pruebas de motores de búsqueda

Popularidad : consulte la herramienta de tendencias de Google a continuación.
Uso : Identificar la notoriedad de un término. (Véase, por ejemplo, la herramienta ngram de Google).
Autenticidad – Identificar un engaño o una leyenda urbana .
Notabilidad : decide si una página debe ser nominada para su eliminación.
Existencia – Descubra qué fuentes (incluidos sitios web) existen realmente para una posible presentación.
Información – Revisar la confiabilidad de los hechos y citas.
Nombres y terminología : Identifique los nombres utilizados para las cosas (incluidos nombres alternativos y terminología).
Derechos de autor : identifique si el material está copiado y, de ser así, verifique la licencia.

Esta página describe tanto estas pruebas de búsqueda web como las herramientas de búsqueda web que pueden ayudar a desarrollar Wikipedia, y describe sus sesgos y limitaciones.

Las ventajas de un motor de búsqueda específico se pueden distinguir si se utilizan distintos motores de búsqueda comunes. Las ventajas distintivas de cada uno son su interfaz de usuario y, de forma menos obvia, sus algoritmos para compilar y buscar en sus propios índices. Dado que se puede bloquear un rastreador web (en particular o en general), diferentes motores de búsqueda pueden incluir distintos sitios web, y hay más sitios web disponibles por URL que los que están indexados en cualquier base de datos.

Los motores de búsqueda más comunes son Google, Bing y Yahoo. Existen motores de búsqueda especializados para medicina , ciencia , noticias y derecho , entre otros. Existen varios motores de búsqueda generalizados. Estos adaptan su consulta a muchos motores de búsqueda. Consulte § Motores de búsqueda comunes a continuación. Esta página utiliza principalmente Google en lugar de Bing o Yahoo , pero apunta a la generalidad donde puede. Por ejemplo, describe Google Groups (grupos de Usenet), Google Scholar (academia), Google News y Google Books.

Búsqueda de buena fe: una regla de oro

Atajos

Página de inicio: GFG
WP:GOOGLECHECK

Si una adición sin fuentes a un artículo parece plausible, considere tomarse un momento para utilizar un motor de búsqueda adecuado para encontrar una fuente confiable antes de decidir si volver a publicarla.

Pruebas de motores de búsqueda

Según el tema y el cuidado con el que se utilice, una prueba de motor de búsqueda puede ser muy eficaz y útil o producir resultados engañosos o inútiles. En la mayoría de los casos, una prueba de motor de búsqueda es una heurística de primer paso o una " regla de oro ".

Qué puede y no puede hacer una prueba de búsqueda

Un motor de búsqueda puede indexar páginas y textos que otros han colocado en Internet, como un gran índice al final de un libro.

Los motores de búsqueda pueden:

Proporcionar información y conducir a páginas que ayuden a alcanzar los objetivos anteriores.
Confirmar "quién dijo qué" según las fuentes (útil para citas neutrales)
A menudo se proporcionan copias completas citadas de los documentos fuente.
Confirme aproximadamente la frecuencia con la que se hace referencia a una expresión. Sin embargo, tenga en cuenta que las búsquedas de Google pueden informar muchos más resultados de los que se devolverán al usuario, especialmente en el caso de expresiones citadas exactamente. Por ejemplo, una búsqueda en Google de "el pez verde", con comillas, en 2021 arroja inicialmente alrededor de 209 000 resultados, pero al pasar a la última página de resultados de búsqueda, el número de resultados obtenidos es de 303. Consulte también aquí para calcular la significación estadística. ^[1]
Busque más específicamente dentro de ciertos sitios web, o frases combinadas y alternativas (o excluya ciertas palabras y frases que de otro modo confundirían los resultados).

Los motores de búsqueda no pueden:

Garantizar que los resultados sean confiables o "verdaderos" (los motores de búsqueda indexan cualquier texto que las personas elijan publicar en línea, sea verdadero o falso).
Garantizar por qué algo se menciona mucho y que no se debe a marketing , republicación como meme de Internet , spam o autopromoción, sino a su importancia.
Asegúrese de que los resultados reflejen los usos a los que se refiere, en lugar de otros usos. (Por ejemplo, una búsqueda de un John Smith específico puede mostrar muchos "John Smiths" que no son el que se busca, muchas páginas que contienen "John" y "Smith" por separado, y también omitir todas las referencias útiles indexadas bajo "J. Smith" o, si el término se pone entre comillas, "John Michael Smith" y "Smith, John")
Asegúrese de no perder referencias cruciales mediante la elección de la expresión de búsqueda.
Garantizar que los elementos poco mencionados o no mencionados carezcan automáticamente de importancia.
Garantizar que un resultado particular sea la instancia original de un fragmento de texto y no una reimpresión, un extracto, una cita, una cita errónea o una violación de derechos de autor.

Y los motores de búsqueda a menudo no:

Proporcionar las últimas investigaciones en profundidad, en la misma medida que las revistas y los libros, para temas de rápido desarrollo.
Sea neutral .

Una prueba de motor de búsqueda no puede ayudarle a evitar el trabajo de interpretar sus resultados y decidir qué muestran realmente. La aparición en un índice por sí sola no suele ser prueba de nada.

Pruebas de motores de búsqueda y políticas de Wikipedia

Verificabilidad

Las pruebas de los motores de búsqueda pueden arrojar resultados ficticios, tendenciosos, engañosos o similares. Es importante considerar si la información utilizada proviene de fuentes confiables antes de utilizarla o citarla. Las fuentes menos confiables pueden resultar inútiles o es necesario aclarar su estado y fundamento para que otros lectores obtengan una comprensión neutral e informada para juzgar cuán confiables son las fuentes.

Neutralidad

Google (y otros sistemas de búsqueda) no buscan un punto de vista neutral . Wikipedia sí lo hace. Google indexa páginas creadas por él mismo y páginas de medios que no tienen una política de neutralidad. Wikipedia tiene una política de neutralidad que es obligatoria y se aplica a todos los artículos y a toda la actividad editorial relacionada con los artículos.

Por tanto, Google no es una fuente específica de títulos neutrales, sino solo de títulos populares. La neutralidad es obligatoria en Wikipedia (lo que incluye decidir cómo se llaman las cosas), aunque no en otros lugares, y, en concreto, la neutralidad triunfa sobre la popularidad.

(Consulte WP:NPOV § Neutralidad y verificabilidad para obtener información sobre cómo equilibrar las políticas de verificabilidad y neutralidad, y WP:NPOV § Denominación de artículos para saber cómo deben nombrarse los artículos)

Notabilidad

El recuento de "resultados" (de búsqueda) es una medida muy burda de importancia. Algunos temas poco importantes tienen muchos "resultados", mientras que otros importantes tienen pocos o ninguno, por razones que se explican más adelante en esta página.

Los números de resultados por sí solos rara vez pueden "probar" algo sobre la notabilidad , sin una discusión más detallada sobre el tipo de resultados, qué se ha buscado, cómo se ha buscado y qué interpretación dar a los resultados. Por otro lado, examinar los tipos de resultados que surgen ^{[ aclaración necesaria ]} (o su falta) a menudo proporciona información útil relacionada con la notabilidad.

Además, los motores de búsqueda no desambiguan y tienden a hacer coincidir las búsquedas parciales. (Sin embargo, como se describe a continuación, puede eliminar las coincidencias parciales citando la frase que se va a buscar): Si bien Madonna of the Rocks es sin duda una entrada enciclopédica y notable, no es un ícono de la cultura pop. Sin embargo, debido a que Madonna aparece como una coincidencia parcial, así como a otras referencias a Madonna no relacionadas con la pintura, los resultados de una búsqueda en Google o Bing serán desproporcionados en comparación con cualquier pintura renacentista igualmente notable. Para excluir las coincidencias parciales al buscar la frase en Google, cite la frase que se va a buscar de la siguiente manera: "Madonna of the Rocks".

Usando motores de búsqueda

Expresiones de motores de búsqueda (ejemplos y tutorial)

En esta sección se explican algunas expresiones de búsqueda utilizadas en la búsqueda web de Google . ^[2] Enfoques similares funcionarán en muchos otros motores de búsqueda y otras búsquedas de Google, pero siempre lea sus páginas de ayuda para obtener más información, ya que las capacidades y el funcionamiento de los motores de búsqueda suelen diferir. Tenga en cuenta que si ha iniciado sesión en una cuenta de Google cuando realiza una búsqueda en Google, esto puede afectar los resultados que obtenga, según su historial de búsqueda. ^[3] Asegúrese también de marcar "Idiomas para mostrar resultados (de búsqueda)" en "Configuración de búsqueda". ^[4] )

La herramienta de búsqueda más útil puede ser el uso de comillas para encontrar una coincidencia exacta de una frase. Sin embargo, un motor de búsqueda como Google tiene una búsqueda fácil y una búsqueda avanzada con más opciones de búsqueda. La búsqueda avanzada facilita la introducción de opciones avanzadas que pueden ayudar en la búsqueda. Las siguientes secciones plegables cubren ejemplos básicos y ayudan a usar motores de búsqueda con Wikipedia.

Los motores de búsqueda especializados, como los archivos de artículos médicos, tienen su propia estructura de búsqueda especializada que no se trata aquí.

Usos específicos de los motores de búsqueda en Wikipedia

Google Trends le permite encontrar qué representación de una palabra o nombre es la más buscada, como esta (nota: categoría de deportes) o como esta. Ejemplo de "maremoto" frente a "tsunami"; consulte también el ejemplo de Google Books a continuación.
Google Books tiene un patrón de cobertura que está más en consonancia con el contenido de las enciclopedias tradicionales que la Web, tomada en su conjunto; si tiene un sesgo sistémico, es un sesgo sistémico muy diferente de las búsquedas web de Google. Múltiples resultados de una frase exacta en la búsqueda de Google Books proporcionan evidencia convincente del uso real de la frase o concepto. Puede comparar el uso de términos, como "maremoto" frente a "tsunami". La búsqueda de Google Books puede localizar testimonios impresos sobre la importancia de una persona, un acontecimiento o un concepto. También se puede utilizar para sustituir un hecho de "conocimiento común" sin fuentes por una versión impresa del mismo hecho.^[5]
Los Grupos de Google u otros medios con sello de fecha pueden ayudar a establecer el momento y el contexto de las primeras referencias a una palabra o frase. Búsqueda en Grupos de Google.
Google News puede ayudar a evaluar si algo es de interés periodístico. Google News solía ser menos susceptible a la manipulación por parte de autopromotores, pero con la aparición de sitios de pseudonoticias diseñados para recaudar ingresos por publicidad o promover agendas específicas, esta prueba a menudo no es más confiable que otras en áreas de interés popular e indexa muchas fuentes de "noticias" que reflejan puntos de vista específicos. El archivo de noticias se remonta a muchos años atrás, pero puede no ser gratuito más allá de un período limitado. Los resultados de noticias a menudo incluyen comunicados de prensa, que no son fuentes independientes y neutrales.
Google Scholar proporciona evidencia de cuántas veces una publicación, documento o autor ha sido citado por otros. Ideal para temas científicos o académicos. Puede incluir tesis de maestría y doctorado, patentes y documentos legales. Búsqueda en Google Scholar.
Se puede comprobar el tipo de referencia y la popularidad de los temas que se consideran importantes por referencia popular. Un tema que se considera importante y que solo tiene unos pocos cientos de referencias en Internet puede no ser muy importante; los memes de Internet verdaderamente populares pueden tener millones o incluso decenas de millones de referencias. ^[6] Sin embargo, tenga en cuenta que en algunas áreas, un tema importante puede tener muy pocas referencias; por ejemplo, uno podría esperar solo un puñado de referencias a algún tema arqueológico , y algunos temas no se reflejarán en línea en absoluto.
Se pueden comprobar temas supuestamente genuinos para comprobar si están referenciados por fuentes independientes confiables; esta es una buena prueba para detectar engaños y similares.
Las violaciones de derechos de autor en sitios web a menudo se pueden identificar (como se describe anteriormente).
Se pueden comprobar las frecuencias relativas de las ortografías y usos alternativos (por ejemplo, para un debate, que es el más común de dos términos igualmente neutrales y aceptables). Google Trends puede comparar el uso en la categoría "Noticias" (por ejemplo, "Maremoto" frente a "Tsunami"), pero esto puede no ser confiable para noticias más antiguas. ^[7]

Interpretación de resultados

General

Atajo

WP:ÉXITOS

Nunca se debe confiar en un recuento de resultados bruto para demostrar la notoriedad. En cambio, se debe prestar atención a lo que se encuentra (libros, artículos de noticias, artículos académicos y páginas web) y si realmente demuestran notoriedad o no, caso por caso. Los recuentos de resultados siempre han sido, y muy probablemente siempre seguirán siendo, una herramienta extremadamente errónea para medir la notoriedad y no deben considerarse definitivos ni concluyentes. Se debe abrir una muestra manejable de los resultados encontrados y leerlos individualmente para verificar realmente su relevancia.

En el caso de Google (y otros motores de búsqueda como Bing y Yahoo!), el recuento de resultados que aparece en la parte superior de la página no es fiable y, por lo general, no se debería informar. El recuento de resultados que aparece en la penúltima página de resultados (la penúltima) puede ser ligeramente más preciso. En el caso de las búsquedas con pocos resultados informados (menos de 1000), el recuento real de resultados necesarios para llegar al final de la última página de resultados puede ser más preciso, pero ni siquiera esto es algo seguro. Google muestra diferentes resultados de búsqueda en función de factores como el historial de búsqueda anterior y el servidor de Google en el que se acceda a ellos. ^[8]^[9]

Otras consideraciones útiles para interpretar los resultados son:

Alcance del artículo: si es limitado, se requieren menos referencias. Trate de categorizar el punto de vista, ya sea NPoV u otro; por ejemplo, observe la diferencia entre Ontología y Ontología (ciencia informática) .
Asunto del artículo: Si se trata de alguna persona histórica, una o dos menciones en textos confiables podrían ser suficientes; si se trata de algún neologismo de Internet o una canción pop , puede ocupar 700 páginas y aún así no considerarse lo suficientemente "existente" como para demostrar alguna notoriedad, para los propósitos de Wikipedia.

Sesgos que hay que tener en cuenta

En la mayoría de los casos, los resultados de búsqueda deben analizarse con atención y escepticismo antes de confiar en ellos. Los sesgos más comunes incluyen:

Sesgos generales

General (Internet o las personas en su conjunto):

Sesgo personal : tendencia a ser más receptivo a creencias con las que uno está familiarizado, con las que está de acuerdo o que son comunes en su cultura diaria, y a descartar creencias y puntos de vista que contradicen sus puntos de vista preferidos.
Sesgo cultural y de uso de la computadora : sesgo hacia la información procedente de países desarrollados que utilizan Internet y sectores adinerados de la sociedad (acceso a Internet). Los países donde el uso de la computadora no es tan común suelen tener índices más bajos de referencia a material igualmente notable, que por lo tanto puede parecer (erróneamente) no notable.
Peso indebido – Puede representar desproporcionadamente algunos asuntos, especialmente los relacionados con la cultura popular (a algunos asuntos se les puede dar mucho más espacio y a otros mucho menos, de lo que representa justamente su posición): popularidad no es notoriedad .
Fuentes no fácilmente accesibles : algunas fuentes son accesibles para todos, pero muchas son de pago únicamente o no se publican en línea. Esto puede, por ejemplo, afectar los resultados de búsqueda que obtenga para un tema histórico que alcanzó su máxima prominencia mediática hace 50 o 100 años; es muy posible que existan fuentes válidas, pero se encontrarían en microfilms o sitios de archivo de noticias por suscripción como ProQuest o Newspapers.com en lugar de en una búsqueda general de Google.

Motores de búsqueda web generales (Google, búsqueda web Bing, etc.):

Dark net – Los motores de búsqueda excluyen un gran número de páginas, y esto puede incluir un sesgo sistemático de modo que algunos asuntos se excluyen desproporcionadamente (por ejemplo, porque son comúnmente visibles en sitios que no permiten la indexación de Google, o el contenido por razones técnicas no se puede indexar ( Flash - o sitios web basados en imágenes, etc.)
Los motores de búsqueda como herramienta de promoción : existe una industria que busca influir en la posición, la popularidad y las calificaciones de un sitio en dichas búsquedas, o vender espacios publicitarios relacionados con las búsquedas y las posiciones de búsqueda. Algunos temas, como los actores pornográficos , están tan dominados por estos que las búsquedas no se pueden utilizar de manera confiable para establecer la popularidad.
El proceso de revisión varía; algunos sitios aceptan cualquier información, mientras que otros tienen algún tipo de sistema de revisión o verificación.
Auto-duplicación – A veces otros sitios clonan contenido de Wikipedia, que luego circula por Internet y se crean más páginas basadas en él (y a menudo no se citan), lo que significa que en realidad la fuente de gran parte de los hallazgos del motor de búsqueda son en realidad solo copias del texto anterior de Wikipedia, no fuentes genuinas.
Sesgo de uso popular : el uso popular y las leyendas urbanas a menudo se divulgan en lugar de ser correctos.
- Ejemplos:
  1. Una búsqueda del nombre incorrecto Charles Windsor arroja 10 veces más resultados que la búsqueda del nombre correcto Charles Mountbatten-Windsor .
  2. Una búsqueda de la ortografía más común de El Niño a menudo arrojará que se escribe "El Niño", sin el diacrítico .
  3. Las leyendas urbanas suelen difundirse ampliamente; por ejemplo, cientos de sitios informan que el USS Constitution zarpó en 1779, aunque la fecha correcta es 1797.
Es probable que se informe más sobre las opiniones y percepciones populares . Por ejemplo, puede haber muchas referencias a la acupuntura y la confirmación de que las personas suelen ser alérgicas al pelo de los animales , pero es posible que solo con una investigación cuidadosa se revele que existen evaluaciones médicas revisadas por pares sobre lo primero y que las personas generalmente no son alérgicas al pelo, sino a la piel pegajosa y las partículas de saliva ( caspa ) dentro del pelo.
Sesgo en la selección del idioma : por ejemplo, un hablante de árabe que busque información sobre la homosexualidad en árabe probablemente encontrará páginas que reflejen un sesgo diferente al de un hablante de inglés que busque en inglés sobre el mismo tema, ya que las opiniones y creencias populares y de los medios de comunicación sobre la homosexualidad pueden diferir ampliamente entre los países de habla inglesa (EE. UU., Reino Unido, Australia, etc.) que tienden a incluir una mayor proporción de grupos que aceptan la homosexualidad, y los países de habla árabe (Medio Oriente) que tienden a incluir una proporción menor.

Otro:

Tenga en cuenta que otras búsquedas de Google, en particular la Búsqueda de libros de Google, tienen un sesgo sistémico diferente al de las búsquedas web de Google y ofrecen una verificación cruzada interesante y una visión algo independiente.

Lenguas extranjeras, escrituras no latinas y nombres antiguos

A menudo, en el caso de elementos de origen no inglés o en escrituras no latinas, se obtiene una cantidad considerablemente mayor de resultados al buscar en la escritura correcta o en varias transcripciones; asegúrese de consultar " Idiomas para mostrar resultados (de búsqueda) " en " Configuración de búsqueda ". ^[4] Por ejemplo, un nombre árabe debe buscarse en la escritura original, lo que se hace fácilmente con Google (siempre que uno sepa qué buscar), pero pueden surgir problemas si, por ejemplo, las páginas web en inglés, francés y alemán transcriben el nombre utilizando diferentes convenciones. Incluso en las páginas web solo en inglés puede haber muchas variantes del mismo nombre árabe o ruso . Es posible que haya que buscar nombres personales en otros idiomas (ruso, anglosajón ) incluyendo y excluyendo el patronímico , y las búsquedas de nombres y otras palabras en idiomas con una fuerte inflexión deben tener en cuenta que para llegar al número total de resultados puede ser necesario buscar formas con diferentes terminaciones de mayúsculas y minúsculas u otras variaciones gramaticales que no sean obvias para alguien que no conozca el idioma. Los nombres de muchas culturas se dan tradicionalmente junto con títulos que se consideran parte del nombre, pero también pueden omitirse (como en Gazi Mustafa Kemal Pasha ).

Incluso en inglés antiguo , la ortografía y la interpretación de nombres más antiguos pueden permitir docenas de variaciones para la misma persona. Una búsqueda simplista de una variante en particular puede subrepresentar la presencia en la web en un orden de magnitud.

Una búsqueda como esta requiere una cierta competencia lingüística que no todos los wikipedistas poseen, pero la comunidad de Wikipedia en su conjunto incluye a muchas personas bilingües y multilingües y es importante que los nominadores y votantes de AfD al menos sean conscientes de sus propias limitaciones y no hagan suposiciones inapropiadas cuando el sesgo lingüístico o de transcripción pueda ser un factor.

Problemas con el recuento de páginas diferenciadas de Google

Tenga en cuenta también que la cantidad de coincidencias de cadenas de búsqueda que informan los motores de búsqueda es solo una estimación. Por ejemplo, Google solo calculará la cantidad real de coincidencias una vez que el usuario navegue por todas las páginas de resultados, hasta la última, e incluso entonces impone restricciones a la cifra. A veces, la estimación del recuento de "coincidencias" puede ser significativamente diferente (en uno o más órdenes de magnitud ) del recuento total de resultados que se muestran en la última página de resultados.

Una búsqueda específica del sitio puede ayudar a determinar si la mayoría de las coincidencias provienen del mismo sitio web; un solo sitio web puede representar cientos de miles de visitas.

Para los términos de búsqueda que devuelven muchos resultados, Google utiliza un proceso que elimina los resultados que son "muy similares" a otros resultados enumerados, tanto ignorando las páginas con contenido sustancialmente similar como limitando el número de páginas que se pueden devolver de un dominio determinado. Por ejemplo, una búsqueda de "Taco Bell" dará solo un par de páginas de tacobell.com, aunque muchas en ese dominio seguramente coincidirán. Además, la lista de resultados distintos de Google se construye seleccionando primero los 1000 resultados principales y luego eliminando duplicados sin reemplazos. Por lo tanto, la lista de resultados distintos siempre contendrá menos de 1000 resultados independientemente de cuántas páginas web coincidan realmente con los términos de búsqueda. Por ejemplo, al 14 de diciembre de 2010 ^[actualizar], de los aproximadamente 742 millones de páginas relacionadas con "Microsoft", Google estaba devolviendo 572 resultados "distintos". ^[10] Se debe tener cuidado al juzgar la importancia relativa de los sitios web que arrojan más de 1000 resultados de búsqueda.

Limitaciones de los motores de búsqueda: notas técnicas

Atajo

WP:LÍMITES DE GOOGLE

Muchas de las páginas web públicas que existen, probablemente la mayoría, no están indexadas. Cada motor de búsqueda captura un porcentaje diferente del total. Nadie puede decir exactamente qué parte captura.

Se estima que el tamaño de la World Wide Web es de al menos 11.500 millones de páginas ^[11] , pero existe una Web mucho más profunda (y más grande) , estimada en más de 3 billones de páginas, dentro de bases de datos cuyo contenido no indexan los motores de búsqueda. Estas páginas web dinámicas son formateadas por un servidor web cuando un usuario las solicita y, como tal, no pueden ser indexadas por los motores de búsqueda convencionales. El sitio web de la Oficina de Patentes y Marcas de los Estados Unidos es un ejemplo; aunque un motor de búsqueda puede encontrar su página principal, uno solo puede buscar en su base de datos de patentes individuales ingresando consultas en el sitio mismo. ^[12]

Google, como todos los buscadores de Internet, solo puede encontrar información que realmente está disponible en Internet. Aún existe una cantidad considerable de información que no está disponible en Internet.

Google, al igual que todos los principales servicios de búsqueda web, sigue el protocolo robots.txt y puede ser bloqueado por sitios que no desean que Google indexe o almacene en caché su contenido. Los sitios que contienen grandes cantidades de contenido protegido por derechos de autor (galerías de imágenes, periódicos por suscripción, cómics web, películas, videos, servicios de asistencia), que generalmente implican membresía, bloquearán a Google y otros motores de búsqueda. Otros sitios también pueden bloquear a Google debido a problemas de ancho de banda o estrés en el servidor que aloja el contenido.

Los motores de búsqueda también podrían no poder leer enlaces o metadatos que normalmente requieren un complemento del navegador, Adobe PDF o Macromedia Flash, o donde un sitio web se muestra como parte de una imagen. Los motores de búsqueda tampoco pueden escuchar podcasts u otras transmisiones de audio, o incluso videos que mencionen un término de búsqueda. De manera similar, los motores de búsqueda no pueden leer archivos PDF que consisten en escaneos de fotografías ni mirar dentro de archivos comprimidos (.zip).

Los foros, los sitios exclusivos para miembros y suscripciones (ya que Googlebot no se registra para acceder a ellos) y los sitios que reciclan su contenido no se almacenan en caché ni se indexan en ningún motor de búsqueda. A medida que más sitios migren a diseños AJAX/Web 2.0, esta limitación se hará más frecuente, ya que los motores de búsqueda solo simularán seguir los enlaces de una página web. Las configuraciones de página AJAX (como Google Maps) devuelven datos de forma dinámica en función de la manipulación en tiempo real de JavaScript.

Google también ha sido víctima de ataques de redirección que pueden provocar que devuelva más resultados para un término de búsqueda específico que las páginas de contenido reales.

Google y otros motores de búsqueda populares también son un objetivo para los motores de búsqueda que realizan "mejoras de resultados de búsqueda", también conocidos como optimizadores de motores de búsqueda, por lo que también pueden aparecer muchos resultados que conduzcan a una página que solo sirve como publicidad. A veces, las páginas contienen cientos de palabras clave diseñadas específicamente para atraer a los usuarios de los motores de búsqueda a esa página, pero de hecho muestran un anuncio en lugar de una página con contenido relacionado con la palabra clave.

Los recuentos de resultados informados por Google son solo estimaciones, que en algunos casos han demostrado estar necesariamente erradas en casi un orden de magnitud, especialmente para recuentos de resultados superiores a unos pocos miles. ^[13]^[14] Para palabras tan comunes como para producir varios miles de resultados en Google, los corpus de texto disponibles gratuitamente , como el Corpus Nacional Británico (para inglés británico) y el Corpus de Inglés Americano Contemporáneo (para inglés americano), pueden proporcionar una estimación más precisa de las frecuencias relativas de dos palabras.

Ejemplo de las limitaciones

El sitio de la Cumbre sobre el Delito Económico es un sitio poco compatible con Google e Internet Archive. Tiene muchos gráficos, por lo que Google no tiene mucho que buscar y faltan muchas páginas en la versión de Internet Archive. Por lo tanto, si bien se puede buscar la Conferencia de la Cumbre sobre el Delito Económico de 2002, el enlace de descripción general que indicaría quién presentó qué no funciona. El archivo de la Conferencia de la Cumbre sobre el Delito Económico de 2004 es aún peor, ya que estaba en tres lugares y ninguno de los enlaces archivados indica nada sobre los trabajos presentados.

A través de Internet Archive, se ha podido comprobar que en Internet existía cierta información sobre el "Impacto de los avances en la tecnología informática en el procesamiento de pruebas". ^[15] Sin embargo, hoy en día Google no puede encontrar esa información. Un programa que se sabe que formó parte de la Conferencia Cumbre sobre Delitos Económicos de 2002 y que en algún momento estuvo incluido en un sitio web de Internet, actualmente ^{[ ¿cuándo? ]} no puede ser encontrado por Google.

Motores de búsqueda comunes

Atajo

H:CSE

Los motores de búsqueda más comunes son Google, Bing, Yahoo y DuckDuckGo, pero los motores de búsqueda más útiles, que dependen de un contexto, pueden no ser los más comunes.

Motores de búsqueda especializados

Google Scholar funciona bien en campos orientados a la publicación de artículos y que tienen presencia en línea en todos (o casi todos) los sitios respetados. Este motor de búsqueda es un buen complemento para la Web of Knowledge de Thompson ISI disponible comercialmente, especialmente en las áreas que no están bien cubiertas en esta última, incluidos libros, artículos de conferencias, revistas no estadounidenses, las revistas generales en el campo de la estrategia, la gestión, los negocios internacionales, ^[16] la enseñanza del idioma inglés y la tecnología educativa. ^[17] El análisis del algoritmo PageRank utilizado por Google Scholar demostró que este motor de búsqueda, así como sus análogos comerciales, proporciona una información adecuada sobre la popularidad de alguna fuente concreta, ^[18] aunque eso no refleja automáticamente la contribución científica real de la publicación concreta. ^[18]

MedLine , ahora parte de PubMed , es el motor de búsqueda original de base amplia, que se originó hace más de cuatro décadas e indexa incluso artículos anteriores. Por lo tanto, especialmente en biología y medicina, los "artículos asociados" de PubMed son un proxy de Google Scholar para artículos más antiguos que no tienen presencia en línea. Por ejemplo, la revista Stroke coloca artículos en línea desde la década de 1970. Para este artículo de 1978 [1], Google Scholar enumera 100 artículos que citan, mientras que PubMed enumera 89 artículos asociados.

Hay una gran cantidad de bibliotecas jurídicas en línea en muchos países, entre ellas: Biblioteca del Congreso, Biblioteca del Congreso (THOMAS), Corte Suprema de Indiana, FindLaw (EE. UU.); Biblioteca y fuentes de Derecho de la Universidad de Kent (Reino Unido).

Vea también esta lista de motores de búsqueda .

Motores de búsqueda generalizados

Existen varios motores de búsqueda generalizados que adaptan su consulta a varios motores de búsqueda. Los navegadores web ofrecen una variedad de motores de búsqueda para elegir para el cuadro de búsqueda, y estos se pueden usar de a uno por vez para experimentar con los resultados de búsqueda. Los metabuscadores usan varios motores de búsqueda a la vez. Un complemento del navegador web puede agregar un motor de búsqueda o un metabuscador a su lista de opciones.

Véase también

Wikipedia: Búsqueda avanzada de fuentes
{{ Buscar fuentes }} , una plantilla diseñada para ayudar con las búsquedas en Google Libros, Archivo de noticias y Académico
{{ Google }}
Meta:Filtro Mirror, una forma de filtrar sitios de la búsqueda de Google para eliminar sitios que reflejan contenido de Wikimedia
Wikipedia:Búsquedas y números en Google
Wikipedia: No se puede arreglar Google a través de Wikipedia - para solucionar errores en los paneles de conocimiento de Google

Referencias

^ Por ejemplo, si hay 16 resultados en Google Books bajo un nombre y 24 bajo otro, solo hay un 70 % de confianza de que el segundo nombre sea en realidad más común.
^ Operadores de búsqueda de Google y más ayuda para la búsqueda
^ Personalización del historial de búsqueda
^ ab Configuración de búsqueda de Google
^ Evite inauthor:"Books, LLC", ya que LLC "publica" impresiones sin procesar de artículos de Wikipedia.
^ Búsqueda en Google de: AYB O AYBABTU O "Toda tu base"
^ Pregunta de Google Answers sobre la frecuencia de las palabras en las fuentes de noticias
^ Takuya, Funahashi; Hayato, Yamana (2010). "Verificación de la fiabilidad de los recuentos de visitas de los motores de búsqueda" (PDF) . Actas de la 10.ª conferencia internacional sobre tendencias actuales en ingeniería web . División de Ciencias de la Computación e Ingeniería, Universidad de Waseda . Consultado el 5 de mayo de 2015 .
^ Sullivan, Danny (21 de octubre de 2010). "Por qué Google no puede contar los resultados correctamente". SearchEngineLand.com . Consultado el 5 de mayo de 2015 .
^ Búsqueda en Google de "Microsoft"
^ Gulli, Antonio; Signorini, Alessio (28 de agosto de 2005). "La Web indexable tiene más de 11.500 millones de páginas". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ More, Alvin; Murray, Brian H. (2000). "Dimensionando Internet". Cyveillance. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Mark Liberman (2009), "Citas con y sin comillas", Language Log .
^ Liberman, Mark (2005), "Cuestionando la realidad", Language Log ; y otras publicaciones de Language Log vinculadas desde allí.
^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
^ Harzing, AWK; van der Wal, R. (2008). Google Scholar como nueva fuente para el análisis de citas? Ethics in Science and Environmental Politics , vol. 8, núm. 1, págs. 62–71
^ van Aalst, Jan. (2010) Uso de Google Scholar para estimar el impacto de los artículos de revistas en educación. Educational Researcher 39: 387.
^ ab Maslov, S.; Redner, S. (2008). Promesas y dificultades de la extensión del algoritmo PageRank de Google a las redes de citas. Journal of Neuroscience, 28, 11103–11105

Lectura adicional

Joe Meert (30 de abril de 2006). "Argumentum ad Googlum". Ciencia, anticiencia y geología .—Meert observa que “la tentación de encontrar una réplica rápida significa que, muchas veces, la gente no se molesta en verificar la fuente cuidadosamente” y que “la gente buscará una frase específica que pueda estar sacada de contexto para apoyar su argumento”. Afirma que es “peligroso e irresponsable pensar que podemos buscar en Google una discusión compleja” y que “hace mucho tiempo que aprendí que no hay sustituto para una investigación detallada sobre un tema”.
Rich Turner (29 de febrero de 2004). "Argumentum ad Googlum; Por qué obtener un millón de resultados en Google no prueba nada". Grumbles . Archivado desde el original el 3 de marzo de 2016.—Turner señala que "que algo obtenga resultados en Google no significa que sea correcto" y da varios ejemplos de cosas que son incorrectas y obtienen miles de resultados de búsqueda en Google.
Thelwall, M. (2008). Comparaciones cuantitativas de los resultados de los motores de búsqueda, Journal of the American Society for Information Science and Technology, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Thelwall, M. (2008). Extracción de resultados precisos y completos de los motores de búsqueda: estudio de caso de Windows Live. Journal of the American Society for Information Science and Technology, 59(1), 38–50. http://www.scit.wlv.ac.uk/~cm1993/papers/2007_Accurate_Complete_preprint.doc
Gomes, et al. (2000). Detección de documentos duplicados específicos de una consulta. http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=6615209.PN.&OS=pn/6615209&RS=PN/6615209
Thelwall, M. (2008). Comparaciones cuantitativas de los resultados de los motores de búsqueda, Journal of the American Society for Information Science and Technology, 59(11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Nakov, Preslav y Hearst, Marti (2005). Un estudio sobre el uso de las visitas a páginas de motores de búsqueda como proxy de frecuencias de n-gramas, Actas de los últimos avances en el procesamiento del lenguaje natural 2005 http://biotext.berkeley.edu/papers/nakov_ranlp2005.pdf
Baroni, Marco y Ueyama, Motoko (2006) Creación de corpus de uso general y especial mediante rastreo web, Actas del 13º Simposio Internacional NIJL Corpus de lenguaje, su compilación y aplicación. http://tokuteicorpus.jp./result/pdf/2006_004.pdf