Indexación de spam

Spamdexing (también conocido como spam en motores de búsqueda , envenenamiento de motores de búsqueda , optimización de motores de búsqueda de sombrero negro , spam en búsquedas o spam web ) ^[1] es la manipulación deliberada de los índices de los motores de búsqueda . Implica una serie de métodos, como la construcción de enlaces y la repetición de frases no relacionadas, para manipular la relevancia o prominencia de los recursos indexados de una manera inconsistente con el propósito del sistema de indexación. ^[2]^[3]

Spamdexing podría considerarse parte de la optimización de motores de búsqueda , ^[4] aunque existen muchos métodos de SEO que mejoran la calidad y la apariencia del contenido de los sitios web y ofrecen contenido útil para muchos usuarios. ^[5]

Descripción general

Los motores de búsqueda utilizan una variedad de algoritmos para determinar la clasificación de relevancia . Algunos de estos incluyen determinar si el término de búsqueda aparece en el cuerpo del texto o en la URL de una página web . Muchos motores de búsqueda comprueban si hay casos de spamdexing y eliminan las páginas sospechosas de sus índices. Además, los operadores de motores de búsqueda pueden bloquear rápidamente la lista de resultados de sitios web completos que utilizan spamdexing, tal vez en respuesta a quejas de los usuarios sobre coincidencias falsas. El auge del spamdexing a mediados de la década de 1990 hizo que los principales motores de búsqueda de la época fueran menos útiles. El uso de métodos poco éticos para hacer que los sitios web tengan una clasificación más alta en los resultados de los motores de búsqueda de lo que lo harían de otra manera se conoce comúnmente en la industria del SEO (optimización de motores de búsqueda) como "SEO de sombrero negro". ^[6] Estos métodos están más centrados en romper las reglas y directrices de promoción de los motores de búsqueda. Además, los autores corren el riesgo de que sus sitios web sean duramente penalizados por los algoritmos de clasificación de resultados de búsqueda de Google Panda y Google Penguin . ^[7]

Las técnicas comunes de spamdexing se pueden clasificar en dos grandes clases: spam de contenido ^[5] ( término spam ) y spam de enlaces . ^[3]

Historia

La primera referencia conocida ^[2] al término spamdexing es la de Eric Convey en su artículo "La pornografía se cuela en la Web", The Boston Herald , 22 de mayo de 1996, donde dijo:

El problema surge cuando los operadores de sitios cargan sus páginas web con cientos de términos extraños para que los motores de búsqueda los incluyan entre las direcciones legítimas. El proceso se llama "spamdexing", una combinación de spamming (el término de Internet para enviar a los usuarios información no solicitada) e " indexación ". ^[2]

Contenido spam

Estas técnicas implican alterar la visión lógica que tiene un motor de búsqueda sobre el contenido de la página. Todos apuntan a variantes del modelo de espacio vectorial para la recuperación de información en colecciones de texto.

Relleno de palabras clave

El relleno de palabras clave implica la ubicación calculada de palabras clave dentro de una página para aumentar el número, la variedad y la densidad de palabras clave de la página. Esto es útil para hacer que una página parezca relevante para un rastreador web de manera que sea más probable que la encuentre. Ejemplo: un promotor de un esquema Ponzi posee un sitio que anuncia una estafa y quiere atraer gente a él. El estafador coloca texto oculto apropiado para una página de fans de un grupo de música popular en la página, con la esperanza de que la página aparezca como un sitio de fans y reciba muchas visitas de amantes de la música. Las versiones anteriores de los programas de indexación simplemente contaban la frecuencia con la que aparecía una palabra clave y la utilizaban para determinar los niveles de relevancia. La mayoría de los motores de búsqueda modernos tienen la capacidad de analizar una página en busca de exceso de palabras clave y determinar si la frecuencia es consistente con la de otros sitios creados específicamente para atraer tráfico de motores de búsqueda. Además, las páginas web grandes se truncan, por lo que no se pueden indexar listas de diccionarios masivas en una sola página web. ^{[ cita necesaria ]}

Texto oculto o invisible

El texto oculto no relacionado se disfraza haciéndolo del mismo color que el fondo, usando un tamaño de fuente pequeño u ocultándolo dentro del código HTML , como secciones "sin marco", atributos alt , DIV de tamaño cero y secciones "sin script". Las personas que examinan manualmente los sitios web marcados con señales de alerta para una empresa de motores de búsqueda pueden bloquear temporal o permanentemente un sitio web completo por tener texto invisible en algunas de sus páginas. Sin embargo, el texto oculto no siempre es spamdexing: también se puede utilizar para mejorar la accesibilidad . ^[8]

Relleno de metaetiquetas

Esto implica repetir palabras clave en las metaetiquetas y utilizar metapalabras que no están relacionadas con el contenido del sitio. Esta táctica ha sido ineficaz. Google declaró que no utiliza la metaetiqueta de palabras clave en su ranking de búsqueda en línea en septiembre de 2009. ^[9]

Páginas de entrada

Las " páginas de entrada" o de entrada son páginas web de baja calidad creadas con muy poco contenido, que en cambio están repletas de palabras clave y frases muy similares. Están diseñados para ocupar un lugar destacado en los resultados de búsqueda, pero no sirven para nada a los visitantes que buscan información. Una página de entrada generalmente tendrá "haga clic aquí para ingresar" en la página; El reenvío automático también se puede utilizar para este propósito. En 2006, Google expulsó al fabricante de vehículos BMW por utilizar "páginas de entrada" al sitio alemán de la empresa, BMW.de. ^[10]

Sitios raspadores

Los sitios scraper se crean utilizando varios programas diseñados para "extraer" páginas de resultados de motores de búsqueda u otras fuentes de contenido y crear "contenido" para un sitio web. ^{[ cita necesaria ]} La presentación específica del contenido en estos sitios es única, pero es simplemente una combinación de contenido tomado de otras fuentes, a menudo sin permiso. Estos sitios web suelen estar llenos de publicidad (como anuncios de pago por clic ) o redirigen al usuario a otros sitios. Incluso es factible que los sitios scraper superen a los sitios web originales en cuanto a su propia información y nombres de organizaciones.

Artículo girando

La rotación de artículos implica reescribir artículos existentes, en lugar de simplemente extraer contenido de otros sitios, para evitar sanciones impuestas por los motores de búsqueda por contenido duplicado . Este proceso lo llevan a cabo escritores contratados ^{[ cita requerida ]} o se automatiza utilizando una base de datos de sinónimos o una red neuronal artificial .

Máquina traductora

De manera similar a la edición de artículos , algunos sitios utilizan la traducción automática para presentar su contenido en varios idiomas, sin edición humana, lo que da como resultado textos ininteligibles que, no obstante, continúan siendo indexados por los motores de búsqueda, atrayendo así tráfico.

Enlace spam

Los enlaces spam se definen como enlaces entre páginas que están presentes por motivos distintos al mérito. ^[11] El spam de enlaces aprovecha los algoritmos de clasificación basados en enlaces, que otorgan a los sitios web clasificaciones más altas cuanto más enlaces tienen otros sitios web altamente clasificados. Estas técnicas también pretenden influir en otras técnicas de clasificación basadas en enlaces, como el algoritmo HITS . ^{[ cita necesaria ]}

Granjas de enlaces

Las granjas de enlaces son redes muy unidas de sitios web que se vinculan entre sí con el único propósito de explotar los algoritmos de clasificación de los motores de búsqueda. Estas también se conocen en broma como sociedades de admiración mutua . ^[12] El uso de granjas de enlaces se ha reducido considerablemente con el lanzamiento de la primera actualización Panda de Google en febrero de 2011, que introdujo mejoras significativas en su algoritmo de detección de spam.

Redes de blogs privados

Las redes de blogs (PBN) son un grupo de sitios web autorizados que se utilizan como fuente de enlaces contextuales que apuntan al sitio web principal del propietario para lograr una clasificación más alta en los motores de búsqueda. Los propietarios de sitios web PBN utilizan dominios caducados o dominios de subasta que tienen vínculos de retroceso de sitios web de alta autoridad. Google apuntó y penalizó a los usuarios de PBN en varias ocasiones con varias campañas masivas de desindexación desde 2014. ^[13]

Enlaces ocultos

Poner hipervínculos donde los visitantes no los vean se utiliza para aumentar la popularidad de los enlaces . El texto del enlace resaltado puede ayudar a clasificar una página web más arriba por coincidir con esa frase.

Ataque de sibila

Un ataque Sybil es la falsificación de múltiples identidades con intenciones maliciosas, y lleva el nombre de la famosa paciente con trastorno de identidad disociativo y del libro sobre ella que comparte su nombre, " Sybil ". ^[14]^[15] Un spammer puede crear múltiples sitios web con diferentes nombres de dominio que enlazan entre sí, como blogs falsos (conocidos como blogs de spam ).

Blogs no deseados

Los blogs spam son blogs creados únicamente para la promoción comercial y el paso de autoridad de enlace a sitios de destino. A menudo, estos "splogs" están diseñados de una manera engañosa que dará el efecto de un sitio web legítimo, pero tras una inspección minuciosa, a menudo estarán escritos utilizando software giratorio o estarán muy mal escritos con contenido apenas legible. Son de naturaleza similar a las granjas vinculadas. ^[16]^[17]

Spam de blogs invitados

El spam de blogs invitados es el proceso de colocar blogs invitados en sitios web con el único fin de obtener un enlace a otro sitio web o sitios web. Desafortunadamente, estos a menudo se confunden con formas legítimas de blogs invitados con otros motivos además de colocar enlaces. Esta técnica se hizo famosa gracias a Matt Cutts , quien declaró públicamente la "guerra" contra esta forma de spam de enlaces. ^[18]

Comprar dominios caducados

Algunos spammers de enlaces utilizan software de rastreo de dominios caducados o monitorean los registros DNS en busca de dominios que caducan pronto, luego los compran cuando caducan y reemplazan las páginas con enlaces a sus páginas. Sin embargo, es posible, aunque no confirmado, que Google restablezca los datos del enlace en dominios caducados. ^{[ cita necesaria ]} Para mantener todos los datos de clasificación de Google anteriores para el dominio, es aconsejable que un comprador tome el dominio antes de que lo "elimine".

Algunas de estas técnicas pueden aplicarse para crear una bomba de Google , es decir, cooperar con otros usuarios para mejorar la clasificación de una página particular para una consulta particular.

Usar páginas en las que se puede escribir todo el mundo

Los spamdexers pueden utilizar los sitios web que los usuarios pueden editar para insertar enlaces a sitios de spam si no se toman las medidas antispam adecuadas.

Los robots de spam automatizados pueden inutilizar rápidamente la parte de un sitio que el usuario puede editar. Los programadores han desarrollado una variedad de técnicas automatizadas de prevención de spam para bloquear o al menos ralentizar los spambots.

Spam en blogs

El spam en los blogs es la colocación o solicitud de enlaces al azar en otros sitios, colocando una palabra clave deseada en el texto del hipervínculo del enlace entrante. Los libros de visitas, los foros, los blogs y cualquier sitio que acepte los comentarios de los visitantes son objetivos particulares y, a menudo, son víctimas de spam encubierto, donde el software automatizado crea publicaciones sin sentido con enlaces que generalmente son irrelevantes y no deseados.

Comentarios spam

El spam de comentarios es una forma de spam de enlaces que ha surgido en páginas web que permiten la edición dinámica por parte del usuario, como wikis , blogs y libros de visitas . Puede ser problemático porque se pueden escribir agentes que seleccionen automáticamente y al azar una página web editada por el usuario, como un artículo de Wikipedia, y agreguen enlaces de spam. ^[19]

Spam wiki

El spam wiki se produce cuando un spammer utiliza la capacidad de edición abierta de los sistemas wiki para colocar enlaces desde el sitio wiki al sitio de spam.

Spam de registros de referencia

El spam de referencia tiene lugar cuando un perpetrador o facilitador de spam accede a una página web (el árbitro ), siguiendo un enlace desde otra página web (el referente ), de modo que el navegador de Internet de la persona le da al árbitro la dirección del referente. Algunos sitios web tienen un registro de referencias que muestra qué páginas enlazan con ese sitio. Al hacer que un robot acceda aleatoriamente a muchos sitios suficientes veces, con un mensaje o una dirección específica proporcionada como referencia, ese mensaje o dirección de Internet aparece en el registro de referencia de aquellos sitios que tienen registros de referencia. Dado que algunos motores de búsqueda web basan la importancia de los sitios en la cantidad de sitios diferentes que enlazan con ellos, el spam de registros de referencias puede aumentar la clasificación en los motores de búsqueda de los sitios del spammer. Además, los administradores del sitio que noten las entradas del registro de referencia en sus registros pueden seguir el enlace a la página de referencia del spammer.

Contramedidas

Debido a la gran cantidad de spam publicado en páginas web editables por el usuario, Google propuso una etiqueta "nofollow" que podría incluir enlaces. Un motor de búsqueda basado en enlaces, como el sistema PageRank de Google , no utilizará el enlace para aumentar la puntuación del sitio web vinculado si el enlace lleva una etiqueta nofollow. Esto garantiza que enviar enlaces no deseados a sitios web editables por el usuario no aumente la clasificación de los sitios en los motores de búsqueda. Nofollow es utilizado por varios sitios web importantes, incluidos Wordpress , Blogger y Wikipedia . ^{[ cita necesaria ]}

Otros tipos

Sitios web espejo

Un sitio espejo es el alojamiento de varios sitios web con contenido conceptualmente similar pero que utilizan URL diferentes . Algunos motores de búsqueda otorgan una clasificación más alta a los resultados donde la palabra clave buscada aparece en la URL.

Redirección de URL

La redirección de URL es llevar al usuario a otra página sin su intervención, por ejemplo , utilizando etiquetas de actualización META , Flash , JavaScript , Java o redirecciones del lado del servidor . Sin embargo, el redireccionamiento 301 , o redireccionamiento permanente, no se considera un comportamiento malicioso.

Encubierto

El encubrimiento se refiere a cualquiera de los diversos medios para mostrar una página a la araña del motor de búsqueda que es diferente de la que ven los usuarios humanos. Puede ser un intento de engañar a los motores de búsqueda con respecto al contenido de un sitio web en particular. Sin embargo, el encubrimiento también se puede utilizar para aumentar éticamente la accesibilidad de un sitio para usuarios con discapacidades o proporcionar a los usuarios humanos contenido que los motores de búsqueda no pueden procesar o analizar. También se utiliza para entregar contenido según la ubicación de un usuario; El propio Google utiliza la entrega de IP , una forma de encubrimiento, para ofrecer resultados. Otra forma de encubrimiento es el intercambio de código , es decir , optimizar una página para obtener la clasificación más alta y luego intercambiar otra página en su lugar una vez que se logra la clasificación más alta. Google se refiere a este tipo de redirecciones como Sneaky Redirects . ^[20]

Contramedidas

Omisión de página por motor de búsqueda

A veces, el motor de búsqueda elimina las páginas spamdexed de los resultados de búsqueda.

Omisión de página por usuario

Los usuarios pueden emplear operadores de búsqueda para filtrar. Para Google, una palabra clave precedida por "-" (menos) omitirá los sitios que contengan la palabra clave en sus páginas o en la URL de las páginas del resultado de búsqueda. Por ejemplo, la búsqueda "-<sitio no deseado>" eliminará los sitios que contengan la palabra "<sitio no deseado>" en sus páginas y las páginas cuya URL contenga "<sitio no deseado>".

Los usuarios también pueden utilizar la extensión de Google Chrome "Personal Blocklist (by Google)", lanzada por Google en 2011 como parte de las contramedidas contra el cultivo de contenidos . ^[21] A través de la extensión, los usuarios pueden bloquear una página específica o un conjunto de páginas para que no aparezcan en sus resultados de búsqueda. A partir de 2021, la extensión original parece haberse eliminado, aunque se pueden utilizar extensiones de funcionamiento similar.

Las posibles soluciones para superar el envenenamiento por redirecciones de búsqueda a farmacias ilegales en Internet incluyen la notificación a los operadores de dominios legítimos vulnerables. Además, la evaluación manual de las SERP, los algoritmos basados en enlaces y contenidos publicados previamente, así como los motores de clasificación y detección automática hechos a medida, se pueden utilizar como puntos de referencia en la identificación efectiva de campañas de estafa farmacéutica. ^[22]

Ver también

Recuperación de información adversaria
Índice (motor de búsqueda) : descripción general de la tecnología de indexación de motores de búsqueda
Rango de confianza
raspado web
Pantalla inteligente de Microsoft
Microsoft defensor

Referencias

^ SearchEngineLand, explicación en vídeo de Danny Sullivan sobre el spam en motores de búsqueda, octubre de 2008 Archivado el 17 de diciembre de 2008 en Wayback Machine "Google Search Central". 2023-02-23.. Consultado el 16 de mayo de 2023.
^ abc "Word Spy - spamdexing" (definición), marzo de 2003, página web:WordSpy-spamdexing Archivado el 18 de julio de 2014 en Wayback Machine .
^ ab Gyöngyi, Zoltán; García-Molina, Hector (2005), "Taxonomía de spam web" (PDF) , Actas del primer taller internacional sobre recuperación de información adversa en la Web (AIRWeb), 2005 en la 14ª Conferencia Internacional de la World Wide Web (WWW 2005), 10 de mayo , (martes)-14 (sábado), 2005, Centro de Convenciones Nippon (Makuhari Messe), Chiba, Japón. , Nueva York, Nueva York: ACM Press, ISBN 1-59593-046-9, archivado (PDF) desde el original el 15 de febrero de 2020 , consultado el 5 de octubre de 2007
^ Zuze, Herbert; Weideman, Melius (12 de abril de 2013). "El relleno de palabras clave y los tres grandes motores de búsqueda". Revisión de información en línea . 37 (2): 268–286. doi :10.1108/OIR-11-2011-0193. ISSN 1468-4527.
^ ab Ntoulas, Alexandros; Manasés, Mark; Najork, Marc; Fetterly, Dennis (2006), "Detección de páginas web no deseadas mediante análisis de contenido", 15ª Conferencia Internacional de la World Wide Web (WWW 2006), 23 al 26 de mayo de 2006, Edimburgo, Escocia. , Nueva York, Nueva York: ACM Press, ISBN 1-59593-323-9
^ "Conceptos básicos de SEO: ¿qué es el SEO de sombrero negro?". Guía digital de IONOS . 23 de mayo de 2017 . Consultado el 22 de agosto de 2022 .
^ Sabelotodo, Ann (17 de diciembre de 2008). "¿Qué es BlackHat SEO? Cinco definiciones". Diario del motor de búsqueda . Archivado desde el original el 21 de junio de 2012 . Consultado el 5 de julio de 2012 .
^ Montti, Roger (3 de octubre de 2020). "Todo lo que necesita saber sobre texto oculto y SEO". Diario del motor de búsqueda . Archivado desde el original el 22 de noviembre de 2021 . Consultado el 22 de noviembre de 2021 .
^ "Google no utiliza la metaetiqueta de palabras clave en el ranking web". Google para desarrolladores . Corporación Google . Consultado el 21 de septiembre de 2009 .
^ Segal, David (13 de febrero de 2011). "Los pequeños secretos sucios de la búsqueda". Los tiempos de Nueva York . Archivado desde el original el 23 de julio de 2012 . Consultado el 3 de julio de 2012 .
^ Davison, Brian (2000), "Reconocimiento de vínculos nepotistas en la Web" (PDF) , taller AAAI-2000 sobre inteligencia artificial para búsquedas web , Boston: AAAI Press, págs. 23-28, archivado (PDF) del original en 18 de abril de 2007 , consultado el 23 de octubre de 2007
^ "Motores de búsqueda: tecnología, sociedad y negocios - Marti Hearst, 29 de agosto de 2005" (PDF) . berkeley.edu . Archivado (PDF) desde el original el 8 de julio de 2007 . Consultado el 1 de agosto de 2007 .
^ "Google se dirige a sitios que utilizan redes de blogs privadas con sanciones de clasificación de acciones manuales". Tierra de motores de búsqueda . 2014-09-23. Archivado desde el original el 22 de noviembre de 2016 . Consultado el 12 de diciembre de 2016 .
^ Schreiber, Flora Rheta (1973). Sibila. Chicago: Regnery. ISBN 0-8092-0001-5. OCLC 570440.
^ Koegel Buford, John F. (2009). "14". Redes y aplicaciones P2P. Hong Heather Yu, Eng Keong Lua. Ámsterdam: Elsevier/Morgan Kaufmann. ISBN 978-0-12-374214-8. OCLC 318353755.
^ Finin, Tim; Joshi, Anupam; Kolari, Pranam; Java, Akshay; Kale, Anubhav; Karandikar, Amit (6 de septiembre de 2008). "La ecología de la información de las redes sociales y las comunidades en línea". Revista AI . 29 (3): 77. doi : 10.1609/aimag.v29i3.2158 . hdl : 11603/12123 . ISSN 0738-4602.
^ Bevans, Brandon (2016). Categorización del spam de blogs (tesis). Biblioteca Robert E. Kennedy, Cal Poly. doi : 10.15368/tesis.2016.91 .
^ "La decadencia y caída de los blogs invitados para SEO". mattcutts.com . 20 de enero de 2014. Archivado desde el original el 3 de febrero de 2015 . Consultado el 11 de enero de 2015 .
^ Misné, Gilad; David Carmelo; Ronny Lempel (2005). "Bloqueo de spam en blogs con desacuerdo en el modelo de lenguaje" (PDF) . Actas del primer taller internacional sobre recuperación de información adversa en la Web . Archivado (PDF) desde el original el 21 de julio de 2011 . Consultado el 24 de octubre de 2007 .
^ "Redirecciones furtivas: ayuda de Search Console". soporte.google.com . Archivado desde el original el 18 de mayo de 2015 . Consultado el 14 de mayo de 2015 .
^ "Nuevo: bloquear sitios de los resultados de Google utilizando la" lista de bloqueo personal "de Chrome - Search Engine Land". searchengineland.com . 14 de febrero de 2011. Archivado desde el original el 6 de octubre de 2017 . Consultado el 6 de octubre de 2017 .
^ Fittler, András; Paczolai, Peter; Ashraf, Amir Reza; Pourhashemi, Amir; Ivanyi, Péter (8 de noviembre de 2022). "Prevalencia de resultados de búsqueda de Google envenenados de medicamentos para la disfunción eréctil que se redirigen a farmacias ilegales en Internet: estudio de análisis de datos". Revista de investigación médica en Internet . 24 (11): e38957. doi : 10.2196/38957 . PMC 9682446 . PMID 36346655.

enlaces externos

Busque spamdexing en Wikcionario, el diccionario gratuito.