stringtranslate.com

SimHash

En informática , SimHash es una técnica para estimar rápidamente la similitud entre dos conjuntos. El algoritmo lo utiliza el rastreador de Google para encontrar páginas casi duplicadas. Fue creado por Moses Charikar . En 2021, Google anunció su intención de utilizar también el algoritmo en su nuevo sistema FLoC (aprendizaje federado de cohortes) . [1]

Evaluación y puntos de referencia

En 2006 [2], Google realizó una evaluación a gran escala para comparar el rendimiento de los algoritmos Minhash y Simhash [3] . En 2007, Google informó que utilizaba Simhash para la detección de duplicados en el rastreo web [4] y que utilizaba Minhash y LSH para la personalización de Google News . [5]

Véase también

Referencias

  1. ^ Cyphers, Bennett (3 de marzo de 2021). "El FLoC de Google es una idea terrible". Electronic Frontier Foundation . Consultado el 13 de abril de 2021 .
  2. ^ Henzinger, Monika (2006), "Encontrar páginas web casi duplicadas: una evaluación a gran escala de algoritmos", Actas de la 29.ª Conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, pág. 284, doi : 10.1145/1148170.1148222, ISBN 978-1595933690, Número de identificación del sujeto  207160068.
  3. ^ Charikar, Moses S. (2002), "Técnicas de estimación de similitud a partir de algoritmos de redondeo", Actas del 34.º Simposio anual de la ACM sobre teoría de la computación , págs. 380-388, doi :10.1145/509907.509965, ISBN 978-1581134957, Número de identificación del sujeto  4229473.
  4. ^ Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), "Detección de duplicados cercanos para el rastreo web", Actas de la 16.ª Conferencia Internacional sobre la World Wide Web (PDF) , pág. 141, doi : 10.1145/1242572.1242592, ISBN 9781595936547.
  5. ^ Das, Abhinandan S.; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Personalización de noticias de Google: filtrado colaborativo en línea escalable", Actas de la 16.ª Conferencia Internacional sobre la World Wide Web , pág. 271, doi :10.1145/1242572.1242610, ISBN 9781595936547, Número de identificación del sujeto  207163129.

Enlaces externos