Técnica para estimar rápidamente la similitud de conjuntos
En informática , SimHash es una técnica para estimar rápidamente la similitud entre dos conjuntos. El algoritmo lo utiliza el rastreador de Google para encontrar páginas casi duplicadas. Fue creado por Moses Charikar . En 2021, Google anunció su intención de utilizar también el algoritmo en su nuevo sistema FLoC (aprendizaje federado de cohortes) . [1]
Evaluación y puntos de referencia
En 2006 [2], Google realizó una evaluación a gran escala para comparar el rendimiento de los algoritmos Minhash y Simhash [3] . En 2007, Google informó que utilizaba Simhash para la detección de duplicados en el rastreo web [4] y que utilizaba Minhash y LSH para la personalización de Google News . [5]
Véase también
Referencias
- ^ Cyphers, Bennett (3 de marzo de 2021). "El FLoC de Google es una idea terrible". Electronic Frontier Foundation . Consultado el 13 de abril de 2021 .
- ^ Henzinger, Monika (2006), "Encontrar páginas web casi duplicadas: una evaluación a gran escala de algoritmos", Actas de la 29.ª Conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, pág. 284, doi : 10.1145/1148170.1148222, ISBN 978-1595933690, Número de identificación del sujeto 207160068.
- ^ Charikar, Moses S. (2002), "Técnicas de estimación de similitud a partir de algoritmos de redondeo", Actas del 34.º Simposio anual de la ACM sobre teoría de la computación , págs. 380-388, doi :10.1145/509907.509965, ISBN 978-1581134957, Número de identificación del sujeto 4229473.
- ^ Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), "Detección de duplicados cercanos para el rastreo web", Actas de la 16.ª Conferencia Internacional sobre la World Wide Web (PDF) , pág. 141, doi : 10.1145/1242572.1242592, ISBN 9781595936547.
- ^ Das, Abhinandan S.; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Personalización de noticias de Google: filtrado colaborativo en línea escalable", Actas de la 16.ª Conferencia Internacional sobre la World Wide Web , pág. 271, doi :10.1145/1242572.1242610, ISBN 9781595936547, Número de identificación del sujeto 207163129.
Enlaces externos
- Documento Simhash Princeton
- Simhash explicado
- Comparación entre MinHash y Simhash