PageRank ( PR ) es un algoritmo utilizado por la Búsqueda de Google para clasificar las páginas web en los resultados de su motor de búsqueda . Lleva el nombre tanto del término "página web" como del cofundador Larry Page . PageRank es una forma de medir la importancia de las páginas de un sitio web. Según Google:
PageRank funciona contando la cantidad y la calidad de los enlaces a una página para determinar una estimación aproximada de la importancia del sitio web. La suposición subyacente es que es probable que los sitios web más importantes reciban más enlaces de otros sitios web. [1]
Actualmente, PageRank no es el único algoritmo utilizado por Google para ordenar los resultados de búsqueda, pero sí el primer algoritmo que utilizó la empresa, y es el más conocido. [2] [3] A partir del 24 de septiembre de 2019, todas las patentes asociadas con PageRank han expirado. [4]
PageRank es un algoritmo de análisis de enlaces y asigna una ponderación numérica a cada elemento de un conjunto de documentos hipervinculados , como la World Wide Web , con el fin de "medir" su importancia relativa dentro del conjunto. El algoritmo se puede aplicar a cualquier colección de entidades con citas y referencias recíprocas . El peso numérico que asigna a cualquier elemento dado E se conoce como PageRank de E y se denota por
Un PageRank resulta de un algoritmo matemático basado en el webgraph , creado por todas las páginas de la World Wide Web como nodos y los hipervínculos como bordes, teniendo en cuenta centros de autoridad como cnn.com o mayoclinic.org . El valor de clasificación indica la importancia de una página en particular. Un hipervínculo a una página cuenta como un voto de apoyo. El PageRank de una página se define de forma recursiva y depende del número y la métrica de PageRank de todas las páginas que enlazan con ella (" enlaces entrantes "). Una página a la que están vinculadas muchas páginas con un PageRank alto recibe una clasificación alta.
Se han publicado numerosos artículos académicos sobre PageRank desde el artículo original de Page y Brin. [5] En la práctica, el concepto PageRank puede ser vulnerable a la manipulación. Se han realizado investigaciones para identificar clasificaciones de PageRank falsamente influenciadas. El objetivo es encontrar un medio eficaz para ignorar enlaces de documentos con PageRank falsamente influenciado. [6]
Otros algoritmos de clasificación basados en enlaces para páginas web incluyen el algoritmo HITS inventado por Jon Kleinberg (utilizado por Teoma y ahora Ask.com ), el proyecto IBM CLEVER , el algoritmo TrustRank , el algoritmo Hummingbird [7] y el algoritmo SALSA . [8]
El problema del valor propio detrás del algoritmo de PageRank fue redescubierto y reutilizado de forma independiente en muchos problemas de puntuación. En 1895, Edmund Landau sugirió utilizarlo para determinar el ganador de un torneo de ajedrez. [9] [10] El problema del valor propio también fue sugerido en 1976 por Gabriel Pinski y Francis Narin, quienes trabajaron en la clasificación de revistas científicas de cienciometría , [11] en 1977 por Thomas Saaty en su concepto de Proceso de Jerarquía Analítica que ponderaba opciones alternativas, [ 12] y en 1995 por Bradley Love y Steven Sloman como modelo cognitivo para conceptos, el algoritmo de centralidad. [13] [14]
Un motor de búsqueda llamado " RankDex " de IDD Information Services, diseñado por Robin Li en 1996, desarrolló una estrategia para la puntuación de sitios y el ranking de páginas. [15] Li se refirió a su mecanismo de búsqueda como "análisis de enlaces", que implicaba clasificar la popularidad de un sitio web en función de cuántos otros sitios se habían enlazado a él. [16] RankDex, el primer motor de búsqueda con algoritmos de clasificación de páginas y puntuación de sitios, se lanzó en 1996. [17] Li presentó una patente para la tecnología en RankDex en 1997; fue concedido en 1999. [18] Posteriormente lo utilizó cuando fundó Baidu en China en 2000. [19] [20] El fundador de Google, Larry Page, hizo referencia al trabajo de Li como una cita en algunas de sus patentes estadounidenses para PageRank. [21] [17] [22]
Larry Page y Sergey Brin desarrollaron PageRank en la Universidad de Stanford en 1996 como parte de un proyecto de investigación sobre un nuevo tipo de motor de búsqueda. Una entrevista con Héctor García-Molina , profesor de Ciencias de la Computación de Stanford y asesor de Sergey, [23] proporciona antecedentes sobre el desarrollo del algoritmo de rango de página. [24] Sergey Brin tuvo la idea de que la información en la web podría ordenarse en una jerarquía por "popularidad de enlaces": una página ocupa un lugar más alto cuanto más enlaces haya a ella. [25] El sistema fue desarrollado con la ayuda de Scott Hassan y Alan Steremberg, quienes fueron citados por Page y Brin como críticos para el desarrollo de Google. [5] Rajeev Motwani y Terry Winograd fueron coautores con Page y Brin del primer artículo sobre el proyecto, que describe PageRank y el prototipo inicial del motor de búsqueda Google , publicado en 1998. [5] Poco después, Page y Brin fundaron Google Inc. . , la empresa detrás del buscador Google. Si bien es solo uno de los muchos factores que determinan la clasificación de los resultados de búsqueda de Google, el PageRank continúa proporcionando la base para todas las herramientas de búsqueda web de Google. [26]
El nombre "PageRank" juega con el nombre del desarrollador Larry Page, así como con el concepto de página web . [27] [28] La palabra es una marca registrada de Google y el proceso PageRank ha sido patentado ( patente estadounidense 6.285.999 ). Sin embargo, la patente está asignada a la Universidad de Stanford y no a Google. Google tiene derechos de licencia exclusivos sobre la patente de la Universidad de Stanford. La universidad recibió 1,8 millones de acciones de Google a cambio del uso de la patente; vendió las acciones en 2005 por 336 millones de dólares . [29] [30]
PageRank fue influenciado por el análisis de citas , desarrollado tempranamente por Eugene Garfield en la década de 1950 en la Universidad de Pensilvania, y por Hyper Search , desarrollado por Massimo Marchiori en la Universidad de Padua . El mismo año en que se introdujo el PageRank (1998), Jon Kleinberg publicó su trabajo en HITS . Los fundadores de Google citan a Garfield, Marchiori y Kleinberg en sus artículos originales. [5] [31]
El algoritmo PageRank genera una distribución de probabilidad que se utiliza para representar la probabilidad de que una persona que hace clic aleatoriamente en enlaces llegue a una página en particular. El PageRank se puede calcular para colecciones de documentos de cualquier tamaño. En varios artículos de investigación se supone que la distribución se divide uniformemente entre todos los documentos de la colección al comienzo del proceso computacional. Los cálculos de PageRank requieren varias pasadas, llamadas "iteraciones", a través de la colección para ajustar los valores aproximados de PageRank para reflejar más fielmente el valor verdadero teórico.
Una probabilidad se expresa como un valor numérico entre 0 y 1. Una probabilidad de 0,5 se expresa comúnmente como un "50% de probabilidad" de que algo suceda. Por lo tanto, un documento con un PageRank de 0,5 significa que hay un 50% de posibilidades de que una persona que haga clic en un enlace aleatorio sea dirigida a dicho documento.
Supongamos un pequeño universo de cuatro páginas web : A , B , C y D. Los enlaces de una página a sí misma se ignoran. Varios enlaces salientes de una página a otra se tratan como un solo enlace. PageRank se inicializa con el mismo valor para todas las páginas. En la forma original de PageRank, la suma del PageRank de todas las páginas era el número total de páginas en la web en ese momento, por lo que cada página en este ejemplo tendría un valor inicial de 1. Sin embargo, las versiones posteriores de PageRank y el En el resto de esta sección, supongamos una distribución de probabilidad entre 0 y 1. Por lo tanto, el valor inicial para cada página en este ejemplo es 0,25.
El PageRank transferido desde una página determinada a los destinos de sus enlaces salientes en la siguiente iteración se divide en partes iguales entre todos los enlaces salientes.
Si los únicos enlaces en el sistema fueran de las páginas B , C y D a A , cada enlace transferiría 0,25 PageRank a A en la siguiente iteración, para un total de 0,75.
Supongamos, en cambio, que la página B tuviera un enlace a las páginas C y A , la página C tuviera un enlace a la página A y la página D tuviera enlaces a las tres páginas. Por lo tanto, en la primera iteración, la página B transferiría la mitad de su valor existente (0,125) a la página A y la otra mitad (0,125) a la página C. La página C transferiría todo su valor existente (0,25) a la única página a la que enlaza , A. Como D tenía tres enlaces salientes, transferiría un tercio de su valor existente, o aproximadamente 0,083, a A. Al finalizar esta iteración, la página A tendrá un PageRank de aproximadamente 0,458.
En otras palabras, el PageRank conferido por un enlace saliente es igual a la puntuación de PageRank del propio documento dividida por el número de enlaces salientes L( ) .
En el caso general, el valor de PageRank para cualquier página u se puede expresar como:
es decir, el valor de PageRank para una página u depende de los valores de PageRank para cada página v contenida en el conjunto Bu (el conjunto que contiene todas las páginas que enlazan a la página u ), dividido por el número L ( v ) de enlaces de la página v .
La teoría del PageRank sostiene que un navegante imaginario que hace clic aleatoriamente en enlaces eventualmente dejará de hacer clic. La probabilidad, en cualquier paso, de que la persona continúe siguiendo enlaces es un factor amortiguador d . La probabilidad de que salten a cualquier página aleatoria es 1-d . Varios estudios han probado diferentes factores de amortiguación, pero generalmente se supone que el factor de amortiguación se establecerá alrededor de 0,85. [5]
El factor de amortiguación se resta de 1 (y en algunas variaciones del algoritmo, el resultado se divide por el número de documentos ( N ) en la colección) y este término luego se suma al producto del factor de amortiguación y la suma de los puntuaciones de PageRank entrantes. Eso es,
Por lo tanto, el PageRank de cualquier página se deriva en gran parte del PageRanks de otras páginas. El factor de amortiguación ajusta el valor derivado hacia abajo. Sin embargo, el artículo original daba la siguiente fórmula, lo que ha generado cierta confusión:
La diferencia entre ellos es que los valores de PageRank en la primera fórmula suman uno, mientras que en la segunda fórmula cada PageRank se multiplica por N y la suma se convierte en N. Una declaración en el artículo de Page y Brin de que "la suma de todos los PageRanks es uno" [5] y las afirmaciones de otros empleados de Google [32] respaldan la primera variante de la fórmula anterior.
Page y Brin confundieron las dos fórmulas en su artículo más popular "La anatomía de un motor de búsqueda web hipertextual a gran escala", donde afirmaron erróneamente que la última fórmula formaba una distribución de probabilidad entre las páginas web. [5]
Google recalcula las puntuaciones de PageRank cada vez que rastrea la Web y reconstruye su índice. A medida que Google aumenta la cantidad de documentos en su colección, la aproximación inicial del PageRank disminuye para todos los documentos.
La fórmula utiliza un modelo de un navegante aleatorio que llega a su sitio de destino después de varios clics y luego cambia a una página aleatoria. El valor de PageRank de una página refleja la posibilidad de que un navegante aleatorio llegue a esa página haciendo clic en un enlace. Puede entenderse como una cadena de Markov en la que los estados son páginas y las transiciones son enlaces entre páginas, todas las cuales son igualmente probables.
Si una página no tiene enlaces a otras páginas, se convierte en un sumidero y, por lo tanto, finaliza el proceso de navegación aleatoria. Si el navegante aleatorio llega a una página receptora, elige otra URL al azar y continúa navegando nuevamente.
Al calcular el PageRank, se supone que las páginas sin enlaces salientes enlazan con todas las demás páginas de la colección. Por lo tanto, sus puntuaciones de PageRank se dividen equitativamente entre todas las demás páginas. En otras palabras, para ser justos con las páginas que no son receptores, estas transiciones aleatorias se agregan a todos los nodos de la Web. Esta probabilidad residual, d , generalmente se establece en 0,85, estimada a partir de la frecuencia con la que un navegante promedio utiliza la función de marcadores de su navegador. Entonces, la ecuación es la siguiente:
donde están las páginas bajo consideración, es el conjunto de páginas que enlazan a , es el número de enlaces salientes en la página y es el número total de páginas.
Los valores de PageRank son las entradas del vector propio derecho dominante de la matriz de adyacencia modificada reescalada para que cada columna sume uno. Esto hace que el PageRank sea una métrica particularmente elegante: el vector propio es
donde R es la solución de la ecuación
donde la función de adyacencia es la relación entre el número de enlaces salientes de la página j a la página i y el número total de enlaces salientes de la página j. La función de adyacencia es 0 si la página no enlaza con y está normalizada de modo que, para cada j
es decir, los elementos de cada columna suman 1, por lo que la matriz es una matriz estocástica (para obtener más detalles, consulte la sección de cálculo a continuación). Por lo tanto, ésta es una variante de la medida de centralidad del vector propio utilizada comúnmente en el análisis de redes .
Debido al gran espacio propio de la matriz de adyacencia modificada anterior, [33] los valores del vector propio de PageRank se pueden aproximar con un alto grado de precisión en sólo unas pocas iteraciones.
Los fundadores de Google, en su artículo original, [31] informaron que el algoritmo PageRank para una red que consta de 322 millones de enlaces (dentro y fuera del borde) converge dentro de un límite tolerable en 52 iteraciones. La convergencia en una red de la mitad del tamaño anterior requirió aproximadamente 45 iteraciones. A través de estos datos, concluyeron que el algoritmo se puede escalar muy bien y que el factor de escala para redes extremadamente grandes sería aproximadamente lineal en , donde n es el tamaño de la red.
Como resultado de la teoría de Markov , se puede demostrar que el PageRank de una página es la probabilidad de llegar a esa página después de una gran cantidad de clics. Esto equivale a dónde está la expectativa de la cantidad de clics (o saltos aleatorios) necesarios para volver de la página a sí misma.
Una principal desventaja de PageRank es que favorece las páginas más antiguas. Una página nueva, incluso una muy buena, no tendrá muchos enlaces a menos que sea parte de un sitio existente (un sitio es un conjunto de páginas densamente conectadas, como Wikipedia ).
Se han propuesto varias estrategias para acelerar el cálculo del PageRank. [34]
Se han empleado varias estrategias para manipular el PageRank en esfuerzos concertados para mejorar la clasificación de los resultados de búsqueda y monetizar los enlaces publicitarios. Estas estrategias han afectado gravemente la confiabilidad del concepto PageRank, [ cita necesaria ] que pretende determinar qué documentos son realmente altamente valorados por la comunidad web.
Desde diciembre de 2007, cuando comenzó a penalizar activamente a los sitios que vendían enlaces de texto pagos, Google ha combatido las granjas de enlaces y otros esquemas diseñados para inflar artificialmente el PageRank. La forma en que Google identifica las granjas de enlaces y otras herramientas de manipulación del PageRank se encuentra entre los secretos comerciales de Google .
El PageRank se puede calcular de forma iterativa o algebraica. El método iterativo puede verse como el método de iteración de potencia [35] [36] o el método de potencia. Las operaciones matemáticas básicas realizadas son idénticas.
En , se supone una distribución de probabilidad inicial, generalmente
donde N es el número total de páginas y es la página i en el momento 0.
En cada paso de tiempo, el cálculo, como se detalla anteriormente, produce
donde d es el factor de amortiguación,
o en notación matricial
donde y es el vector columna de longitud que contiene solo unos.
La matriz se define como
es decir,
donde denota la matriz de adyacencia del gráfico y es la matriz diagonal con los grados exteriores en la diagonal.
El cálculo de probabilidad se realiza para cada página en un momento determinado y luego se repite para el siguiente momento. El cálculo finaliza cuando por algún pequeño
es decir, cuando se supone convergencia.
Si la matriz es una probabilidad de transición, es decir, estocástica de columna y es una distribución de probabilidad (es decir, donde está la matriz de todos unos), entonces la ecuación ( 2 ) es equivalente a
Por tanto, PageRank es el principal vector propio de . Una forma rápida y sencilla de calcular esto es utilizar el método de la potencia : comenzando con un vector arbitrario , el operador se aplica en sucesión, es decir,
hasta
Tenga en cuenta que en la ecuación ( 3 ) la matriz del lado derecho entre paréntesis se puede interpretar como
donde es una distribución de probabilidad inicial. en el caso actual
Finalmente, si tiene columnas con solo valores cero, deben reemplazarse con el vector de probabilidad inicial . En otras palabras,
donde la matriz se define como
con
En este caso, los dos cálculos anteriores solo dan el mismo PageRank si sus resultados están normalizados:
importar numpy como npdef pagerank ( M , d : float = 0.85 ): """Algoritmo PageRank con un número explícito de iteraciones. Devuelve la clasificación de nodos (páginas) en la matriz de adyacencia. Parámetros ---------- M: matriz de adyacencia de matriz numpy donde M_i,j representa el enlace de 'j' a 'i', de modo que para todos los 'j' suma(i, M_i,j) = 1 d: flotador, factor de amortiguación opcional, por defecto 0,85 Devuelve ------- matriz numpy un vector de rangos tal que v_i es el i-ésimo rango de [0, 1], """ N = M . forma [ 1 ] w = np . unos ( N ) / N M_hat = d * M v = M_hat @ w + ( 1 - d ) mientras ( np . linalg . norma ( w - v ) > = 1e-10 ): w = v v = M_sombrero @ w + ( 1 - d ) devolver vM = np . matriz ([[ 0 , 0 , 0 , 0 ], [ 0 , 0 , 0 , 0 ], [ 1 , 0.5 , 0 , 0 ], [ 0 , 0.5 , 1 , 0 ]]) v = pagerank ( M , 0,85 )
El PageRank de un gráfico no dirigido es estadísticamente cercano a la distribución de grados del gráfico , [37] pero generalmente no son idénticos: Si es el vector de PageRank definido anteriormente y es el vector de distribución de grados
donde denota el grado del vértice , y es el conjunto de aristas del gráfico, entonces, con , [38] muestra que:
es decir, el PageRank de un gráfico no dirigido es igual al vector de distribución de grados si y sólo si el gráfico es regular, es decir, cada vértice tiene el mismo grado.
Daugulis describió una generalización de PageRank para el caso de clasificar dos grupos de objetos que interactúan. [39] En aplicaciones puede ser necesario modelar sistemas que tengan objetos de dos tipos donde se define una relación ponderada en pares de objetos. Esto lleva a considerar gráficos bipartitos . Para tales gráficos se pueden definir dos matrices irreducibles positivas o no negativas relacionadas correspondientes a conjuntos de particiones de vértices. Se pueden calcular clasificaciones de objetos en ambos grupos como vectores propios correspondientes a los valores propios positivos máximos de estas matrices. Los vectores propios normados existen y son únicos según el teorema de Perron o Perron-Frobenius. Ejemplo: consumidores y productos. El peso de la relación es la tasa de consumo del producto.
Sarma et al. Describe dos algoritmos distribuidos basados en paseos aleatorios para calcular el PageRank de nodos en una red. [40] Un algoritmo realiza rondas con alta probabilidad en cualquier gráfico (dirigido o no dirigido), donde n es el tamaño de la red y es la probabilidad de reinicio ( , que se denomina factor de amortiguación) utilizada en el cálculo del PageRank. También presentan un algoritmo más rápido que realiza rondas en gráficos no dirigidos. En ambos algoritmos, cada nodo procesa y envía una cantidad de bits por ronda que son polilogarítmicos en n, el tamaño de la red.
La barra Google tuvo durante mucho tiempo una función de PageRank que mostraba el PageRank de una página visitada como un número entero entre 0 (menos popular) y 10 (más popular). Google no había revelado el método específico para determinar el valor del PageRank de la barra Google, que debía considerarse sólo una indicación aproximada del valor de un sitio web. El "Pagerank de la barra de herramientas" estaba disponible para los mantenedores de sitios verificados a través de la interfaz de Herramientas para webmasters de Google. Sin embargo, el 15 de octubre de 2009, un empleado de Google confirmó que la empresa había eliminado el PageRank de su sección Herramientas para webmasters y dijo: "Hemos estado diciendo a la gente durante mucho tiempo que no deberían centrarse tanto en el PageRank. Muchos sitios Los propietarios parecen pensar que es la métrica más importante que deben seguir, lo cual simplemente no es cierto". [41]
El "Pagerank de la barra de herramientas" se actualizaba con muy poca frecuencia. Se actualizó por última vez en noviembre de 2013. En octubre de 2014, Matt Cutts anunció que no vendría otra actualización visible del pagerank. [42] En marzo de 2016, Google anunció que ya no admitiría esta función y que la API subyacente pronto dejaría de funcionar. [43] El 15 de abril de 2016, Google desactivó la visualización de datos de PageRank en la barra de herramientas de Google, [44] aunque el PageRank continuó utilizándose internamente para clasificar el contenido en los resultados de búsqueda. [45]
La página de resultados del motor de búsqueda (SERP) es el resultado real devuelto por un motor de búsqueda en respuesta a una consulta de palabra clave. El SERP consta de una lista de enlaces a páginas web con fragmentos de texto asociados, anuncios pagados, fragmentos destacados y preguntas y respuestas. La clasificación SERP de una página web se refiere a la ubicación del enlace correspondiente en la SERP, donde una ubicación más alta significa una clasificación SERP más alta. El ranking SERP de una página web es una función no sólo de su PageRank, sino de un conjunto de factores relativamente grande y continuamente ajustado (más de 200). [46] [ ¿ fuente poco confiable? ] La optimización de motores de búsqueda (SEO) tiene como objetivo influir en la clasificación SERP de un sitio web o un conjunto de páginas web.
El posicionamiento de una página web en las SERP de Google para una palabra clave depende de la relevancia y la reputación, también conocida como autoridad y popularidad. PageRank es la indicación que hace Google de su evaluación de la reputación de una página web: no es específica de una palabra clave. Google utiliza una combinación de página web y autoridad del sitio web para determinar la autoridad general de una página web que compite por una palabra clave. [47] El PageRank de la página de inicio de un sitio web es la mejor indicación que ofrece Google sobre la autoridad del sitio web. [48]
Después de la introducción de Google Places en las principales SERP orgánicas, muchos otros factores, además del PageRank, afectan la clasificación de una empresa en los resultados de empresas locales. [49] Cuando Google explicó los motivos de la desaprobación de PageRank en la sesión de preguntas y respuestas de marzo de 2016, anunció los enlaces y el contenido como los principales factores de clasificación. RankBrain había sido anunciado a principios de octubre de 2015 como el factor de clasificación número 3, por lo que Google ha confirmado oficialmente los 3 factores principales. [50]
El PageRank del directorio de Google era una medida de 8 unidades. A diferencia de la barra de herramientas de Google, que muestra un valor de PageRank numérico al pasar el mouse sobre la barra verde, el Directorio de Google solo muestra la barra, nunca los valores numéricos. El Directorio de Google se cerró el 20 de julio de 2011. [51]
Se sabía que el PageRank mostrado en la barra de herramientas podía falsificarse fácilmente . La redirección de una página a otra, ya sea a través de una respuesta HTTP 302 o una metaetiqueta "Actualizar" , hacía que la página de origen adquiriera el PageRank de la página de destino. Por lo tanto, una página nueva con PR 0 y sin enlaces entrantes podría haber adquirido PR 10 al redirigir a la página de inicio de Google. La suplantación de identidad generalmente se puede detectar realizando una búsqueda en Google de una URL de origen; Si en los resultados se muestra la URL de un sitio completamente diferente, esta última URL puede representar el destino de una redirección.
Para fines de optimización de motores de búsqueda , algunas empresas ofrecen vender enlaces de alto PageRank a webmasters. [52] Como se cree que los enlaces de páginas de mayor PR son más valiosos, tienden a ser más caros. Puede ser una estrategia de marketing eficaz y viable comprar anuncios de enlaces en páginas de contenido de sitios relevantes y de calidad para generar tráfico y aumentar la popularidad de los enlaces de un webmaster. Sin embargo, Google ha advertido públicamente a los webmasters que si venden o se descubre que venden enlaces con el fin de conferir PageRank y reputación, sus enlaces se devaluarán (ignorados en el cálculo del PageRanks de otras páginas). La práctica de comprar y vender [53] es intensamente debatida en toda la comunidad de webmasters. Google recomendó a los webmasters que utilizaran el valor del atributo HTML nofollow en enlaces pagos. Según Matt Cutts , a Google le preocupan los webmasters que intentan engañar al sistema y, por tanto, reducir la calidad y relevancia de los resultados de búsqueda de Google. [52]
En 2019, Google ofreció un nuevo tipo de etiquetas que no superan el PageRank y, por lo tanto, no tienen valor para la manipulación de enlaces SEO: rel="ugc" como etiqueta para contenido generado por el usuario, como comentarios; y etiqueta rel="sponsored" para anuncios u otros tipos de contenido patrocinado. [54]
Aunque el PageRank se ha vuelto menos importante para fines de SEO, la existencia de vínculos de retroceso de sitios web más populares continúa elevando una página web en los rankings de búsqueda. [55]
Un navegante más inteligente que salta probabilísticamente de una página a otra dependiendo del contenido de las páginas y de los términos de consulta que busca el navegante. Este modelo se basa en una puntuación de PageRank dependiente de la consulta de una página que, como sugiere el nombre, también es una función de la consulta. Cuando se le da una consulta de múltiples términos, el navegante selecciona una de acuerdo con alguna distribución de probabilidad, y usa ese término para guiar su comportamiento durante una gran cantidad de pasos. Luego selecciona otro término según la distribución para determinar su comportamiento, y así sucesivamente. La distribución resultante sobre las páginas web visitadas es QD-PageRank. [56]
Katja Mayer ve el PageRank como una red social que conecta diferentes puntos de vista y pensamientos en un solo lugar. [57] La gente va a PageRank en busca de información y se ve inundada de citas de otros autores que también tienen una opinión sobre el tema. Esto crea un aspecto social donde todo se puede discutir y recopilar para provocar el pensamiento. Existe una relación social entre PageRank y las personas que lo usan, ya que se adapta y cambia constantemente a los cambios de la sociedad moderna. Ver la relación entre PageRank y el individuo a través de la sociometría permite una mirada en profundidad a la conexión resultante.
Matteo Pasquinelli [58] considera que la base de la creencia de que el PageRank tiene un componente social reside en la idea de economía de la atención . Con la economía de la atención, se otorga valor a los productos que reciben una mayor cantidad de atención humana y los resultados en la parte superior del PageRank obtienen una mayor atención que los de las páginas siguientes. Por lo tanto, los resultados con un PageRank más alto entrarán en mayor medida en la conciencia humana. Estas ideas pueden influir en la toma de decisiones y las acciones del espectador tienen una relación directa con el PageRank. Poseen un mayor potencial para atraer la atención del usuario ya que su ubicación aumenta la economía de atención asociada al sitio. Con esta ubicación podrán recibir más tráfico y su mercado online tendrá más compras. El PageRank de estos sitios les permite confiar en ellos y pueden aprovechar esta confianza para aumentar los negocios.
Las matemáticas de PageRank son completamente generales y se aplican a cualquier gráfico o red en cualquier dominio. Por lo tanto, el PageRank ahora se utiliza regularmente en bibliometría, análisis de redes sociales y de información, y para predicción y recomendación de enlaces. Se utiliza para el análisis de sistemas de redes de carreteras y en biología, química, neurociencia y física. [59]
PageRank se ha utilizado para cuantificar el impacto científico de los investigadores. Las redes subyacentes de citas y colaboración se utilizan junto con el algoritmo de pagerank para crear un sistema de clasificación para publicaciones individuales que se propague a autores individuales. Se ha demostrado que el nuevo índice conocido como índice de pagerank (Pi) es más justo en comparación con el índice h en el contexto de muchos inconvenientes que presenta el índice h. [60]
Para el análisis de redes de proteínas en biología, PageRank también es una herramienta útil. [61] [62]
En cualquier ecosistema, se puede utilizar una versión modificada de PageRank para determinar las especies que son esenciales para la salud continua del medio ambiente. [63]
Un uso similar más nuevo de PageRank es clasificar los programas académicos de doctorado en función de sus registros de colocación de sus graduados en puestos docentes. En términos de PageRank, los departamentos académicos se vinculan entre sí contratando a sus profesores entre sí (y a ellos mismos). [64]
Recientemente se propuso una versión de PageRank como reemplazo del factor de impacto tradicional del Instituto de Información Científica (ISI) , [65] y se implementó tanto en Eigenfactor como en SCImago . En lugar de simplemente contar el total de citas de una revista, la "importancia" de cada cita se determina según el PageRank.
En neurociencia , se ha descubierto que el PageRank de una neurona en una red neuronal se correlaciona con su tasa de activación relativa. [66]
Twitter utiliza el PageRank personalizado para presentar a los usuarios otras cuentas que quizás deseen seguir. [67]
El producto de búsqueda de sitios de Swiftype crea un "PageRank específico para sitios web individuales" al observar las señales de importancia de cada sitio web y priorizar el contenido en función de factores como la cantidad de enlaces desde la página de inicio. [68]
Un rastreador web puede utilizar PageRank como una de las métricas de importancia que utiliza para determinar qué URL visitar durante un rastreo de la web. Uno de los primeros documentos de trabajo [69] que se utilizaron en la creación de Google es Rastreo eficiente a través del ordenamiento de URL , [70] que analiza el uso de una serie de métricas de importancia diferentes para determinar qué tan profundamente y en qué medida un sitio Google se arrastrará. PageRank se presenta como una de varias de estas métricas de importancia, aunque se enumeran otras, como la cantidad de enlaces entrantes y salientes para una URL y la distancia desde el directorio raíz de un sitio hasta la URL.
El PageRank también se puede utilizar como metodología para medir el impacto aparente de una comunidad como la Blogósfera en la propia Web en general. Por lo tanto, este enfoque utiliza el PageRank para medir la distribución de la atención en reflejo del paradigma de red libre de escala . [ cita necesaria ]
En 2005, en un estudio piloto en Pakistán, Structural Deep Democracy, SD2 [71] [72] se utilizó para la selección de líderes en un grupo de agricultura sostenible llamado Contact Youth. SD2 utiliza PageRank para el procesamiento de los votos por poder transitivo, con las restricciones adicionales de exigir al menos dos poderes iniciales por votante, y todos los votantes son candidatos por poder. Se pueden construir variantes más complejas sobre SD2, como agregar representantes especializados y votos directos para temas específicos, pero SD2, como sistema general subyacente, exige que siempre se deben utilizar representantes generalistas.
En el deporte, el algoritmo PageRank se ha utilizado para clasificar el rendimiento de: equipos de la National Football League (NFL) de EE.UU.; [73] jugadores de fútbol individuales; [74] y atletas de la Liga Diamante. [75]
PageRank se ha utilizado para clasificar espacios o calles para predecir cuántas personas (peatones o vehículos) llegan a esos espacios o calles individuales. [76] [77] En semántica léxica , se ha utilizado para realizar la desambiguación del sentido de las palabras , [78] similitud semántica , [79] y también para clasificar automáticamente los conjuntos sintéticos de WordNet según la fuerza con la que poseen una propiedad semántica determinada, como la positividad o negatividad. [80]
La forma en que un sistema de tráfico cambia su modo operativo se puede describir mediante transiciones entre estados cuasi estacionarios en estructuras de correlación del flujo de tráfico. PageRank se ha utilizado para identificar y explorar los estados dominantes entre estos estados cuasi estacionarios en los sistemas de tráfico. [81]
A principios de 2005, Google implementó un nuevo valor, " nofollow ", [82] para el atributo rel de los elementos de enlace y ancla HTML, de modo que los desarrolladores de sitios web y los bloggers puedan crear enlaces que Google no considerará para los fines del PageRank; son enlaces que ya no constituyen un "voto" en el sistema PageRank. La relación nofollow se agregó en un intento de ayudar a combatir el spamdexing .
Por ejemplo, anteriormente las personas podían crear muchas publicaciones en foros con enlaces a su sitio web para inflar artificialmente su PageRank. Con el valor nofollow, los administradores del tablero de mensajes pueden modificar su código para insertar automáticamente "rel='nofollow'" en todos los hipervínculos de las publicaciones, evitando así que el PageRank se vea afectado por esas publicaciones en particular. Sin embargo, este método de evasión también tiene varios inconvenientes, como reducir el valor del enlace de los comentarios legítimos. (Ver: Spam en blogs#nofollow )
En un esfuerzo por controlar manualmente el flujo de PageRank entre las páginas de un sitio web, muchos webmasters practican lo que se conoce como PageRank Sculpting [83] , que es el acto de colocar estratégicamente el atributo nofollow en ciertos enlaces internos de un sitio web para canalizar PageRank hacia aquellas páginas que el webmaster consideró más importantes. Esta táctica se ha utilizado desde el inicio del atributo nofollow, pero puede que ya no sea efectiva desde que Google anunció que bloquear la transferencia de PageRank con nofollow no redirige ese PageRank a otros enlaces. [84]