PageRank

PageRank ( PR ) es un algoritmo que utiliza Google Search para clasificar las páginas web en los resultados de búsqueda . Su nombre hace referencia tanto al término "página web" como al cofundador Larry Page . PageRank es una forma de medir la importancia de las páginas de un sitio web. Según Google:

PageRank funciona contando la cantidad y la calidad de los enlaces a una página para determinar una estimación aproximada de la importancia del sitio web. La suposición subyacente es que los sitios web más importantes tienen más probabilidades de recibir enlaces de otros sitios web. ^[1]

Actualmente, PageRank no es el único algoritmo utilizado por Google para ordenar los resultados de búsqueda, pero sí es el primer algoritmo que utilizó la compañía, y es el más conocido. ^[2]^[3] A partir del 24 de septiembre de 2019, todas las patentes asociadas con PageRank han expirado. ^[4]

Descripción

PageRank es un algoritmo de análisis de enlaces que asigna una ponderación numérica a cada elemento de un conjunto de documentos hipervinculados , como la World Wide Web , con el fin de "medir" su importancia relativa dentro del conjunto. El algoritmo se puede aplicar a cualquier conjunto de entidades con citas y referencias recíprocas . El peso numérico que asigna a cualquier elemento E se denomina PageRank de E y se denota por $PR(E).$

El PageRank es el resultado de un algoritmo matemático basado en el webgraph , creado por todas las páginas de la World Wide Web como nodos e hipervínculos como bordes, teniendo en cuenta centros de autoridad como cnn.com o mayoclinic.org . El valor del ranking indica la importancia de una página en particular. Un hipervínculo a una página cuenta como un voto de apoyo. El PageRank de una página se define de forma recursiva y depende del número y la métrica PageRank de todas las páginas que enlazan a ella (" enlaces entrantes "). Una página que está enlazada por muchas páginas con un PageRank alto recibe un ranking alto por sí misma.

Desde el artículo original de Page y Brin se han publicado numerosos artículos académicos sobre PageRank. ^[5] En la práctica, el concepto de PageRank puede ser vulnerable a la manipulación. Se han llevado a cabo investigaciones para identificar clasificaciones de PageRank falsamente influenciadas. El objetivo es encontrar un medio eficaz para ignorar los enlaces de documentos con PageRank falsamente influenciado. ^[6]

Otros algoritmos de clasificación basados en enlaces para páginas web incluyen el algoritmo HITS inventado por Jon Kleinberg (utilizado por Teoma y ahora Ask.com ), el proyecto IBM CLEVER , el algoritmo TrustRank , el algoritmo Hummingbird , ^[7] y el algoritmo SALSA . ^[8]

Historia

El problema del valor propio detrás del algoritmo PageRank fue redescubierto de forma independiente y reutilizado en muchos problemas de puntuación. En 1895, Edmund Landau sugirió usarlo para determinar el ganador de un torneo de ajedrez. ^[9]^[10] El problema del valor propio también fue sugerido en 1976 por Gabriel Pinski y Francis Narin, quienes trabajaron en la clasificación de revistas científicas mediante cienciometría , ^[11] en 1977 por Thomas Saaty en su concepto de Proceso Analítico Jerárquico que ponderaba las opciones alternativas, ^[12] y en 1995 por Bradley Love y Steven Sloman como un modelo cognitivo para conceptos, el algoritmo de centralidad. ^[13]^[14]

Un motor de búsqueda llamado " RankDex " de IDD Information Services, diseñado por Robin Li en 1996, desarrolló una estrategia para la puntuación de sitios y la clasificación de páginas. ^[15] Li se refirió a su mecanismo de búsqueda como "análisis de enlaces", que implicaba clasificar la popularidad de un sitio web en función de cuántos otros sitios lo habían enlazado. ^[16] RankDex, el primer motor de búsqueda con algoritmos de clasificación de páginas y puntuación de sitios, se lanzó en 1996. ^[17] Li presentó una patente para la tecnología de RankDex en 1997; le fue concedida en 1999. ^[18] Más tarde la utilizó cuando fundó Baidu en China en 2000. ^[19]^[20] El fundador de Google, Larry Page, hizo referencia al trabajo de Li como cita en algunas de sus patentes estadounidenses para PageRank. ^[21]^[17]^[22]

Larry Page y Sergey Brin desarrollaron PageRank en la Universidad de Stanford en 1996 como parte de un proyecto de investigación sobre un nuevo tipo de motor de búsqueda. Una entrevista con Héctor García-Molina , profesor de Ciencias de la Computación de Stanford y asesor de Sergey, ^[23] proporciona antecedentes sobre el desarrollo del algoritmo PageRank. ^[24] Sergey Brin tuvo la idea de que la información en la web podría ordenarse en una jerarquía por "popularidad de enlaces": una página se clasifica más alto cuanto más enlaces haya a ella. ^[25] El sistema fue desarrollado con la ayuda de Scott Hassan y Alan Steremberg, ambos citados por Page y Brin como críticos para el desarrollo de Google. ^[5] Rajeev Motwani y Terry Winograd fueron coautores con Page y Brin del primer artículo sobre el proyecto, que describe PageRank y el prototipo inicial del motor de búsqueda Google , publicado en 1998. ^[5] Poco después, Page y Brin fundaron Google Inc. , la empresa detrás del motor de búsqueda Google. Si bien es solo uno de los muchos factores que determinan la clasificación de los resultados de búsqueda de Google, PageRank continúa proporcionando la base para todas las herramientas de búsqueda web de Google. ^[26]

El nombre "PageRank" hace referencia al nombre del desarrollador Larry Page, así como al concepto de una página web . ^[27]^[28] La palabra es una marca registrada de Google, y el proceso PageRank ha sido patentado ( patente estadounidense 6.285.999 ). Sin embargo, la patente está asignada a la Universidad de Stanford y no a Google. Google tiene derechos de licencia exclusivos sobre la patente de la Universidad de Stanford. La universidad recibió 1,8 millones de acciones de Google a cambio del uso de la patente; vendió las acciones en 2005 por 336 millones de dólares . ^[29]^[30]

PageRank fue influenciado por el análisis de citas , desarrollado por Eugene Garfield en la década de 1950 en la Universidad de Pensilvania, y por Hyper Search , desarrollado por Massimo Marchiori en la Universidad de Padua . En el mismo año en que se introdujo PageRank (1998), Jon Kleinberg publicó su trabajo en HITS . Los fundadores de Google citan a Garfield, Marchiori y Kleinberg en sus artículos originales. ^[5]^[31]

Algoritmo

El algoritmo PageRank genera una distribución de probabilidad que se utiliza para representar la probabilidad de que una persona que haga clic al azar en enlaces llegue a una página determinada. El PageRank se puede calcular para colecciones de documentos de cualquier tamaño. En varios artículos de investigación se supone que la distribución se divide de manera uniforme entre todos los documentos de la colección al comienzo del proceso computacional. Los cálculos de PageRank requieren varias pasadas, llamadas "iteraciones", a través de la colección para ajustar los valores aproximados de PageRank para que reflejen más fielmente el valor teórico real.

Una probabilidad se expresa como un valor numérico entre 0 y 1. Una probabilidad de 0,5 se expresa comúnmente como una "posibilidad del 50 %" de que algo suceda. Por lo tanto, un documento con un PageRank de 0,5 significa que hay un 50 % de posibilidades de que una persona que haga clic en un enlace aleatorio sea dirigida a dicho documento.

Algoritmo simplificado

Supongamos un universo pequeño de cuatro páginas web: A , B , C y D. Los enlaces de una página a sí misma se ignoran. Los enlaces salientes múltiples de una página a otra se tratan como un solo enlace. El PageRank se inicializa con el mismo valor para todas las páginas. En la forma original de PageRank, la suma del PageRank de todas las páginas era el número total de páginas en la web en ese momento, por lo que cada página en este ejemplo tendría un valor inicial de 1. Sin embargo, las versiones posteriores de PageRank y el resto de esta sección suponen una distribución de probabilidad entre 0 y 1. Por lo tanto, el valor inicial para cada página en este ejemplo es 0,25.

El PageRank transferido desde una página determinada a los destinos de sus enlaces salientes en la siguiente iteración se divide equitativamente entre todos los enlaces salientes.

Si los únicos enlaces en el sistema fueran de las páginas B , C y D a A , cada enlace transferiría 0,25 PageRank a A en la siguiente iteración, para un total de 0,75.

PR(A)=PR(B)+PR(C)+PR(D).\,

Supongamos, en cambio, que la página B tuviera un enlace a las páginas C y A , la página C tuviera un enlace a la página A y la página D tuviera enlaces a las tres páginas. Por lo tanto, en la primera iteración, la página B transferiría la mitad de su valor existente (0,125) a la página A y la otra mitad (0,125) a la página C. La página C transferiría todo su valor existente (0,25) a la única página a la que enlaza, A. Como D tenía tres enlaces salientes, transferiría un tercio de su valor existente, o aproximadamente 0,083, a A. Al finalizar esta iteración, la página A tendrá un PageRank de aproximadamente 0,458.

PR(A)={\frac {PR(B)}{2}}+{\frac {PR(C)}{1}}+{\frac {PR(D)}{3}}.\,

En otras palabras, el PageRank conferido por un enlace saliente es igual a la puntuación PageRank del propio documento dividida por el número de enlaces salientes L() .

PR(A)={\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L(C)}}+{\frac {PR(D) {L(D)}}.\,

En el caso general, el valor de PageRank para cualquier página u se puede expresar como:

PR(u)=\sum _{v\in B_{u}}{\frac {PR(v)}{L(v)}}

es decir, el valor de PageRank para una página u depende de los valores de PageRank para cada página v contenida en el conjunto B _u (el conjunto que contiene todas las páginas que enlazan a la página u ), dividido por el número L ( v ) de enlaces de la página v .

Factor de amortiguamiento

La teoría del PageRank sostiene que un internauta imaginario que hace clic en enlaces al azar acabará dejando de hacerlo. La probabilidad, en cualquier momento, de que la persona siga haciendo clic en enlaces es un factor de amortiguación d . La probabilidad de que, en cambio, salte a cualquier página al azar es 1 - d . Varios estudios han probado diferentes factores de amortiguación, pero en general se supone que el factor de amortiguación se establecerá en torno a 0,85. ^[5]

El factor de amortiguación se resta de 1 (y en algunas variaciones del algoritmo, el resultado se divide por la cantidad de documentos ( N ) en la colección) y luego este término se agrega al producto del factor de amortiguación y la suma de las puntuaciones de PageRank entrantes. Es decir,

PR(A)={1-d \sobre N}+d\left({\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L(C)}}+{\frac {PR(D)}{L(D)}}+\,\cdots \right).

Por lo tanto, el PageRank de cualquier página se deriva en gran parte del PageRank de otras páginas. El factor de amortiguación ajusta el valor derivado hacia abajo. Sin embargo, el artículo original proporcionaba la siguiente fórmula, que ha provocado cierta confusión:

PR(A)=1-d+d\left({\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L(C)}}+{\frac {PR(D)}{L(D)}}+\,\cdots \right).

La diferencia entre ellos es que los valores de PageRank en la primera fórmula suman uno, mientras que en la segunda fórmula cada PageRank se multiplica por N y la suma se convierte en N. Una afirmación en el artículo de Page y Brin de que "la suma de todos los PageRanks es uno" ^[5] y las afirmaciones de otros empleados de Google ^[32] respaldan la primera variante de la fórmula anterior.

Page y Brin confundieron las dos fórmulas en su artículo más popular "La anatomía de un motor de búsqueda web hipertextual a gran escala", donde afirmaron erróneamente que la última fórmula formaba una distribución de probabilidad sobre las páginas web. ^[5]

Google recalcula las puntuaciones de PageRank cada vez que rastrea la Web y reconstruye su índice. A medida que Google aumenta la cantidad de documentos en su colección, la aproximación inicial de PageRank disminuye para todos los documentos.

La fórmula utiliza un modelo de un internauta aleatorio que llega a su sitio de destino después de varios clics y luego cambia a una página aleatoria. El valor de PageRank de una página refleja la probabilidad de que el internauta aleatorio llegue a esa página haciendo clic en un enlace. Se puede entender como una cadena de Markov en la que los estados son páginas y las transiciones son los enlaces entre páginas, todos los cuales son igualmente probables.

Si una página no tiene enlaces a otras páginas, se convierte en un sumidero y, por lo tanto, finaliza el proceso de navegación aleatoria. Si el navegante aleatorio llega a una página sumidero, elige otra URL al azar y continúa navegando nuevamente.

Al calcular el PageRank, se supone que las páginas sin enlaces salientes enlazan a todas las demás páginas de la colección. Por lo tanto, sus puntuaciones de PageRank se dividen de manera uniforme entre todas las demás páginas. En otras palabras, para ser justos con las páginas que no son sumideros, estas transiciones aleatorias se suman a todos los nodos de la Web. Esta probabilidad residual, d , se establece normalmente en 0,85, y se calcula a partir de la frecuencia con la que un internauta medio utiliza la función de marcadores de su navegador. Por tanto, la ecuación es la siguiente:

PR(p_{i})={\frac {1-d}{N}}+d\sum _{p_{j}\in M(p_{i})}{\frac {PR(p_{j})}{L(p_{j})}}

donde están las páginas en consideración, es el conjunto de páginas que enlazan a , es el número de enlaces salientes en la página y es el número total de páginas. $p_{1},p_{2},...,p_{N}$ $M(p_{i})$ $estilo de visualización p_{i}}$ $L(p_{j})$ $estilo de visualización p_ {j}}$ ${\estilo de visualización N}$

Los valores de PageRank son las entradas del vector propio dominante derecho de la matriz de adyacencia modificada reescalada de modo que cada columna sume uno. Esto hace que PageRank sea una métrica particularmente elegante: el vector propio es

\mathbf {R} ={\begin{bmatrix}PR(p_{1})\\PR(p_{2})\\\vdots \\PR(p_{N})\end{bmatrix}}

donde R es la solución de la ecuación

\mathbf {R} ={\begin{bmatrix}{(1-d)/N}\\{(1-d)/N}\\\vdots \\{(1-d)/N} \end{bmatrix}}+d{\begin{bmatrix}\ell (p_{1},p_{1})&\ell (p_{1},p_{2})&\cdots &\ell (p_{ 1},p_{N})\\\ell (p_{2},p_{1})&\ddots &&\vdots \\\vdots &&\ell (p_{i},p_{j})&\\ \ell (p_{N},p_{1})&\cdots &&\ell (p_{N},p_{N})\end{bmatrix}}\mathbf {R}

donde la función de adyacencia es la relación entre el número de enlaces salientes de la página j a la página i y el número total de enlaces salientes de la página j. La función de adyacencia es 0 si la página no enlaza a , y se normaliza de modo que, para cada j $\ell(p_{i},p_{j})$ $estilo de visualización p_ {j}}$ $estilo de visualización p_{i}}$

\suma _{i=1}^{N}\ell (p_{i},p_{j})=1

es decir, los elementos de cada columna suman 1, por lo que la matriz es una matriz estocástica (para más detalles, consulte la sección de cálculo a continuación). Por lo tanto, se trata de una variante de la medida de centralidad de vector propio que se utiliza comúnmente en el análisis de redes .

Debido a la gran brecha propia de la matriz de adyacencia modificada anterior, ^[33] los valores del vector propio de PageRank se pueden aproximar con un alto grado de precisión en solo unas pocas iteraciones.

Los fundadores de Google, en su artículo original, ^[31] informaron que el algoritmo PageRank para una red que consta de 322 millones de enlaces (en los bordes de entrada y de salida) converge dentro de un límite tolerable en 52 iteraciones. La convergencia en una red de la mitad del tamaño anterior tomó aproximadamente 45 iteraciones. A través de estos datos, concluyeron que el algoritmo se puede escalar muy bien y que el factor de escala para redes extremadamente grandes sería aproximadamente lineal en , donde n es el tamaño de la red. $\log n$

Como resultado de la teoría de Markov , se puede demostrar que el PageRank de una página es la probabilidad de llegar a esa página después de una gran cantidad de clics. Esto resulta ser igual a donde es la expectativa de la cantidad de clics (o saltos aleatorios) necesarios para volver de la página a sí misma. $estilo de visualización t-1$ ${\estilo de visualización t}$

Una de las principales desventajas del PageRank es que favorece a las páginas más antiguas. Una página nueva, incluso una muy buena, no tendrá muchos enlaces a menos que sea parte de un sitio existente (un sitio es un conjunto de páginas densamente conectadas, como Wikipedia ).

Se han propuesto varias estrategias para acelerar el cálculo de PageRank. ^[34]

Se han empleado diversas estrategias para manipular el PageRank en un esfuerzo concertado por mejorar la clasificación de los resultados de búsqueda y monetizar los enlaces publicitarios. Estas estrategias han afectado gravemente a la fiabilidad del concepto PageRank, ^{[ cita requerida ]} que pretende determinar qué documentos son realmente muy valorados por la comunidad web.

Desde diciembre de 2007, cuando comenzó a penalizar activamente los sitios que vendían enlaces de texto pagos, Google ha combatido las granjas de enlaces y otros esquemas diseñados para inflar artificialmente el PageRank. La forma en que Google identifica las granjas de enlaces y otras herramientas de manipulación del PageRank es uno de los secretos comerciales de Google .

Cálculo

El PageRank se puede calcular de forma iterativa o algebraica. El método iterativo se puede considerar como el método de iteración de potencia ^[35]^[36] o el método de potencia. Las operaciones matemáticas básicas que se realizan son idénticas.

Iterativo

En , se supone una distribución de probabilidad inicial, normalmente ${\estilo de visualización t=0}$

PR(p_{i};0)={\frac {1}{N}}

donde N es el número total de páginas y es la página i en el tiempo 0. $estilo de visualización p_{i};0}$

En cada paso de tiempo, el cálculo, como se detalla anteriormente, arroja

PR(p_{i};t+1)={\frac {1-d}{N}}+d\sum _{p_{j}\in M(p_{i})}{\frac {PR(p_{j};t)}{L(p_{j})}}

donde d es el factor de amortiguamiento,

o en notación matricial

donde y es el vector columna de longitud que contiene solo unos. $\mathbf {R} _{i}(t)=PR(p_{i};t)$ $\mathbf {1}$ $N$

La matriz se define como ${\mathcal {M}}$

{\mathcal {M}}_{ij}={\begin{cases}1/L(p_{j}),&{\mbox{if }}j{\mbox{ links to }}i\ \\0,&{\mbox{otherwise}}\end{cases}}

es decir,

{\mathcal {M}}:=(K^{-1}A)^{T}

donde denota la matriz de adyacencia del gráfico y es la matriz diagonal con los grados de salida en la diagonal. $A$ $K$

El cálculo de probabilidad se realiza para cada página en un momento determinado y luego se repite para el siguiente momento. El cálculo finaliza cuando, por alguna pequeña razón, $\epsilon$

|\mathbf {R} (t+1)-\mathbf {R} (t)|<\epsilon

es decir, cuando se supone convergencia.

Método de potencia

Si la matriz es una probabilidad de transición, es decir, estocástica de columna y es una distribución de probabilidad (es decir, , donde es una matriz de todos los unos), entonces la ecuación ( 2 ) es equivalente a ${\mathcal {M}}$ $\mathbf {R}$ $|\mathbf {R} |=1$ $\mathbf {E} \mathbf {R} =\mathbf {1}$ $\mathbf {E}$

Por lo tanto, PageRank es el vector propio principal de . Una forma rápida y sencilla de calcularlo es mediante el método de potencia : comenzando con un vector arbitrario , se aplica el operador en sucesión, es decir, $\mathbf {R}$ ${\widehat {\mathcal {M}}}$ $x(0)$ ${\widehat {\mathcal {M}}}$

x(t+1)={\widehat {\mathcal {M}}}x(t)

hasta

|x(t+1)-x(t)|<\epsilon

Nótese que en la ecuación ( 3 ) la matriz del lado derecho entre paréntesis se puede interpretar como

{\frac {1-d}{N}}\mathbf {E} =(1-d)\mathbf {P} \mathbf {1} ^{t}

donde es una distribución de probabilidad inicial. n el caso actual $\mathbf {P}$

\mathbf {P} :={\frac {1}{N}}\mathbf {1}

Por último, si tiene columnas con solo valores cero, se deben reemplazar con el vector de probabilidad inicial . En otras palabras, ${\mathcal {M}}$ $\mathbf {P}$

{\mathcal {M}}^{\prime }:={\mathcal {M}}+{\mathcal {D}}

donde la matriz se define como ${\mathcal {D}}$

{\mathcal {D}}:=\mathbf {P} \mathbf {D} ^{t}

con

\mathbf {D} _{i}={\begin{cases}1,&{\mbox{if }}L(p_{i})=0\ \\0,&{\mbox{otherwise}}\end{cases}}

En este caso, los dos cálculos anteriores solo dan el mismo PageRank si sus resultados están normalizados: ${\mathcal {M}}$

\mathbf {R} _{\textrm {power}}={\frac {\mathbf {R} _{\textrm {iterative}}}{|\mathbf {R} _{\textrm {iterative}}|}}={\frac {\mathbf {R} _{\textrm {algebraic}}}{|\mathbf {R} _{\textrm {algebraic}}|}}

Implementación

Pitón

importar  numpy  como  npdef  pagerank ( M ,  d :  float  =  0.85 ): """Algoritmo PageRank con número explícito de iteraciones. Devuelve la clasificación de los nodos (páginas) en la matriz de adyacencia.  Parámetros  ----------  M: matriz de adyacencia de matriz numpy  donde M_i,j representa el vínculo de 'j' a 'i', de modo que para todos los 'j'  suma(i, M_i,j) = 1  d: flotante, factor de amortiguamiento opcional  , por defecto 0,85 Devuelve  ------- una  matriz numpy  de un vector de rangos tales que v_i es el i-ésimo rango de [0, 1], """  N  =  M . forma [ 1 ]  w  =  np . unos ( N )  /  N  M_sombrero  =  d  *  M  v  =  M_sombrero  @  w  +  ( 1  -  d )  mientras ( np . linalg . norma ( w  -  v )  >=  1e-10 ):  w  =  v  v  =  M_sombrero  @  w  +  ( 1  -  d )  devolver  vM  =  np . matriz ([[ 0 ,  0 ,  0 ,  0 ],  [ 0 ,  0 ,  0 ,  0 ],  [ 1 ,  0.5 ,  0 ,  0 ],  [ 0 ,  0.5 ,  1 ,  0 ]]) v  =  pagerank ( M ,  0.85 )

Variaciones

PageRank de un gráfico no dirigido

El PageRank de un gráfico no dirigido es estadísticamente cercano a la distribución de grados del gráfico , ^[37] pero generalmente no son idénticos: Si es el vector de PageRank definido anteriormente, y es el vector de distribución de grados $G$ $G$ $R$ $D$

D={1 \over 2|E|}{\begin{bmatrix}\deg(p_{1})\\\deg(p_{2})\\\vdots \\\deg(p_{N})\end{bmatrix}}

donde denota el grado del vértice , y es el conjunto de aristas del gráfico, entonces, con , ^[38] muestra que: $\deg(p_{i})$ $p_{i}$ $E$ $Y={1 \over N}\mathbf {1}$

${1-d \over 1+d}\|Y-D\|_{1}\leq \|R-D\|_{1}\leq \|Y-D\|_{1},$

es decir, el PageRank de un gráfico no dirigido es igual al vector de distribución de grados si y solo si el gráfico es regular, es decir, cada vértice tiene el mismo grado.

Clasificación de objetos de dos tipos

Daugulis describió una generalización de PageRank para el caso de la clasificación de dos grupos de objetos que interactúan. ^[39] En las aplicaciones puede ser necesario modelar sistemas que tengan objetos de dos tipos donde se defina una relación ponderada en pares de objetos. Esto lleva a considerar grafos bipartitos . Para tales grafos se pueden definir dos matrices irreducibles positivas o no negativas relacionadas correspondientes a conjuntos de particiones de vértices. Se pueden calcular clasificaciones de objetos en ambos grupos como vectores propios correspondientes a los valores propios positivos máximos de estas matrices. Los vectores propios normalizados existen y son únicos por el teorema de Perron o Perron-Frobenius. Ejemplo: consumidores y productos. El peso de la relación es la tasa de consumo del producto.

Algoritmo distribuido para el cálculo de PageRank

Sarma et al. describen dos algoritmos distribuidos basados en recorridos aleatorios para calcular el PageRank de los nodos de una red. ^[40] Un algoritmo realiza rondas con alta probabilidad en cualquier gráfico (dirigido o no dirigido), donde n es el tamaño de la red y es la probabilidad de reinicio ( , que se denomina factor de amortiguamiento) utilizada en el cálculo del PageRank. También presentan un algoritmo más rápido que realiza rondas en gráficos no dirigidos. En ambos algoritmos, cada nodo procesa y envía una cantidad de bits por ronda que son polilogarítmicos en n, el tamaño de la red. $O(\log n/\epsilon )$ $\epsilon$ $1-\epsilon$ $O({\sqrt {\log n}}/\epsilon )$

Barra de herramientas de Google

La barra de herramientas de Google contaba desde hacía tiempo con una función PageRank que mostraba el PageRank de una página visitada como un número entero entre 0 (menos popular) y 10 (más popular). Google no había revelado el método específico para determinar el valor del PageRank de la barra de herramientas, que debía considerarse sólo como una indicación aproximada del valor de un sitio web. El "PageRank de la barra de herramientas" estaba disponible para los mantenedores de sitios verificados a través de la interfaz de Herramientas para webmasters de Google. Sin embargo, el 15 de octubre de 2009, un empleado de Google confirmó que la empresa había eliminado el PageRank de su sección de Herramientas para webmasters , diciendo que "hemos estado diciendo a la gente durante mucho tiempo que no deberían centrarse tanto en el PageRank. Muchos propietarios de sitios parecen pensar que es la métrica más importante que deben seguir, lo que simplemente no es cierto". ^[41]

El "PageRank de la barra de herramientas" se actualizaba con muy poca frecuencia. La última actualización se realizó en noviembre de 2013. En octubre de 2014, Matt Cutts anunció que no se realizaría otra actualización visible del PageRank. ^[42] En marzo de 2016, Google anunció que ya no admitiría esta función y que la API subyacente pronto dejaría de funcionar. ^[43] El 15 de abril de 2016, Google desactivó la visualización de los datos del PageRank en la barra de herramientas de Google, ^[44] aunque el PageRank siguió utilizándose internamente para clasificar el contenido en los resultados de búsqueda. ^[45]

Posicionamiento SERP

La página de resultados del motor de búsqueda (SERP) es el resultado real devuelto por un motor de búsqueda en respuesta a una consulta de palabras clave. La SERP consiste en una lista de enlaces a páginas web con fragmentos de texto asociados, anuncios pagos, fragmentos destacados y preguntas y respuestas. El ranking SERP de una página web se refiere a la ubicación del enlace correspondiente en el SERP, donde una ubicación más alta significa un ranking SERP más alto. El ranking SERP de una página web es una función no solo de su PageRank, sino de un conjunto relativamente grande y continuamente ajustado de factores (más de 200). ^[46]^{[ ¿ fuente poco confiable? ]} La optimización de motores de búsqueda (SEO) tiene como objetivo influir en el ranking SERP de un sitio web o un conjunto de páginas web.

El posicionamiento de una página web en los resultados de búsqueda de Google para una palabra clave depende de la relevancia y la reputación, también conocidas como autoridad y popularidad. El PageRank es el indicador que Google utiliza para evaluar la reputación de una página web: no es específico de una palabra clave. Google utiliza una combinación de la autoridad de la página web y del sitio web para determinar la autoridad general de una página web que compite por una palabra clave. ^[47] El PageRank de la página de inicio de un sitio web es el mejor indicador que ofrece Google para la autoridad del sitio web. ^[48]

Después de la introducción de Google Places en los resultados de búsqueda orgánicos, muchos otros factores además del PageRank afectan la clasificación de una empresa en los resultados de negocios locales. ^[49] Cuando Google explicó las razones de la depreciación del PageRank en la sesión de preguntas y respuestas de marzo de 2016, anunció que los enlaces y el contenido eran los principales factores de clasificación. En octubre de 2015, RankBrain había sido anunciado como el tercer factor de clasificación, por lo que Google confirmó oficialmente los tres factores principales. ^[50]

PageRank del directorio de Google

El PageRank del Directorio de Google era una medida de 8 unidades. A diferencia de la Barra de herramientas de Google, que muestra un valor numérico del PageRank al pasar el ratón por encima de la barra verde, el Directorio de Google solo mostraba la barra, nunca los valores numéricos. El Directorio de Google cerró el 20 de julio de 2011. ^[51]

PageRank falso o falsificado

Se sabía que el PageRank que se mostraba en la barra de herramientas podía ser falsificado fácilmente . La redirección de una página a otra, ya sea a través de una respuesta HTTP 302 o una etiqueta meta "Refresh" , hacía que la página de origen adquiriera el PageRank de la página de destino. Por lo tanto, una página nueva con PR 0 y sin enlaces entrantes podría haber adquirido PR 10 al redireccionar a la página de inicio de Google. La suplantación de identidad generalmente se puede detectar realizando una búsqueda en Google de una URL de origen; si en los resultados se muestra la URL de un sitio completamente diferente, esta última URL puede representar el destino de una redirección.

Manipulación del PageRank

Para fines de optimización de motores de búsqueda , algunas empresas ofrecen vender enlaces de alto PageRank a los webmasters. ^[52] Como se cree que los enlaces de páginas de PR más alto son más valiosos, tienden a ser más caros. Puede ser una estrategia de marketing eficaz y viable comprar anuncios de enlaces en páginas de contenido de sitios de calidad y relevantes para generar tráfico y aumentar la popularidad de los enlaces de un webmaster. Sin embargo, Google ha advertido públicamente a los webmasters que si están o fueron descubiertos vendiendo enlaces con el propósito de conferir PageRank y reputación, sus enlaces se devaluarán (ignorados en el cálculo de los PageRank de otras páginas). La práctica de comprar y vender ^[53] es intensamente debatida en toda la comunidad de webmasters. Google recomendó a los webmasters que usen el valor del atributo HTML nofollow en los enlaces pagos. Según Matt Cutts , Google está preocupado por los webmasters que intentan jugar con el sistema y, por lo tanto, reducir la calidad y la relevancia de los resultados de búsqueda de Google. ^[52]

En 2019, Google ofreció un nuevo tipo de etiquetas que no pasan PageRank y, por lo tanto, no tienen valor para la manipulación de enlaces SEO: rel="ugc" como etiqueta para contenido generado por el usuario, como comentarios; y la etiqueta rel="sponsored" para anuncios u otros tipos de contenido patrocinado. ^[54]

Aunque el PageRank se ha vuelto menos importante para propósitos de SEO, la existencia de backlinks desde sitios web más populares continúa impulsando una página web a un lugar más alto en los rankings de búsqueda. ^[55]

Modelo de surfista dirigido

Un internauta más inteligente que salta de una página a otra de forma probabilística en función del contenido de las páginas y de los términos de consulta que busca. Este modelo se basa en una puntuación PageRank de una página dependiente de la consulta que, como sugiere el nombre, también es una función de la consulta. Cuando se le da una consulta de varios términos, , el internauta selecciona un término de acuerdo con una distribución de probabilidad, , y utiliza ese término para guiar su comportamiento durante una gran cantidad de pasos. Luego selecciona otro término de acuerdo con la distribución para determinar su comportamiento, y así sucesivamente. La distribución resultante sobre las páginas web visitadas es QD-PageRank. ^[56] $Q=\{q1,q2,\cdots \}$ $q$ $P(q)$

Otros usos

Las matemáticas de PageRank son completamente generales y se aplican a cualquier gráfico o red en cualquier dominio. Por lo tanto, PageRank se utiliza ahora con regularidad en bibliometría, análisis de redes sociales y de información, y para la predicción y recomendación de enlaces. Se utiliza para el análisis de sistemas de redes viales y en biología, química, neurociencia y física. ^[57]

Investigación científica y academia

PageRank se ha utilizado para cuantificar el impacto científico de los investigadores. Las redes de citas y colaboración subyacentes se utilizan junto con el algoritmo PageRank para crear un sistema de clasificación para publicaciones individuales que se propaga a los autores individuales. Se ha demostrado que el nuevo índice conocido como PageRank-index (Pi) es más justo en comparación con el índice h en el contexto de muchos inconvenientes que presenta este último. ^[58]

Para el análisis de redes de proteínas en biología, PageRank también es una herramienta útil. ^[59]^[60]

En cualquier ecosistema, se puede utilizar una versión modificada de PageRank para determinar las especies que son esenciales para la salud continua del medio ambiente. ^[61]

Un uso similar y más reciente de PageRank es clasificar los programas de doctorado académicos en función de sus registros de colocación de sus graduados en puestos docentes. En términos de PageRank, los departamentos académicos se vinculan entre sí contratando a sus profesores entre sí (y a ellos mismos). ^[62]

Recientemente se ha propuesto una versión de PageRank como reemplazo del factor de impacto tradicional del Institute for Scientific Information (ISI) , ^[63] y se ha implementado en Eigenfactor así como en SCImago . En lugar de simplemente contar las citas totales de una revista, la "importancia" de cada cita se determina al estilo PageRank.

En neurociencia , se ha descubierto que el PageRank de una neurona en una red neuronal se correlaciona con su tasa de activación relativa. ^[64]

Uso de Internet

Twitter utiliza el PageRank personalizado para presentar a los usuarios otras cuentas que quizás quieran seguir. ^[65]

El producto de búsqueda de sitios de Swiftype crea un "PageRank específico para sitios web individuales" observando las señales de importancia de cada sitio web y priorizando el contenido en función de factores como la cantidad de enlaces desde la página de inicio. ^[66]

Un rastreador web puede utilizar PageRank como una de las diversas métricas de importancia que utiliza para determinar qué URL visitar durante un rastreo de la web. Uno de los primeros documentos de trabajo ^[67] que se utilizaron en la creación de Google es Efficient crawling through URL ordering ^[68] , que analiza el uso de una serie de métricas de importancia diferentes para determinar con qué profundidad y en qué medida Google rastreará un sitio. PageRank se presenta como una de estas métricas de importancia, aunque hay otras enumeradas, como la cantidad de enlaces entrantes y salientes de una URL y la distancia desde el directorio raíz de un sitio hasta la URL.

El PageRank también puede utilizarse como metodología para medir el impacto aparente de una comunidad como la blogosfera en la Web en general. Este enfoque utiliza el PageRank para medir la distribución de la atención, como reflejo del paradigma de red sin escala . ^{[ cita requerida ]}

Otras aplicaciones

En 2005, en un estudio piloto en Pakistán, Structural Deep Democracy, se utilizó SD2 ^[69]^{[70] para la selección de líderes en un grupo de agricultura sostenible llamado Contact Youth. SD2 utiliza}PageRank para el procesamiento de los votos transitivos por delegación, con las restricciones adicionales de exigir al menos dos votos por delegación iniciales por votante, y todos los votantes son candidatos por delegación. Se pueden construir variantes más complejas sobre SD2, como agregar votos por delegación especializados y votos directos para temas específicos, pero SD2, como sistema paraguas subyacente, exige que siempre se utilicen votos por delegación generalistas.

En el deporte, el algoritmo PageRank se ha utilizado para clasificar el rendimiento de: equipos de la Liga Nacional de Fútbol Americano (NFL) en los EE. UU.; ^[71] jugadores de fútbol individuales; ^[72] y atletas de la Liga Diamante. ^[73]

PageRank se ha utilizado para clasificar espacios o calles para predecir cuántas personas (peatones o vehículos) llegan a los espacios o calles individuales. ^[74]^[75] En semántica léxica se ha utilizado para realizar desambiguación del sentido de las palabras , ^[76] similitud semántica , ^[77] y también para clasificar automáticamente los synsets de WordNet según la fuerza con la que poseen una propiedad semántica dada, como positividad o negatividad. ^[78]

La forma en que un sistema de tráfico cambia su modo operativo se puede describir mediante transiciones entre estados cuasiestacionarios en estructuras de correlación del flujo de tráfico. PageRank se ha utilizado para identificar y explorar los estados dominantes entre estos estados cuasiestacionarios en los sistemas de tráfico. ^[79]

No seguir

A principios de 2005, Google implementó un nuevo valor, " nofollow ", ^[80] para el atributo rel de los elementos de enlace y de anclaje HTML, de modo que los desarrolladores de sitios web y los blogueros puedan crear enlaces que Google no tendrá en cuenta a efectos de PageRank (son enlaces que ya no constituyen un "voto" en el sistema PageRank). La relación nofollow se agregó en un intento de ayudar a combatir el spamdexing .

Por ejemplo, antes la gente podía crear muchos mensajes en foros de discusión con enlaces a su sitio web para inflar artificialmente su PageRank. Con el valor nofollow, los administradores de foros de discusión pueden modificar su código para insertar automáticamente "rel='nofollow'" en todos los hipervínculos de los mensajes, evitando así que el PageRank se vea afectado por esos mensajes en particular. Sin embargo, este método de evasión también tiene varios inconvenientes, como la reducción del valor del enlace de los comentarios legítimos. (Ver: Spam en blogs#nofollow )

En un esfuerzo por controlar manualmente el flujo de PageRank entre las páginas de un sitio web, muchos webmasters practican lo que se conoce como PageRank Sculpting ^[81] , que es el acto de colocar estratégicamente el atributo nofollow en ciertos enlaces internos de un sitio web para canalizar el PageRank hacia aquellas páginas que el webmaster considera más importantes. Esta táctica se ha utilizado desde el inicio del atributo nofollow, pero puede que ya no sea eficaz desde que Google anunció que bloquear la transferencia de PageRank con nofollow no redirige ese PageRank a otros enlaces. ^[82]

Véase también

Desigualdad de atención
Rango Chei
Autoridad de dominio
EigenTrust : un algoritmo PageRank descentralizado
Bombardeo de Google
Colibrí de Google
Matriz de Google
Google Panda
Pingüino de Google
Búsqueda de Google
Algoritmo de Hilltop
Centralidad de Katz : un esquema de 1953 estrechamente relacionado con el PageRank
Construcción de enlaces
Optimización de motores de búsqueda
SimRank : una medida de similitud entre objetos basada en un modelo de navegación aleatoria
Rango de confianza
VisualRank : la aplicación de PageRank de Google a la búsqueda de imágenes
Webgrafía

Referencias

Citas

^ "Datos sobre Google y la competencia". Archivado desde el original el 4 de noviembre de 2011 . Consultado el 12 de julio de 2014 .
^ Sullivan, Danny (26 de abril de 2007). "¿Qué es Google PageRank? Una guía para buscadores y webmasters". Search Engine Land . Archivado desde el original el 3 de julio de 2016.
^ Cutts, Matt. "Los algoritmos clasifican los resultados relevantes en un nivel superior". Archivado desde el original el 2 de julio de 2013. Consultado el 19 de octubre de 2015 .
^ «US7058628B1 - Método para la clasificación de nodos en una base de datos vinculada - Google Patents». Google Patents . Archivado desde el original el 16 de enero de 2020. Consultado el 14 de septiembre de 2019 .
^ abcdefg Brin, S. ; Page, L. (1998). "La anatomía de un motor de búsqueda web hipertextual a gran escala" (PDF) . Redes informáticas y sistemas ISDN . 30 (1–7): 107–117. CiteSeerX 10.1.1.115.5930 . doi :10.1016/S0169-7552(98)00110-X. ISSN 0169-7552. S2CID 7587743. Archivado (PDF) desde el original el 27 de septiembre de 2015.
^ Gyöngyi, Zoltán; Berkhin, Pavel; Garcia-Molina, Hector; Pedersen, Jan (2006), "Detección de spam de enlaces basada en estimación de masa", Actas de la 32.ª Conferencia internacional sobre bases de datos muy grandes (VLDB '06, Seúl, Corea) (PDF) , pp. 439–450, archivado (PDF) desde el original el 2014-12-03.
^ "Preguntas frecuentes: Todo sobre el nuevo algoritmo "Hummingbird" de Google". Search Engine Land . 26 de septiembre de 2013. Archivado desde el original el 23 de diciembre de 2018 . Consultado el 18 de diciembre de 2018 .
^ Wang, Ziyang. "Algoritmos mejorados basados en enlaces para clasificar páginas web" (PDF) . cs.nyu.edu . Universidad de Nueva York, Departamento de Ciencias de la Computación . Consultado el 7 de agosto de 2023 .
^ Landau, Edmundo (1895). "Zur relatedn Wertbemessung der Turnierresultate". Deutsches Wochenschach . 11 (42): 51–54.
^ Sinn, Rainer; Ziegler, Günter M. (31 de octubre de 2022). "Landau sobre los torneos de ajedrez y el PageRank de Google". arXiv : 2210.17300 [math.HO].
^ Gabriel Pinski y Francis Narin (1976). "Influencia de las citas en los agregados de revistas científicas: teoría, con aplicación a la literatura de física". Procesamiento y gestión de la información . 12 (5): 297–312. doi :10.1016/0306-4573(76)90048-0.
^ Thomas Saaty (1977). "Un método de escalamiento para prioridades en estructuras jerárquicas". Revista de Psicología Matemática . 15 (3): 234–281. doi :10.1016/0022-2496(77)90033-5. hdl : 10338.dmlcz/101787 .
^ Bradley C. Love y Steven A. Sloman. "Mutabilidad y los determinantes de la transformabilidad conceptual" (PDF) . Actas de la Decimoséptima Conferencia Anual de la Sociedad de Ciencias Cognitivas . pp. 654–659. Archivado (PDF) desde el original el 23 de diciembre de 2017. Consultado el 23 de diciembre de 2017 .
^ "Cómo un estudiante de CogSci inventó PageRank tres años antes que Google". bradlove.org. Archivado desde el original el 2017-12-11 . Consultado el 2017-12-23 .
^ Li, Yanhong (6 de agosto de 2002). "Hacia un motor de búsqueda cualitativo". IEEE Internet Computing . 2 (4): 24–29. doi :10.1109/4236.707687.
^ "El auge de Baidu (Google en chino)". The New York Times . 17 de septiembre de 2006. Archivado desde el original el 27 de junio de 2019 . Consultado el 16 de junio de 2019 .
^ ab "Acerca de: RankDex" Archivado el 25 de mayo de 2015 en Wayback Machine , RankDex ; consultado el 3 de mayo de 2014.
^ USPTO, "Sistema y método de recuperación de documentos de hipertexto", archivado el 5 de diciembre de 2011 en Wayback Machine , número de patente de EE. UU.: 5920859, inventor: Yanhong Li, fecha de presentación: 5 de febrero de 1997, fecha de emisión: 6 de julio de 1999
^ Greenberg, Andy, "El hombre que está venciendo a Google" Archivado el 8 de marzo de 2013 en Wayback Machine , revista Forbes , 5 de octubre de 2009
^ "Acerca de: RankDex" Archivado el 20 de enero de 2012 en Wayback Machine , rankdex.com
^ "Método para la clasificación de nodos en una base de datos vinculada". Patentes de Google. Archivado desde el original el 15 de octubre de 2015. Consultado el 19 de octubre de 2015 .
^ Altucher, James (18 de marzo de 2011). «10 cosas inusuales sobre Google». Forbes . Archivado desde el original el 16 de junio de 2019. Consultado el 16 de junio de 2019 .
^ Greg Wientjes. "Hector García-Molina: Profesor de Ciencias de la Computación de Stanford y Asesor de Sergey". pp. minutos 25.45-32.50, 34.00–38.20 . Consultado el 6 de diciembre de 2019 .
^ Page, Larry, "PageRank: Bringing Order to the Web" (PDF) . Archivado (PDF) del original el 26 de enero de 2009. Consultado el 6 de octubre de 2022 ., Stanford Digital Library Project, charla, 18 de agosto de 1997 (archivada en 2002)
^ Estudio de 187 páginas de la Universidad de Graz, Austria, archivado el 16 de enero de 2014 en Wayback Machine , incluye la nota de que también se utilizan cerebros humanos para determinar el PageRank en Google.
^ "Nuestros productos y servicios". Archivado desde el original el 23 de junio de 2008. Consultado el 27 de mayo de 2011 .
^ David Vise y Mark Malseed (2005). La historia de Google . Delacorte Press. pág. 37. ISBN 978-0-553-80457-7.
^ "Google Press Center: datos curiosos". Archivado desde el original el 15 de julio de 2001.
^ Lisa M. Krieger (1 de diciembre de 2005). «Stanford gana 336 millones de dólares con las acciones de Google». San Jose Mercury News . Archivado desde el original el 8 de abril de 2009. Consultado el 25 de febrero de 2009 , citado por redOrbit.
^ Richard Brandt. "Starting Up. How Google got its groove" (Arrancando. Cómo Google consiguió su ritmo). Revista Stanford. Archivado desde el original el 10 de marzo de 2009. Consultado el 25 de febrero de 2009 .
^ ab Page, Lawrence ; Brin, Sergey ; Motwani, Rajeev ; Winograd, Terry (1999). El sistema de clasificación de citas PageRank: poniendo orden en la Web (informe). Archivado desde el original el 27 de abril de 2006., publicado como informe técnico el 29 de enero de 1998 PDF Archivado el 18 de agosto de 2011 en Wayback Machine.
^ Blog de Matt Cutts : Directamente desde Google: lo que necesita saber Archivado el 7 de febrero de 2010 en Wayback Machine , consulte la página 15 de sus diapositivas.
^ Taher Haveliwala y Sepandar Kamvar (marzo de 2003). "El segundo valor propio de la matriz de Google" (PDF) . Informe técnico de la Universidad de Stanford : 7056. arXiv : math/0307056 . Código bibliográfico : 2003math......7056N. Archivado (PDF) desde el original el 17 de diciembre de 2008.
^ Gianna M. Del Corso; Antonio Gullí; Francesco Romani (2004). "Fast PageRank Computation Via a Sparse Linear System (Extended Abstract)". En Stefano Leonardi (ed.). Algorithms and Models for the Web-Graph: Third International Workshop, WAW 2004, Roma, Italia, 16 de octubre de 2004. Actas . págs. 118–130. CiteSeerX 10.1.1.58.9060 . doi :10.1007/978-3-540-30216-2_10. ISBN 978-3-540-23427-2.
^ Arasu, A.; Novak, J.; Tomkins, A.; Tomlin, J. (2002). "El cálculo del PageRank y la estructura de la web: experimentos y algoritmos". Actas de la undécima conferencia internacional sobre la World Wide Web, sección de pósteres . Brisbane, Australia. págs. 107–117. CiteSeerX 10.1.1.18.5264 .
^ Massimo Franceschet (2010). "PageRank: De pie sobre los hombros de gigantes". arXiv : 1002.2858 [cs.IR].
^ Nicola Perra y Santo Fortunato; Fortunato (septiembre de 2008). "Medidas de centralidad espectral en redes complejas". Phys. Rev. E . 78 (3): 36107. arXiv : 0805.3322 . Bibcode :2008PhRvE..78c6107P. doi :10.1103/PhysRevE.78.036107. PMID 18851105. S2CID 1755112.
^ Vince Grolmusz (2015). "Una nota sobre el PageRank de grafos no dirigidos". Cartas de procesamiento de información . 115 (6–8): 633–634. arXiv : 1205.1960 . doi :10.1016/j.ipl.2015.02.015. S2CID 9855132.
^ Peteris Daugulis; Daugulis (2012). "Una nota sobre una generalización de la centralidad de vectores propios para grafos bipartitos y aplicaciones". Redes . 59 (2): 261–264. arXiv : 1610.01544 . doi :10.1002/net.20442. S2CID 1436859.
^ Atish Das Sarma; Anisur Rahaman Molla; Gopal Pandurangan; Eli Upfal (2015). "Cálculo rápido del PageRank distribuido". Informática Teórica . 561 : 113–121. arXiv : 1208.3071 . doi :10.1016/j.tcs.2014.04.003. S2CID 10284718.
^ Susan Moskwa. «La distribución de PageRank se eliminó de WMT». Archivado desde el original el 17 de octubre de 2009. Consultado el 16 de octubre de 2009 .
^ Bartleman, Wil (12 de octubre de 2014). "La actualización de Page Rank de Google no llegará". Administrador administrado. Archivado desde el original el 2 de abril de 2015. Consultado el 12 de octubre de 2014 .
^ Schwartz, Barry (8 de marzo de 2016). "Google ha confirmado que eliminará el PageRank de la barra de herramientas". Search Engine Land . Archivado desde el original el 10 de marzo de 2016.
^ Schwartz, Barry (18 de abril de 2016). "Google Toolbar PageRank desaparece oficialmente". Search Engine Land . Archivado desde el original el 21 de abril de 2016.
^ Southern, Matt (19 de abril de 2016). "Google PageRank cierra oficialmente sus puertas al público". Search Engine Journal . Archivado desde el original el 13 de abril de 2017.
^ Fishkin, Rand; Jeff Pollard (2 de abril de 2007). "Search Engine Ranking Factors - Version 2". seomoz.org. Archivado desde el original el 7 de mayo de 2009. Consultado el 11 de mayo de 2009 .
^ Dover, D. Secretos de optimización de motores de búsqueda Indianápolis. Wiley. 2011.
^ Viniker, D. La importancia de la detección de la dificultad de las palabras clave para el SEO . Ed. Schwartz, M. Digital Guidebook Volume 5. News Press. pág. 160–164.
^ "Ranking de listados: Ranking - Ayuda de Google Places". Archivado desde el original el 26 de mayo de 2012. Consultado el 27 de mayo de 2011 .
^ Clark, Jack. "Google entrega su lucrativa búsqueda web a máquinas de inteligencia artificial". Bloomberg. Archivado desde el original el 25 de marzo de 2016. Consultado el 26 de marzo de 2016 .
^ Search Engine Watch: Google Directory ha sido cerrado el 25 de julio de 2011
^ ab "Cómo denunciar enlaces pagos". mattcutts.com/blog. 14 de abril de 2007. Archivado desde el original el 28 de mayo de 2007. Consultado el 28 de mayo de 2007 .
^ "Esquemas de enlaces de Google" Archivado el 21 de mayo de 2020 en Wayback Machine enlaces
^ "Evolucionando". Google Developers . Consultado el 8 de febrero de 2022 .
^ "Entonces... ¿Crees que el SEO ha cambiado?". 19 de marzo de 2014. Archivado desde el original el 31 de marzo de 2014.
^ Matthew Richardson y Pedro Domingos, A. (2001). El navegante inteligente: combinación probabilística de información de enlaces y contenido en PageRank (PDF) . pp. 1441–1448. Archivado (PDF) desde el original el 4 de marzo de 2016.
^ Gleich, David F. (enero de 2015). "PageRank más allá de la Web". SIAM Review . 57 (3): 321–363. arXiv : 1407.5107 . doi :10.1137/140976649. S2CID 8375649.
^ Senanayake, Upul; Piraveenan, Mahendra; Zomaya, Albert (2015). "El índice Pagerank: más allá del recuento de citas para cuantificar el impacto científico de los investigadores". PLOS ONE . 10 (8): e0134794. Bibcode :2015PLoSO..1034794S. doi : 10.1371/journal.pone.0134794 . ISSN 1932-6203. PMC 4545754 . PMID 26288312.
^ G. Ivan y V. Grolmusz (2011). "Cuando la Web se encuentra con la célula: uso de PageRank personalizado para analizar redes de interacción de proteínas". Bioinformática . 27 (3): 405–7. doi : 10.1093/bioinformatics/btq680 . PMID 21149343.
^ D. Banky y G. Ivan y V. Grolmusz (2013). "Igualdad de oportunidades para nodos de red de bajo grado: un método basado en PageRank para la identificación de dianas proteínicas en gráficos metabólicos". PLOS ONE . 8 (1): 405–7. Bibcode :2013PLoSO...854204B. doi : 10.1371/journal.pone.0054204 . PMC 3558500 . PMID 23382878.
^ Burns, Judith (4 de septiembre de 2009). «Google trick track extinctions» (El truco de Google rastrea las extinciones). BBC News . Archivado desde el original el 12 de mayo de 2011. Consultado el 27 de mayo de 2011 .
^ Benjamin M. Schmidt y Matthew M. Chingos (2007). "Ranking Doctoral Programs by Placement: A New Method" (Clasificación de programas de doctorado por ubicación: un nuevo método) (PDF) . PS: Political Science and Politics . 40 (julio): 523–529. CiteSeerX 10.1.1.582.9402 . doi :10.1017/s1049096507070771. S2CID 6012229. Archivado (PDF) desde el original el 13 de febrero de 2015.
^ Johan Bollen; Marko A. Rodriguez; Herbert Van de Sompel (diciembre de 2006). "MESUR: Métricas basadas en el uso del impacto académico". Actas de la 7.ª conferencia conjunta ACM/IEEE-CS sobre bibliotecas digitales . Nueva York: Association for Computing Machinery. arXiv : cs.GL/0601030 . Bibcode :2006cs........1030B. doi :10.1145/1255175.1255273. ISBN. 978-1-59593-644-8.S2CID3115544 .
^ Fletcher, Jack McKay; Wennekers, Thomas (2017). "De la estructura a la actividad: uso de medidas de centralidad para predecir la actividad neuronal". Revista internacional de sistemas neuronales . 28 (2): 1750013. doi : 10.1142/S0129065717500137 . hdl : 10026.1/9713 . PMID 28076982.
^ Gupta, Pankaj; Goel, Ashish; Lin, Jimmy; Sharma, Aneesh; Wang, Dong; Zadeh, Reza (2013). "WTF: El servicio a quién seguir en Twitter". Actas de la 22.ª Conferencia Internacional sobre la World Wide Web . ACM. págs. 505–514. doi :10.1145/2488388.2488433. ISBN . 978-1-4503-2035-1. S2CID 207205045 . Consultado el 11 de diciembre de 2018 .
^ Ha, Anthony (8 de mayo de 2012). "Swiftype, respaldado por Y Combinator, crea una búsqueda en el sitio que no apesta". TechCrunch . Archivado desde el original el 6 de julio de 2014. Consultado el 8 de julio de 2014 .
^ "Documentos de trabajo sobre la creación de Google". Google . Archivado desde el original el 28 de noviembre de 2006 . Consultado el 29 de noviembre de 2006 .
^ Cho, J.; Garcia-Molina, H.; Page, L. (1998). "Rastreo eficiente mediante ordenación de URL". Actas de la Séptima Conferencia sobre la World Wide Web . Archivado desde el original el 3 de junio de 2008.
^ "Grupos de Yahoo!". Groups.yahoo.com. Archivado desde el original el 4 de octubre de 2013. Consultado el 2 de octubre de 2013 .
^ "Sistemas de información autopoiéticos en las organizaciones modernas". CiteSeerX 10.1.1.148.9274 .
^ Zack, Laurie; Lamb, Ron; Ball, Sarah (31 de diciembre de 2012). "Una aplicación del PageRank de Google a las clasificaciones de la NFL". Involve: A Journal of Mathematics . 5 (4): 463–471. doi : 10.2140/involve.2012.5.463 . ISSN 1944-4184.
^ Peña, Javier López; Touchette, Hugo (28 de junio de 2012). "Un análisis de la teoría de redes de estrategias de fútbol". arXiv : 1206.6904 [math.CO].
^ Beggs, Clive B.; Shepherd, Simon J.; Emmonds, Stacey; Jones, Ben (2 de junio de 2017). Zhou, Wei-Xing (ed.). "Una nueva aplicación de PageRank y algoritmos de preferencia del usuario para evaluar el rendimiento relativo de los atletas de pista en competición". PLOS ONE . 12 (6): e0178458. Bibcode :2017PLoSO..1278458B. doi : 10.1371/journal.pone.0178458 . ISSN 1932-6203. PMC 5456068 . PMID 28575009.
^ B. Jiang (2006). "Ranking spaces for prediction human movement in an urban environment" (Espacios de clasificación para predecir el movimiento humano en un entorno urbano). Revista Internacional de Ciencias de la Información Geográfica . 23 (7): 823–837. arXiv : physics/0612011 . Bibcode :2009IJGIS..23..823J. doi :10.1080/13658810802022822. S2CID 26880621.
^ Jiang B.; Zhao S. y Yin J. (2008). "Carreteras naturales autoorganizadas para predecir el flujo de tráfico: un estudio de sensibilidad". Journal of Statistical Mechanics: Theory and Experiment . P07008 (7): 008. arXiv : 0804.1630 . Bibcode :2008JSMTE..07..008J. doi :10.1088/1742-5468/2008/07/P07008. S2CID 118605727.
^ Roberto Navigli, Mirella Lapata. "Un estudio experimental de la conectividad de grafos para la desambiguación no supervisada del sentido de las palabras" Archivado el 14 de diciembre de 2010 en Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678–692.
^ MT Pilehvar, D. Jurgens y R. Navigli. Alinear, desambiguar y caminar: un enfoque unificado para medir la similitud semántica. Archivado el 1 de octubre de 2013 en Wayback Machine . Actas de la 51.ª reunión anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs. 1341-1351.
^ Andrea Esuli y Fabrizio Sebastiani. "PageRanking WordNet synsets: An Application to Opinion-Related Properties" (PDF) . En Actas de la 35.ª reunión de la Asociación de Lingüística Computacional, Praga (República Checa), 2007, págs. 424-431 . Archivado (PDF) desde el original el 28 de junio de 2007. Consultado el 30 de junio de 2007 .
^ Wang S.; Schreckenberg M.; Guhr T (2023). "Transiciones entre estados cuasiestacionarios en sistemas de tráfico: las autopistas orbitales de Colonia como ejemplo". Journal of Statistical Mechanics: Theory and Experiment . 2023 (9): 093401. arXiv : 2302.14596 . Bibcode :2023JSMTE2023i3401W. doi : 10.1088/1742-5468/acf210 . S2CID 257232659.
^ "Cómo prevenir el spam en los comentarios". Google . Archivado desde el original el 12 de junio de 2005 . Consultado el 1 de enero de 2005 .
^ "PageRank Sculpting: Parsing the Value and Potential Benefits of Sculpting PR with Nofollow". SEOmoz. 14 de octubre de 2008. Archivado desde el original el 14 de mayo de 2011. Consultado el 27 de mayo de 2011 .
^ "Esculpiendo el PageRank". Mattcutts.com. 15 de junio de 2009. Archivado desde el original el 11 de mayo de 2011. Consultado el 27 de mayo de 2011 .

Fuentes

Altman, Alon; Moshe Tennenholtz (2005). "Ranking Systems: The PageRank Axioms" (PDF) . Actas de la sexta conferencia de la ACM sobre comercio electrónico (EC-05) . Vancouver, BC . Consultado el 29 de septiembre de 2014 .
Cheng, Alice; Eric J. Friedman (11 de junio de 2006). "Manipulabilidad del PageRank según las estrategias Sybil" (PDF) . Actas del primer taller sobre la economía de los sistemas en red (NetEcon06) . Ann Arbor, Michigan. Archivado (PDF) desde el original el 21 de agosto de 2010. Consultado el 22 de enero de 2008 .
Farahat, Ayman; LoFaro, Thomas; Miller, Joel C.; Rae, Gregory; Ward, Lesley A. (2006). "Ranking de autoridad de HITS, PageRank y SALSA: existencia, unicidad y efecto de la inicialización". Revista SIAM de informática científica . 27 (4): 1181–1201. Bibcode :2006SJSC...27.1181F. CiteSeerX 10.1.1.99.3942 . doi :10.1137/S1064827502412875.
Haveliwala, Taher; Jeh, Glen; Kamvar, Sepandar (2003). "An Analytical Comparison of Approaches to Personalizing PageRank" (PDF) . Informe técnico de la Universidad de Stanford . Archivado (PDF) desde el original el 16 de diciembre de 2010. Consultado el 13 de noviembre de 2008 .
Langville, Amy N. ; Meyer, Carl D. (2003). "Encuesta: profundizando en el PageRank". Matemáticas de Internet . 1 (3).
Langville, Amy N .; Meyer, Carl D. (2006). El PageRank de Google y más allá: la ciencia de las clasificaciones en los motores de búsqueda . Princeton University Press. ISBN 978-0-691-12202-1.
Richardson, Matthew; Domingos, Pedro (2002). "El navegante inteligente: combinación probabilística de información de enlaces y contenido en PageRank" (PDF) . Actas de Advances in Neural Information Processing Systems . Vol. 14. Archivado (PDF) desde el original el 28 de junio de 2010. Consultado el 18 de septiembre de 2004 .

Patentes relevantes

Patente estadounidense original de PageRank: método para la clasificación de nodos en una base de datos vinculada Archivado el 29 de agosto de 2014 en Wayback Machine —Número de patente 6.285.999—4 de septiembre de 2001
PageRank Patente de EE. UU.: método para puntuar documentos en una base de datos vinculada; número de patente 6.799.176; 28 de septiembre de 2004
Patente de EE. UU. de PageRank: método para la clasificación de nodos en una base de datos vinculada Archivado el 28 de agosto de 2019 en Wayback Machine —Número de patente 7.058.628—6 de junio de 2006
PageRank US Patent—Calificación de documentos en una base de datos vinculada Archivado el 31 de marzo de 2018 en Wayback Machine —Número de patente 7.269.587—11 de septiembre de 2007

Enlaces externos

Wikiquote tiene citas relacionadas con PageRank .

Algoritmos de Google
Nuestros productos y servicios de Google
Cómo Google encuentra su aguja en el pajar de la Web por la American Mathematical Society