stringtranslate.com

Sistema de calificación Elo

Arpad Elo , el inventor del sistema de calificación Elo

El sistema de clasificación Elo [a] es un método para calcular los niveles de habilidad relativos de los jugadores en juegos de suma cero como el ajedrez . Lleva el nombre de su creador Arpad Elo , un profesor de física húngaro-estadounidense.

El sistema Elo se inventó como un sistema de clasificación de ajedrez mejorado con respecto al sistema Harkness utilizado anteriormente , [1] pero también se utiliza como sistema de clasificación en fútbol americano , fútbol americano , béisbol , baloncesto , billar , tenis de mesa , varios juegos de mesa y deportes electrónicos y, más recientemente, grandes modelos lingüísticos .

La diferencia en las valoraciones entre dos jugadores sirve como predictor del resultado de un partido. Se espera que dos jugadores con calificaciones iguales que jueguen entre sí obtengan el mismo número de victorias. Se espera que un jugador cuyo rating sea 100 puntos mayor que el de su oponente obtenga un 64%; si la diferencia es de 200 puntos, entonces la puntuación esperada para el jugador más fuerte es del 76%. [2]

La clasificación Elo de un jugador es un número que puede cambiar dependiendo del resultado de las partidas puntuadas jugadas. Después de cada juego, el jugador ganador le quita puntos al perdedor. La diferencia entre las calificaciones del ganador y del perdedor determina el número total de puntos ganados o perdidos después de un juego. Si gana el jugador con la puntuación más alta, solo se le quitarán unos pocos puntos de puntuación al jugador con la puntuación más baja. Sin embargo, si el jugador con la puntuación más baja consigue una victoria sorpresiva , se transferirán muchos puntos de clasificación. El jugador con la puntuación más baja también ganará algunos puntos del jugador con la puntuación más alta en caso de empate. Esto significa que este sistema de calificación se autocorrige. Los jugadores cuyas calificaciones son demasiado bajas o demasiado altas deberían, a largo plazo, obtener mejores o peores resultados de lo que predice el sistema de calificación y, por lo tanto, ganar o perder puntos de calificación hasta que las calificaciones reflejen su verdadera fuerza de juego.

Las calificaciones Elo son solo comparativas y solo son válidas dentro del grupo de calificaciones en el que se calcularon, en lugar de ser una medida absoluta de la fuerza de un jugador.

Si bien los sistemas tipo Elo se utilizan ampliamente en entornos de dos jugadores, también se han aplicado variaciones a las competiciones multijugador. [3]

Historia

Arpad Elo fue un jugador de ajedrez de nivel maestro y un participante activo en la Federación de Ajedrez de los Estados Unidos (USCF) desde su fundación en 1939. [4] La USCF utilizó un sistema de clasificación numérica, ideado por Kenneth Harkness , para permitir a los miembros realizar un seguimiento de sus resultados. progreso individual en términos distintos de las victorias y derrotas en torneos. El sistema Harkness era razonablemente justo, pero en algunas circunstancias dio lugar a valoraciones que muchos observadores consideraron inexactas. En nombre de la USCF, Elo ideó un nuevo sistema con una base estadística más sólida . [5] Casi al mismo tiempo, György Karoly y Roger Cook desarrollaron de forma independiente un sistema basado en los mismos principios para la Asociación de Ajedrez de Nueva Gales del Sur. [6]

El sistema de Elo reemplazó los sistemas anteriores de recompensas competitivas con un sistema basado en estimación estadística. Los sistemas de clasificación para muchos deportes otorgan puntos de acuerdo con evaluaciones subjetivas de la "grandeza" de ciertos logros. Por ejemplo, ganar un torneo de golf importante podría valer cinco veces más puntos para un jugador elegido arbitrariamente que ganar un torneo menor.

Un esfuerzo estadístico, por el contrario, utiliza un modelo que relaciona los resultados del juego con variables subyacentes que representan la habilidad de cada jugador.

La suposición central de Elo era que el rendimiento ajedrecístico de cada jugador en cada partida es una variable aleatoria distribuida normalmente . Aunque un jugador puede tener un desempeño significativamente mejor o peor de un juego a otro, Elo asumió que el valor medio del desempeño de cualquier jugador determinado cambia sólo lentamente con el tiempo. Elo pensó en la verdadera habilidad de un jugador como la media de la variable aleatoria de desempeño de ese jugador.

Es necesaria una suposición adicional porque el rendimiento en ajedrez en el sentido anterior aún no es mensurable. No se puede observar una secuencia de movimientos y derivar un número que represente la habilidad de ese jugador. El rendimiento sólo puede inferirse de victorias, empates y derrotas. Por lo tanto, si un jugador gana un juego, se supone que se desempeñó a un nivel más alto que su oponente en ese juego. Por el contrario, si el jugador pierde, se supone que ha rendido a un nivel inferior. Si el juego termina en empate, se supone que los dos jugadores se desempeñaron casi al mismo nivel.

Elo no especificó exactamente qué tan cerca deben ser dos actuaciones para resultar en un empate en lugar de una victoria o una derrota. En realidad, existe una probabilidad de empate que depende del diferencial de desempeño, por lo que este último es más un intervalo de confianza que cualquier frontera determinista. Y aunque pensó que era probable que los jugadores tuvieran diferentes desviaciones estándar en sus actuaciones, hizo una suposición simplificadora de lo contrario.

Para simplificar aún más el cálculo, Elo propuso un método sencillo para estimar las variables de su modelo (es decir, la verdadera habilidad de cada jugador). Se podría calcular con relativa facilidad a partir de tablas cuántos juegos se esperaría que ganaran los jugadores basándose en comparaciones de sus calificaciones con las de sus oponentes. Las calificaciones de un jugador que ganó más juegos de lo esperado se ajustarían hacia arriba, mientras que las de un jugador que ganó menos de lo esperado se ajustarían hacia abajo. Además, ese ajuste debía ser proporcional al número de victorias en las que el jugador había superado o no su número esperado. [7]

Desde una perspectiva moderna, los supuestos simplificadores de Elo no son necesarios porque la potencia informática es barata y está ampliamente disponible. Varias personas, en particular Mark Glickman , han propuesto utilizar maquinaria estadística más sofisticada para estimar las mismas variables. Por otro lado, la simplicidad computacional del sistema Elo ha demostrado ser una de sus mayores ventajas. Con la ayuda de una calculadora de bolsillo, un competidor de ajedrez informado puede calcular con un margen de error de un punto cuál será su próxima calificación publicada oficialmente, lo que ayuda a promover la percepción de que las calificaciones son justas.

Implementando el esquema de Elo

La USCF implementó las sugerencias de Elo en 1960, [8] y el sistema rápidamente ganó reconocimiento como más justo y más preciso que el sistema de calificación de Harkness . El sistema de Elo fue adoptado por la Federación Mundial de Ajedrez (FIDE) en 1970. [9] Elo describió su trabajo en detalle en The Rating of Chessplayers, Past and Present , publicado por primera vez en 1978. [10]

Pruebas estadísticas posteriores han sugerido que es casi seguro que el rendimiento en ajedrez no se distribuye según una distribución normal , ya que los jugadores más débiles tienen mayores posibilidades de ganar de lo que predice el modelo de Elo. [11] [12] A menudo, en datos de comparación pareados, hay muy poca diferencia práctica en cuanto a si se supone que las diferencias en las fortalezas de los jugadores están distribuidas normal o logísticamente. Matemáticamente, sin embargo, es más conveniente trabajar con la función logística que con la distribución normal. [13] La FIDE continúa utilizando la tabla de diferencia de calificación propuesta por Elo. [14] : tabla 8.1b 

Elo describe con más detalle el desarrollo de la tabla de expectativa porcentual (tabla 2.11) de la siguiente manera: [15]

Las probabilidades normales pueden tomarse directamente de las tablas estándar de las áreas bajo la curva normal cuando la diferencia en la calificación se expresa como puntuación az. Dado que la desviación estándar σ de las actuaciones individuales se define como 200 puntos, la desviación estándar σ' de las diferencias en las actuaciones se convierte en σ√2 o 282,84. El valor z de una diferencia es entonces D/282,84. Esto luego dividirá el área bajo la curva en dos partes: la más grande dará P para el jugador con mayor calificación y la más pequeña dará P para el jugador con menor calificación.

Por ejemplo, sea D = 160. Entonces z = 160/282,84 = 0,566. La tabla da 0,7143 y 0,2857 como áreas de las dos porciones bajo la curva. Estas probabilidades se redondean a dos cifras en el cuadro 2.11.

En realidad, la tabla está construida con una desviación estándar de 200(10/7) como aproximación para 200√2. [ cita necesaria ]

Las distribuciones normal y logística son, en cierto modo, puntos arbitrarios en un espectro de distribuciones que funcionarían bien. En la práctica, ambas distribuciones funcionan muy bien para varios juegos diferentes.

Diferentes sistemas de calificación

La frase "calificación Elo" se utiliza a menudo para referirse a la calificación de ajedrez de un jugador calculada por la FIDE. Sin embargo, este uso puede resultar confuso o engañoso porque las ideas generales de Elo han sido adoptadas por muchas organizaciones, incluida la USCF (antes FIDE), muchas otras federaciones nacionales de ajedrez, la efímera Asociación Profesional de Ajedrez (PCA) y servidores de ajedrez en línea, incluidos Internet Chess Club (ICC), Free Internet Chess Server (FICS), Lichess , Chess.com y Yahoo! Juegos. Cada organización tiene una implementación única y ninguna sigue exactamente las sugerencias originales de Elo.

En su lugar, se puede hacer referencia a la organización que otorga la calificación. Por ejemplo: "En agosto de 2002, Gregory Kaidanov tenía un rating FIDE de 2638 y un rating USCF de 2742". Las calificaciones Elo de estas diversas organizaciones no siempre son directamente comparables, ya que las calificaciones Elo miden los resultados dentro de un grupo cerrado de jugadores en lugar de la habilidad absoluta.

Clasificaciones FIDE

Para los mejores jugadores, la calificación más importante es su calificación FIDE . La FIDE ha publicado las siguientes listas:

El siguiente análisis de la lista de clasificación de la FIDE de julio de 2015 da una idea aproximada de lo que significa una determinada clasificación de la FIDE en términos de clasificación mundial:

El rating más alto de la FIDE fue 2882, que Magnus Carlsen tenía en la lista de mayo de 2014. Una lista de los jugadores mejor valorados de todos los tiempos se encuentra en Comparación de los mejores ajedrecistas a lo largo de la historia .

Clasificación de Rendimiento

La calificación de rendimiento o calificación especial es una calificación hipotética que resultaría de los juegos de un solo evento. Algunas organizaciones de ajedrez [16] : p. 8  utiliza el "algoritmo de 400" para calcular la calificación de rendimiento. Según este algoritmo, la calificación de rendimiento de un evento se calcula de la siguiente manera:

  1. Por cada victoria, suma la calificación de tu oponente más 400,
  2. Por cada derrota, suma la calificación de tu oponente menos 400,
  3. Y divida esta suma por el número de juegos jugados.

Ejemplo: 2 victorias (oponentes w & x ), 2 derrotas (oponentes y & z )

Esto se puede expresar mediante la siguiente fórmula:

Ejemplo: si vences a un jugador con una calificación Elo de 1000,

Si vences a dos jugadores con índices Elo de 1000,

Si dibujas,

Esto es una simplificación, pero ofrece una manera fácil de obtener una estimación de PR (calificación de desempeño).

La FIDE , sin embargo, calcula el rating de rendimiento mediante la fórmula

Calificaciones en vivo

La FIDE actualiza su lista de ratings al principio de cada mes. Por el contrario, las "clasificaciones en vivo" no oficiales calculan el cambio en las calificaciones de los jugadores después de cada juego. Estas calificaciones en vivo se basan en las calificaciones de la FIDE publicadas anteriormente, por lo que la calificación en vivo de un jugador debe corresponder a lo que sería la calificación de la FIDE si la FIDE emitiera una nueva lista ese día.

Aunque las clasificaciones en vivo no son oficiales, el interés por las clasificaciones en vivo surgió en agosto/septiembre de 2008, cuando cinco jugadores diferentes ocuparon el puesto número 1 en "Live". [17]

Hans Arild Runde publicó y mantuvo las clasificaciones en vivo no oficiales de jugadores de más de 2700 en el sitio web Live Rating hasta agosto de 2011. Artiom Tsepotan mantiene otro sitio web, 2700chess.com desde mayo de 2011, que también cubre a los 100 mejores jugadores. como las 50 mejores jugadoras.

Los cambios de calificación se pueden calcular manualmente utilizando la calculadora de cambios de calificación de la FIDE. [18] Todos los mejores jugadores tienen un factor K de 10, lo que significa que el cambio máximo en las calificaciones de un solo juego es un poco menos de 10 puntos.

Clasificaciones de la Federación de Ajedrez de Estados Unidos

La Federación de Ajedrez de Estados Unidos (USCF) utiliza su propia clasificación de jugadores: [19]

El factor K utilizado por la USCF

El factor K , en el sistema de clasificación de la USCF, se puede estimar dividiendo 800 por el número efectivo de juegos en los que se basa la clasificación de un jugador ( N e ) más el número de juegos que el jugador completó en un torneo ( m ). [21]

Pisos de calificación

La USCF mantiene un mínimo de calificación absoluta de 100 para todas las calificaciones. Por lo tanto, ningún miembro puede tener una calificación inferior a 100, sin importar su desempeño en eventos autorizados por la USCF. Sin embargo, los jugadores pueden tener pisos de clasificación absoluta individuales más altos, calculados utilizando la siguiente fórmula:

donde es el número de juegos puntuados ganados, es el número de juegos puntuados empatados y es el número de eventos en los que el jugador completó tres o más juegos puntuados.

Existen pisos de calificación más altos para jugadores experimentados que han alcanzado calificaciones significativas. Estos pisos de calificación más altos existen, comenzando con calificaciones de 1200 en incrementos de 100 puntos hasta 2100 (1200, 1300, 1400, ..., 2100). Un piso de calificación se calcula tomando la calificación máxima establecida del jugador, restando 200 puntos y luego redondeando hacia abajo al piso de calificación más cercano. Por ejemplo, un jugador que ha alcanzado una calificación máxima de 1464 tendría una calificación mínima de 1464 − 200 = 1264, que se redondearía hacia abajo a 1200. Según este esquema, solo los jugadores de Clase C y superiores son capaces de tener una calificación más alta. piso que su calificación absoluta de jugador. Todos los demás jugadores tendrían un mínimo de 150 como máximo.

Hay dos formas de lograr pisos de calificación más altos además del esquema estándar presentado anteriormente. Si un jugador ha alcanzado la calificación de Original Life Master, su calificación mínima se establece en 2200. El logro de este título es único en el sentido de que ningún otro título reconocido de la USCF dará como resultado un nuevo piso. Para los jugadores con calificaciones inferiores a 2000, ganar un premio en efectivo de $2000 o más eleva el piso de calificación de ese jugador al nivel más cercano de 100 puntos que habría descalificado al jugador para participar en el torneo. Por ejemplo, si un jugador ganó $4000 en un torneo de 1750 y menos, ahora tendría un rating mínimo de 1800.

Teoría

Las comparaciones por pares forman la base de la metodología de calificación Elo. [22] Elo hizo referencias a los artículos de Good, [23] David, [24] Trawinski y David, [25] y Buhlman y Huber. [26]

Detalles matemáticos

El desempeño no se mide de manera absoluta; se infiere de las victorias, derrotas y empates contra otros jugadores. Las valoraciones de los jugadores dependen de las valoraciones de sus oponentes y de los resultados obtenidos contra ellos. La diferencia de valoración entre dos jugadores determina una estimación de la puntuación esperada entre ellos. Tanto el promedio como la distribución de las calificaciones pueden elegirse arbitrariamente. Inicialmente, la USCF pretendía que un jugador de club promedio tuviera una calificación de 1500 y Elo sugirió escalar las calificaciones de modo que una diferencia de 200 puntos de calificación en ajedrez significaría que el jugador más fuerte tiene una puntuación esperada (básicamente una puntuación promedio esperada) de aproximadamente 0,75. .

La puntuación esperada de un jugador es su probabilidad de ganar más la mitad de su probabilidad de empatar. Por lo tanto, una puntuación esperada de 0,75 podría representar un 75% de posibilidades de ganar, un 25% de posibilidades de perder y un 0% de posibilidades de empatar. En el otro extremo podría representar un 50% de posibilidades de ganar, un 0% de posibilidades de perder y un 50% de posibilidades de empatar. La probabilidad de empatar, a diferencia de la de obtener un resultado decisivo, no está especificada en el sistema Elo. En cambio, un empate se considera mitad victoria y mitad derrota. En la práctica, dado que se desconoce la verdadera fuerza de cada jugador, las puntuaciones esperadas se calculan utilizando las calificaciones actuales del jugador de la siguiente manera.

Si el jugador A tiene una calificación de y el jugador B una calificación de , la fórmula exacta (usando la curva logística con base 10 ) [27] para la puntuación esperada del jugador A es

De manera similar, la puntuación esperada para el jugador B es

Esto también podría expresarse mediante

y

donde y Tenga en cuenta que en el último caso, el mismo denominador se aplica a ambas expresiones, y es claro que esto significa que al estudiar solo los numeradores, descubrimos que la puntuación esperada para el jugador A es multiplicada por la puntuación esperada para el jugador B. De ello se deduce que por cada 400 puntos de ventaja sobre el oponente, la puntuación esperada se magnifica diez veces en comparación con la puntuación esperada del oponente.

Cuando los puntajes reales del torneo de un jugador exceden los puntajes esperados, el sistema Elo lo toma como evidencia de que la calificación del jugador es demasiado baja y debe ajustarse hacia arriba. De manera similar, cuando los puntajes reales del torneo de un jugador no alcanzan los puntajes esperados, la calificación de ese jugador se ajusta a la baja. La sugerencia original de Elo, que todavía se usa ampliamente, era un simple ajuste lineal proporcional a la cantidad en la que un jugador tuvo un rendimiento superior o inferior a su puntuación esperada. El ajuste máximo posible por partido, llamado factor K, se fijó en los jugadores más fuertes y más débiles.

Supongamos que se esperaba que el jugador A (de nuevo con calificación ) obtuviera puntos, pero en realidad obtuvo puntos. La fórmula para actualizar la calificación de ese jugador es

[1]

Esta actualización se puede realizar después de cada juego o cada torneo, o después de cualquier período de calificación adecuado.

Un ejemplo puede ayudar a aclarar:

Supongamos que el jugador A tiene una valoración de 1613 y juega en un torneo de cinco rondas. Pierden contra un jugador con una calificación de 1609, empatan con un jugador con una calificación de 1477, derrotan a un jugador con una calificación de 1388, derrotan a un jugador con una calificación de 1586 y pierden contra un jugador con una calificación de 1720. La puntuación real del jugador es (0 + 0,5 + 1 + 1 + 0 ) = 2,5 . La puntuación esperada, calculada según la fórmula anterior, fue (0,51 + 0,69 + 0,79 + 0,54 + 0,35) = 2,88.

Por lo tanto, la nueva calificación del jugador es [1613 + 32·(2,5 − 2,88)] = 1601, suponiendo que se utiliza un factor K de 32. De manera equivalente, se puede decir que en cada juego el jugador ha puesto un ante de K multiplicado por su puntuación esperada para el juego en un bote, el jugador contrario hace lo mismo y el ganador se lleva el bote completo de valor K ; En caso de empate, los jugadores se reparten el bote y reciben puntos cada uno.

Tenga en cuenta que, si bien dos victorias, dos derrotas y un empate pueden parecer una puntuación par, es peor de lo esperado para el jugador A porque sus oponentes tenían una calificación promedio más baja. Por tanto, el jugador A es ligeramente penalizado. Si el jugador A hubiera obtenido dos victorias, una derrota y dos empates, para una puntuación total de tres puntos, habría sido ligeramente mejor de lo esperado y la nueva calificación del jugador habría sido [1613 + 32·(3 − 2,88) ] = 1617 .

Este procedimiento de actualización es el núcleo de las calificaciones utilizadas por la FIDE , la USCF , Yahoo! Games , el Internet Chess Club (ICC) y el Free Internet Chess Server (FICS). Sin embargo, cada organización ha tomado un camino diferente para abordar la incertidumbre inherente a las calificaciones, particularmente las calificaciones de los recién llegados, y para abordar el problema de la inflación/deflación de las calificaciones. A los nuevos jugadores se les asignan calificaciones provisionales, que se ajustan de manera más drástica que las calificaciones establecidas.

Los principios utilizados en estos sistemas de clasificación se pueden utilizar para clasificar otras competiciones, por ejemplo, partidos de fútbol internacionales.

Las calificaciones Elo también se han aplicado a juegos sin posibilidad de empate , y a juegos en los que el resultado también puede tener una cantidad (pequeño/gran margen) además de la calidad (ganar/perder). Consulte Calificación de Go con Elo para obtener más información.

Modificación sugerida

En 2011, después de analizar 1,5 millones de partidas valoradas por la FIDE, Jeff Sonas demostró que, según la fórmula Elo, dos jugadores que tienen una diferencia de valoración de X, en realidad tienen una diferencia real más parecida a X(5/6). Del mismo modo, puedes dejar la diferencia de calificación y dividirla por 480 en lugar de 400. Dado que la fórmula Elo sobreestima incorrectamente la probabilidad de ganar del jugador más fuerte, está perdiendo puntos por ganar, porque su tasa de ganancia real está por debajo de lo que predice la fórmula. Asimismo, los jugadores más débiles ganan puntos por perder. Cuando se aplica la modificación, las tasas de ganancia observadas se desvían menos del 0,1 % de la predicción, mientras que el Elo tradicional puede tener un 4 % de descuento de la tasa prevista. [28]

Modelo de distribución más preciso

La primera preocupación matemática abordada por la USCF fue el uso de la distribución normal . Descubrieron que esto no representaba con precisión los resultados reales logrados, particularmente por los jugadores con calificaciones más bajas. En lugar de eso, cambiaron a un modelo de distribución logística , que según la USCF se adaptaba mejor a los resultados reales logrados. [29] [ cita necesaria ] La FIDE también utiliza una aproximación a la distribución logística. [14]

Factor K más preciso

La segunda preocupación importante es el " factor K " correcto utilizado. El estadístico de ajedrez Jeff Sonas cree que el valor original (para jugadores con una puntuación superior a 2400) es inexacto en el trabajo de Elo. Si el coeficiente del factor K se establece demasiado grande, habrá demasiada sensibilidad a unos pocos eventos recientes, en términos de una gran cantidad de puntos intercambiados en cada juego. Y si el valor K es demasiado bajo, la sensibilidad será mínima y el sistema no responderá lo suficientemente rápido a los cambios en el nivel real de rendimiento de un jugador.

La estimación original del factor K de Elo se realizó sin el beneficio de enormes bases de datos ni evidencia estadística. Sonas indica que un factor K de 24 (para jugadores con una puntuación superior a 2400) puede ser más preciso como herramienta de predicción del rendimiento futuro y también más sensible al rendimiento. [30]

Ciertos sitios de ajedrez en Internet parecen evitar un factor K de tres niveles basado en el rango de calificación. Por ejemplo, la ICC parece adoptar un K=32 global, excepto cuando se juega contra jugadores con clasificación provisional.

La USCF (que utiliza una distribución logística en lugar de una distribución normal ) anteriormente escalonaba el factor K según tres rangos de calificación principales:

Actualmente, la USCF utiliza una fórmula que calcula el factor K basándose en factores que incluyen el número de juegos jugados y la calificación del jugador. El factor K también se reduce para los jugadores con calificaciones altas si el evento tiene controles de tiempo más cortos. [dieciséis]

La FIDE utiliza los siguientes rangos: [31]

La FIDE utilizó los siguientes rangos antes de julio de 2014: [32]

La gradación del factor K reduce el cambio de calificación en el extremo superior del rango de calificación, reduciendo la posibilidad de un rápido aumento o caída de calificación para aquellos con una calificación lo suficientemente alta como para alcanzar un factor K bajo .

En teoría, esto podría aplicarse por igual a los jugadores de ajedrez en línea y a los jugadores sobre el tablero, ya que es más difícil para todos los jugadores aumentar su calificación después de que su calificación ha aumentado y su factor K se ha reducido en consecuencia. Sin embargo, cuando juegan en línea, los jugadores de más de 2800 pueden aumentar más fácilmente su calificación simplemente seleccionando oponentes con calificaciones altas; en el sitio de juego ICC, un gran maestro puede jugar contra una serie de oponentes diferentes, todos con una calificación superior a 2700. [34] En los eventos de tablero, solo sería en eventos de muy alto nivel donde un jugador podría enfrentarse a esa cantidad de más de 2700 oponentes. En un torneo de ajedrez normal, abierto y con parejas suizas, frecuentemente habría muchos oponentes con una puntuación inferior a 2500, lo que reduciría las ganancias de puntuación posibles en una sola competición para un jugador con una puntuación alta.

Derivación formal para juegos de ganar/perder

Las expresiones anteriores ahora se pueden derivar formalmente explotando el vínculo entre la calificación Elo y la actualización del gradiente estocástico en la regresión logística. [35] [36]

Si asumimos que los resultados del juego son binarios , es decir, sólo se puede observar una victoria o una derrota, el problema se puede abordar mediante regresión logística , donde los resultados del juego son variables dependientes , las calificaciones de los jugadores son variables independientes y los resultados del juego son variables dependientes . El modelo que relaciona ambos es probabilístico: la probabilidad de que el jugador gane el juego se modela como

dónde

denota la diferencia de las calificaciones de los jugadores, y usamos un factor de escala y, por ley de probabilidad total

La pérdida logarítmica se calcula entonces como

y, utilizando el descenso de gradiente estocástico, la pérdida logarítmica se minimiza de la siguiente manera:

,
.

¿ Dónde está el paso de adaptación?

Dado que , y , la adaptación se escribe de la siguiente manera

que puede escribirse de forma compacta como

¿Dónde está el nuevo paso de adaptación que absorbe y , si gana y si gana, y la puntuación esperada viene dada por ?

De manera análoga, la actualización de la calificación es

.

Derivación formal para juegos de ganar/empatar/perder

Desde el principio, el índice Elo también se ha utilizado en el ajedrez, donde observamos victorias, derrotas o empates y, para tratar este último, se introduce un valor de puntuación fraccional, . Sin embargo, observamos que las puntuaciones son meros indicadores de los acontecimientos en los que el jugador gana o pierde el juego. Por lo tanto, no queda inmediatamente claro cuál es el significado de la puntuación fraccionaria. Además, dado que no especificamos explícitamente el modelo que relaciona los valores de calificación y la probabilidad del resultado del juego, no podemos decir cuál es la probabilidad de ganar, perder o empatar.

Para abordar estas dificultades y derivar la calificación Elo en los juegos ternarios, definiremos el modelo probabilístico explícito de los resultados. A continuación, minimizaremos la pérdida logarítmica mediante un gradiente estocástico.

Dado que la pérdida, el empate y la victoria son variables ordinales , debemos adoptar el modelo que tenga en cuenta su naturaleza ordinal y utilizamos el llamado modelo de categorías adyacentes que se remonta al trabajo de Davidson [37].

dónde

y es un parámetro. La introducción de un parámetro libre no debería sorprender ya que tenemos tres resultados posibles y, por lo tanto, debería aparecer un grado adicional de libertad en el modelo. En particular, recuperamos el modelo subyacente a la regresión logística.

dónde .

Utilizando el modelo ordinal definido anteriormente, la pérdida logarítmica ahora se calcula como

que puede escribirse de forma compacta como

donde iff gana, iff gana y iff empata.

Como antes, necesitamos cuya derivada está dada por

,

dónde

Así, la derivada de la pérdida logarítmica con respecto a la calificación viene dada por

donde utilizamos las relaciones y .

Luego, el descenso del gradiente estocástico aplicado para minimizar la pérdida logarítmica produce la siguiente actualización para la calificación

dónde y . Por supuesto, si gana, si empata y si pierde. Para reconocer el origen en el modelo propuesto por Davidson, a esta actualización se le denomina calificación Elo-Davidson. [36]

La actualización de se deriva de la misma manera que

,

dónde .

Notamos eso

y así obtenemos la actualización de la calificación puede escribirse como

,

donde y obtuvimos prácticamente la misma ecuación que en la calificación Elo excepto que la puntuación esperada viene dada por en lugar de .

Por supuesto, como se señaló anteriormente, para , tenemos y, por lo tanto, la calificación Elo-Davidson es exactamente la misma que la calificación Elo. Sin embargo, esto no ayuda a comprender el caso en el que se observan empates (no podemos utilizar lo que significaría que la probabilidad de empate es nula). Por otro lado, si usamos , tenemos

lo que significa que, utilizando , la calificación Elo-Davidson es exactamente la misma que la calificación Elo. [36]

Cuestiones prácticas

Actividad de juego versus protección de la calificación

En algunos casos, el sistema de clasificación puede desalentar la actividad del juego para los jugadores que desean proteger su clasificación. [38] Para disuadir a los jugadores de tener una calificación alta, una propuesta de 2012 del Gran Maestro británico John Nunn para elegir a los clasificados para el campeonato mundial de ajedrez incluía un bono de actividad, que se combinaría con la calificación. [39]

Más allá del mundo del ajedrez, las preocupaciones sobre los jugadores que evitaban el juego competitivo para proteger sus calificaciones hicieron que Wizards of the Coast abandonara el sistema Elo para los torneos de Magic: the Gathering en favor de un sistema de su propia creación llamado "Puntos Planeswalker". [40] [41]

Emparejamiento selectivo

Una cuestión más sutil está relacionada con el emparejamiento. Cuando los jugadores pueden elegir a sus propios oponentes, pueden elegir oponentes con un riesgo mínimo de perder y una recompensa máxima por ganar. Ejemplos particulares de jugadores con calificación 2800+ que eligen oponentes con un riesgo mínimo y la máxima posibilidad de ganar calificación incluyen: elegir oponentes que saben que pueden vencer con una determinada estrategia; elegir oponentes que crean que están sobrevalorados; o evitar jugar contra jugadores fuertes que tienen una puntuación de varios cientos de puntos por debajo de ellos, pero que pueden tener títulos de ajedrez como IM o GM. En la categoría de elección de oponentes sobrevalorados, los nuevos participantes en el sistema de clasificación que hayan jugado menos de 50 partidos son, en teoría, un objetivo conveniente, ya que pueden estar sobrevalorados en su clasificación provisional. La ICC compensa este problema asignando un factor K más bajo al jugador establecido si gana contra un participante con nueva calificación. El factor K es en realidad una función del número de juegos clasificados jugados por el nuevo participante.

Por lo tanto, las calificaciones Elo en línea siguen proporcionando un mecanismo útil para proporcionar una calificación basada en la calificación del oponente. Sin embargo, su credibilidad general debe verse en el contexto de al menos los dos principales problemas descritos anteriormente: el abuso del motor y el emparejamiento selectivo de oponentes.

La ICC también ha introducido recientemente clasificaciones de "emparejamiento automático" que se basan en emparejamientos aleatorios, pero en los que cada victoria consecutiva garantiza un oponente estadísticamente mucho más duro que también ha ganado x juegos seguidos. Con potencialmente cientos de jugadores involucrados, esto crea algunos de los desafíos de un gran evento suizo que está siendo ferozmente disputado, en el que los ganadores de las rondas se enfrentan a los ganadores de las rondas. Este enfoque de emparejamiento ciertamente maximiza el riesgo de calificación de los participantes con calificaciones más altas, quienes pueden enfrentar una oposición muy dura de jugadores por debajo de 3000, por ejemplo. Esta es una calificación separada en sí misma y se encuentra en las categorías de calificación de "1 minuto" y "5 minutos". Las calificaciones máximas alcanzadas por encima de 2500 son excepcionalmente raras.

Calificaciones de inflación y deflación

Gráficos de probabilidades y cambios de calificación Elo (para K=16 y 32) del resultado esperado (curva sólida) y resultado inesperado (curva punteada) versus diferencia de calificación inicial. Por ejemplo, el jugador A comienza con una calificación de 1400 y B con 1800 en un torneo usando K  = 32 (curvas marrones). La línea azul de puntos y guiones denota la diferencia de calificación inicial de 400 (1800 - 1400). La probabilidad de que B gane, el resultado esperado, es 0,91 (intersección de la curva continua negra y la línea azul); Si esto sucede, la calificación de A disminuye en 3 (intersección de la curva sólida marrón y la línea azul) a 1397 y la de B aumenta en la misma cantidad a 1803. Por el contrario, la probabilidad de que A gane, el resultado inesperado, es 0,09 (intersección de la línea punteada negra). curva y línea azul); si esto sucede, la calificación de A aumenta en 29 (intersección de la curva de puntos marrón y la línea azul) a 1429 y la de B disminuye en la misma cantidad a 1771.

El término "inflación", aplicado a las calificaciones, pretende sugerir que el nivel de fuerza de juego demostrado por el jugador calificado está disminuyendo con el tiempo; por el contrario, la "deflación" sugiere que el nivel está avanzando. Por ejemplo, si hay inflación, una calificación moderna de 2500 significa menos que una calificación histórica de 2500, mientras que ocurre lo contrario si hay deflación. Usar calificaciones para comparar jugadores entre diferentes épocas se vuelve más difícil cuando hay inflación o deflación. (Véase también Comparación de los mejores ajedrecistas a lo largo de la historia .)

Al analizar las listas de clasificación de la FIDE a lo largo del tiempo, Jeff Sonas sugiere que la inflación puede haber tenido lugar aproximadamente desde 1985. [42] Sonas analiza a los jugadores mejor clasificados, en lugar de a todos los jugadores clasificados, y reconoce que los cambios en la distribución de las clasificaciones podrían haber Esto se debe a un aumento del nivel de juego en los niveles más altos, pero también busca otras causas.

Ha aumentado el número de personas con valoraciones superiores a 2700. Alrededor de 1979 solo había un jugador activo ( Anatoly Karpov ) con una calificación tan alta. En 1992, Viswanathan Anand fue sólo el octavo jugador en la historia del ajedrez en alcanzar la marca de 2700 en ese momento. [43] Esto aumentó a 15 jugadores en 1994. 33 jugadores tenían una calificación de 2700+ en 2009 y 44 en septiembre de 2012. El punto de referencia actual para los jugadores de élite se encuentra más allá de 2800.

Una posible causa de esta inflación fue el piso de calificación, que durante mucho tiempo estuvo en 2200, y si un jugador caía por debajo de este límite era eliminado de la lista de calificación. Como consecuencia, los jugadores con un nivel de habilidad justo por debajo del mínimo solo estarían en la lista de clasificación si estuvieran sobrevalorados, y esto haría que aportaran puntos al grupo de clasificación. [42] En julio de 2000, la calificación promedio de los 100 mejores era 2644. En julio de 2012 había aumentado a 2703. [43]

Utilizando un potente motor de ajedrez para evaluar movimientos jugados en partidas entre jugadores clasificados, Regan y Haworth analizan series de partidas de torneos clasificados por la FIDE y llegan a la conclusión de que hubo poca o ninguna inflación entre 1976 y 2009. [44]

En un sistema Elo puro, cada juego termina en una transacción igual de puntos de calificación. Si el ganador gana N puntos de calificación, el perdedor perderá N puntos de calificación. Esto evita que los puntos entren o salgan del sistema cuando se juegan y califican los juegos. Sin embargo, los jugadores tienden a ingresar al sistema como novatos con una calificación baja y retirarse del sistema como jugadores experimentados con una calificación alta. Por lo tanto, en el largo plazo, un sistema con transacciones estrictamente iguales tiende a resultar en una deflación de calificaciones. [45]

En 1995, la USCF reconoció que varios jugadores jóvenes escolares estaban mejorando más rápido de lo que el sistema de clasificación podía rastrear. Como resultado, los jugadores establecidos con ratings estables comenzaron a perder puntos de rating frente a los jugadores jóvenes y subestimados. Varios de los jugadores más veteranos estaban frustrados por lo que consideraban una caída injusta del rating, y algunos incluso abandonaron el ajedrez por ello. [46]

Luchar contra la deflación

Debido a la importante diferencia en el momento en que ocurren la inflación y la deflación, y para combatir la deflación, la mayoría de las implementaciones de calificaciones Elo tienen un mecanismo para inyectar puntos en el sistema con el fin de mantener las calificaciones relativas a lo largo del tiempo. La FIDE tiene dos mecanismos inflacionarios. En primer lugar, las actuaciones por debajo de un "nivel mínimo" no se rastrean, por lo que un jugador con verdadera habilidad por debajo del nivel mínimo sólo puede ser desclasificado o sobrevalorado, nunca calificado correctamente. En segundo lugar, los jugadores establecidos y con mayor rating tienen un factor K más bajo. Los nuevos jugadores tienen un K  = 40, que cae a K  = 20 después de 30 juegos jugados, y a K  = 10 cuando el jugador alcanza 2400. [31] El sistema actual en los Estados Unidos incluye un esquema de puntos de bonificación que alimenta los puntos de calificación en el sistema para realizar un seguimiento de los jugadores que mejoran y diferentes valores K para diferentes jugadores. [46] Algunos métodos, utilizados en Noruega, por ejemplo, diferencian entre juniors y seniors, y utilizan un factor K mayor para los jugadores jóvenes, incluso aumentando el progreso de la calificación en un 100% cuando obtienen puntuaciones muy por encima de su rendimiento previsto. [47]

Los pisos de calificación en los Estados Unidos funcionan garantizando que un jugador nunca caerá por debajo de cierto límite. Esto también combate la deflación, pero el presidente del Comité de Calificación de la USCF ha sido crítico con este método porque no proporciona puntos extra a los jugadores que mejoran. Un posible motivo para estos pisos de calificación es combatir el sandbagging, es decir, la reducción deliberada de las calificaciones para poder optar a secciones y premios de clases de calificación más bajas. [46]

Calificaciones de computadoras

Las partidas de ajedrez entre humanos y computadoras entre 1997 ( Deep Blue contra Garry Kasparov ) y 2006 demostraron que las computadoras de ajedrez son capaces de derrotar incluso a los jugadores humanos más fuertes. Sin embargo, las calificaciones del motor de ajedrez son difíciles de cuantificar, debido a factores variables como el control del tiempo y el hardware en el que se ejecuta el programa, y ​​también al hecho de que el ajedrez no es un juego limpio. La existencia y magnitud de la ventaja del primer movimiento en ajedrez adquiere gran importancia a nivel informático. Más allá de cierto umbral de habilidad, un motor con blancas debería ser capaz de forzar un empate a pedido desde la posición inicial incluso contra un juego perfecto, simplemente porque las blancas comienzan con una ventaja demasiado grande para perder en comparación con la pequeña magnitud de los errores que es probable que cometan. hacer. En consecuencia, un motor de este tipo tiene más o menos garantía de obtener al menos un 25% incluso en caso de juego perfecto. Las diferencias de habilidad más allá de un cierto punto sólo pueden detectarse si no se parte de la posición inicial habitual, sino que se elige una posición inicial que apenas se pierda para un lado. Debido a estos factores, las calificaciones dependen de los emparejamientos y las vacantes seleccionadas. [48] ​​Las listas de clasificación de motores publicadas, como CCRL , se basan en juegos exclusivos de motor en configuraciones de hardware estándar y no son directamente comparables con las clasificaciones de la FIDE.

Para conocer algunas estimaciones de calificaciones, consulte Motor de ajedrez § Calificaciones .

Usar fuera del ajedrez

Otros juegos de mesa y de cartas

deportes atléticos

El sistema de clasificación Elo se utiliza en la parte de ajedrez del boxeo de ajedrez . Para ser elegible para el boxeo de ajedrez profesional, uno debe tener una calificación Elo de al menos 1600, además de competir en 50 o más combates de boxeo amateur o artes marciales.

El fútbol universitario americano utilizó el método Elo como parte de sus sistemas de clasificación de la Bowl Championship Series de 1998 a 2013 , después de lo cual el BCS fue reemplazado por el College Football Playoff . Jeff Sagarin de USA Today publica clasificaciones de equipos para la mayoría de los deportes estadounidenses, que incluyen clasificaciones del sistema Elo para el fútbol universitario. El uso de sistemas de clasificación se eliminó efectivamente con la creación del College Football Playoff en 2014.

En otros deportes, los individuos mantienen clasificaciones basadas en el algoritmo Elo. Por lo general, no son oficiales y no están respaldados por el organismo rector del deporte. El World Football Elo Ratings es un ejemplo del método aplicado al fútbol masculino . [51] En 2006, Nate Silver , entonces de Baseball Prospectus , adaptó las calificaciones Elo para los equipos de las Grandes Ligas de Béisbol . [52] Basado en esta adaptación, ambos también hicieron simulaciones de Monte Carlo basadas en Elo de las probabilidades de que los equipos lleguen a los playoffs. [53] En 2014, Beyond the Box Score, un sitio de SB Nation , introdujo un sistema de clasificación Elo para el béisbol internacional. [54]

En tenis, la Clasificación Universal de Tenis (UTR) basada en Elo clasifica a los jugadores a escala global, independientemente de su edad, sexo o nacionalidad. Es el sistema de clasificación oficial de organizaciones importantes como la Asociación Intercolegial de Tenis y el World TeamTennis y se utiliza con frecuencia en segmentos del Tennis Channel . El algoritmo analiza más de 8 millones de resultados de partidos de más de 800.000 tenistas de todo el mundo. El 8 de mayo de 2018, Rafael Nadal , después de haber ganado 46 sets consecutivos en partidos en tierra batida, tenía una UTR en tierra batida casi perfecta de 16,42. [55]

En el pool , se utiliza un sistema basado en Elo llamado Fargo Rate para clasificar a los jugadores en competiciones organizadas de aficionados y profesionales. [56]

Una de las pocas clasificaciones basadas en Elo respaldadas por el organismo rector de un deporte es la Clasificación Mundial Femenina de la FIFA , basada en una versión simplificada del algoritmo Elo, que la FIFA utiliza como sistema de clasificación oficial para las selecciones nacionales de fútbol femenino .

Desde la primera lista de clasificación después de la Copa Mundial de la FIFA 2018 , la FIFA ha utilizado Elo para sus clasificaciones mundiales de la FIFA . [57]

En 2015, Nate Silver, editor en jefe del sitio web de comentarios estadísticos FiveThirtyEight , y Reuben Fischer-Baum produjeron calificaciones Elo para cada equipo y temporada de la Asociación Nacional de Baloncesto hasta la temporada 2014. [58] [59] En 2014, FiveThirtyEight creó calificaciones basadas en Elo y proyecciones de victorias para la Liga Nacional de Fútbol Profesional estadounidense . [60]

La Asociación Inglesa de Korfball calificó a los equipos basándose en las calificaciones Elo, para determinar los hándicaps para su competición de copa para la temporada 2011/12.

Se ha desarrollado una clasificación de jugadores de la Liga Nacional de Hockey basada en Elo . [61] La métrica hockey-Elo evalúa el juego bidireccional general de un jugador: anotación Y defensa tanto en situaciones de fuerza pareja como de juego de poder/penalti.

Rugbyleagueratings.com utiliza el sistema de clasificación Elo para clasificar a los equipos de la liga de rugby internacional y de clubes .

Hemaratings.com se inició en 2017 y utiliza un algoritmo Glicko-2 para clasificar a los esgrimistas europeos históricos de artes marciales de todo el mundo en diferentes categorías, como espada larga , estoque , sable histórico y espada y escudo . [62]

Videojuegos y juegos en línea.

Muchos videojuegos utilizan sistemas Elo modificados en juegos competitivos. El juego MOBA League of Legends utilizó un sistema de clasificación Elo antes de la segunda temporada de juego competitivo. [63] El juego de deportes electrónicos Overwatch , la base de la exclusiva organización deportiva profesional Overwatch League , utiliza un derivado del sistema Elo para clasificar a los jugadores competitivos con varios ajustes realizados entre temporadas competitivas. [64] World of Warcraft también usó anteriormente el sistema Glicko-2 para formar equipos y comparar jugadores de Arena, pero ahora usa un sistema similar al TrueSkill de Microsoft . [65] El juego Puzzle Pirates utiliza el sistema de clasificación Elo para determinar las clasificaciones en los distintos rompecabezas. Este sistema también se utiliza en FIFA Mobile para los modos Division Rivals. Otro juego reciente que comienza a utilizar el sistema de clasificación Elo es AirMech , que utiliza clasificaciones Elo [66] para emparejamientos aleatorios/por equipos 1 contra 1, 2 contra 2 y 3 contra 3. RuneScape 3 utilizó el sistema Elo en el relanzamiento del minijuego del cazarrecompensas en 2016. [67] Mechwarrior Online instituyó un sistema Elo para su nuevo modo "Comp Queue", a partir del parche del 20 de junio de 2017. [68] Age of Empires II DE está utilizando el sistema Elo para su clasificación y emparejamiento, con nuevos jugadores a partir de Elo 1000. [69]

Pocos videojuegos utilizan el sistema de clasificación Elo original. Según Lichess , un servidor de ajedrez en línea, el sistema Elo está desactualizado y muchas organizaciones de ajedrez ahora utilizan Glicko-2. [70] PlayerUnknown's Battlegrounds es uno de los pocos videojuegos que utiliza el primer sistema Elo. En Guild Wars , las calificaciones Elo se utilizan para registrar las calificaciones de gremio obtenidas y perdidas en batallas de gremio contra gremio. En 1998, se lanzó una clasificación de juegos en línea llamada Clanbase [71] , que utilizaba el sistema de puntuación Elo para clasificar a los equipos. El valor K inicial era 30, pero se cambió a 5 en enero de 2007 y luego a 15 en julio de 2009. [72] El sitio se desconectó posteriormente en 2013. [73] En 2016 se lanzó un sitio alternativo similar con el nombre Scrimbase , [74] que también utilizó el sistema de puntuación Elo para clasificar a los equipos. Desde 2005, Golden Tee Live clasifica a los jugadores según el sistema Elo. Los nuevos jugadores comienzan en 2100, y los mejores jugadores tienen una puntuación superior a 3000. [75]

A pesar de que muchos videojuegos utilizan diferentes sistemas de emparejamiento , es común que los jugadores de videojuegos clasificados se refieran a todas las clasificaciones de emparejamiento como Elo .

Otro uso

El sistema de clasificación Elo se ha utilizado en biometría suave , [76] que se refiere a la identificación de individuos utilizando descripciones humanas. Se utilizaron descripciones comparativas junto con el sistema de clasificación Elo para proporcionar "mediciones relativas" sólidas y discriminativas, lo que permitió una identificación precisa.

El sistema de clasificación Elo también se ha utilizado en biología para evaluar las jerarquías de dominancia masculina [77] y en automatización y visión por computadora para la inspección de tejidos . [78]

Además, los sitios de jueces en línea también utilizan el sistema de calificación Elo o sus derivados. Por ejemplo, Topcoder utiliza una versión modificada basada en la distribución normal, [79] mientras que Codeforces utiliza otra versión basada en la distribución logística. [80] [81] [82]

El sistema de calificación Elo también se ha observado en aplicaciones de citas, como en la aplicación de emparejamiento Tinder , que utiliza una variante del sistema de calificación Elo. [83]

El YouTuber Marques Brownlee y su equipo utilizaron el sistema de clasificación Elo cuando permitieron a las personas votar entre fotografías digitales tomadas con diferentes modelos de teléfonos inteligentes lanzados en 2022. [84]

El sistema de calificación Elo también se ha utilizado en las clasificaciones de universidades de preferencia reveladas de EE. UU ., como las de la firma de credenciales digitales Parchment. [85] [86] [87]

El sistema de calificación Elo también se ha adoptado para evaluar los modelos de IA. En 2021, Anthropic utilizó el sistema Elo para clasificar los modelos de IA en su investigación. [88] La tabla de clasificación LMSYS empleó brevemente el sistema de clasificación Elo para clasificar los modelos de IA [89] antes de realizar la transición al modelo Bradley-Terry . [90]

Referencias en los medios.

El sistema de calificación Elo apareció de manera destacada en The Social Network durante la escena del algoritmo donde Mark Zuckerberg lanzó Facemash . En la escena, Eduardo Saverin escribe fórmulas matemáticas para el sistema de calificación Elo en la ventana del dormitorio de Zuckerberg. Detrás de escena, afirma la película, se emplea el sistema Elo para clasificar a las chicas según su atractivo. Las ecuaciones que impulsan el algoritmo se muestran brevemente, escritas en la ventana; [91] sin embargo, son ligeramente incorrectos. [ cita necesaria ]

Ver también

Notas

  1. ^ Esto se escribe como "Elo", no "ELO", y generalmente se pronuncia como / ˈ l / o / ˈ ɛ l / en inglés. El nombre original Élő se pronuncia [ˈeːløː] en húngaro.

Referencias

Notas

  1. ^ ab Elo, Arpad E. (agosto de 1967). "El sistema de calificación propuesto por la USCF, su desarrollo, teoría y aplicaciones" (PDF) . Vida del ajedrez . XXII (8): 242–247.
  2. ^ Usando la fórmula 100% / (1 + 10 - D /400 ) para D igual a 100 o 200.
  3. ^ Elo-MMR: un sistema de clasificación para competiciones multijugador masivas
  4. ^ Redman, Tim (julio de 2002). "Recordando a Richard, Parte II" (PDF) . Boletín de ajedrez de Illinois. Archivado (PDF) desde el original el 30 de junio de 2020 . Consultado el 30 de junio de 2020 .
  5. ^ Elo, Arpad E. (5 de marzo de 1960). "El sistema de clasificación de la USCF" (PDF) . Vida del ajedrez . USCF . XIV (13): 2.
  6. ^ Elo 1986, pag. 4
  7. ^ Elo, Arpad E. (junio de 1961). "El sistema de clasificación de la USCF: un logro científico" (PDF) . Vida del ajedrez . USCF . XVI (6): 160–161.
  8. ^ "Acerca de la USCF". Federación de Ajedrez de Estados Unidos. Archivado desde el original el 26 de septiembre de 2008 . Consultado el 10 de noviembre de 2008 .
  9. ^ Elo 1986, Prefacio a la primera edición
  10. ^ Elo 1986.
  11. ^ Elo 1986, cap. 8.73.
  12. ^ Glickman, Mark E. y Jones, Albyn C., "Calificación del sistema de clasificación del ajedrez" (1999), Chance, 12, 2, 21-28.
  13. ^ Glickman, Mark E. (1995), "Una guía completa para las clasificaciones de ajedrez". Una versión posterior de este artículo apareció en el American Chess Journal , 3, págs. 59-102.
  14. ^ ab Reglamento de clasificación de la FIDE vigente a partir del 1 de julio de 2017. FIDE Online (fide.com) (Reporte). FIDE . Archivado desde el original el 27 de noviembre de 2019 . Consultado el 9 de septiembre de 2017 .
  15. ^ Elo 1986, p159.
  16. ^ ab El sistema de clasificación de ajedrez de EE. UU. (PDF) (Reporte). 24 de abril de 2017. Archivado (PDF) desde el original el 7 de febrero de 2020 . Consultado el 16 de febrero de 2020 a través de glicko.net.
  17. ^ Anand perdió el No. 1 ante Morozevich (Chessbase, 24 de agosto de 2008 Archivado el 10 de septiembre de 2008 en Wayback Machine ), luego lo recuperó y luego Carlsen tomó el No. 1 (Chessbase, 5 de septiembre de 2008 Archivado el 9 de noviembre de 2012 en Wayback Machine ), luego Ivanchuk (Chessbase, 11 de septiembre de 2008 Archivado el 13 de septiembre de 2008 en Wayback Machine ), y finalmente Topalov (Chessbase, 13 de septiembre de 2008 Archivado el 15 de septiembre de 2008 en Wayback Machine )
  18. ^ Administrador. "Calculadoras de clasificación de ajedrez de la FIDE: calculadora de cambio de clasificación de ajedrez". ratings.fide.com . Archivado desde el original el 28 de septiembre de 2017 . Consultado el 28 de septiembre de 2017 .
  19. ^ Federación de Ajedrez de EE. UU. Archivado el 18 de junio de 2012 en la Wayback Machine.
  20. ^ Cita del glosario de la USCF: "un jugador que compite en más de 300 juegos con una calificación superior a 2200" Archivado el 8 de marzo de 2013 en Wayback Machine de la Federación de Ajedrez de Estados Unidos.
  21. ^ "Fórmulas aproximadas para el sistema de clasificación de ajedrez de EE. UU." Archivado el 4 de noviembre de 2019 en Wayback Machine , Federación de Ajedrez de Estados Unidos , Mark Glickman, abril de 2017
  22. ^ Elo 1986, cap. 1.12.
  23. ^ Bien, IJ (1955). "Sobre la calificación de los jugadores de ajedrez". La Gaceta Matemática . 39 (330): 292–296. doi :10.2307/3608567. JSTOR  3608567. S2CID  158885108.
  24. ^ David, HA (1959). "Torneos y comparaciones por parejas". Biometrika . 46 (1/2): 139-149. doi :10.2307/2332816. JSTOR  2332816.
  25. ^ Trawinski, BJ; David, HA (1963). "Selección del mejor tratamiento en un experimento de comparación pareada". Anales de estadística matemática . 34 (1): 75–91. doi : 10.1214/aoms/1177704243 .
  26. ^ Bühlmann, Hans; Huber, Peter J. (1963). "Comparación por parejas y clasificación en torneos". Los anales de la estadística matemática . 34 (2): 501–510. doi : 10.1214/aoms/1177704161 .
  27. ^ Elo 1986, pag. 141, cap. 8.4& Probabilidad logística como base de calificación
  28. ^ "El sistema de clasificación Elo: corrigiendo las tablas de expectativas". 30 de marzo de 2011.
  29. ^ Elo 1986, cap. 8.73
  30. ^ Un artículo clave de Sonas es Sonas, Jeff. "La fórmula de calificación de Sonas: ¿mejor que Elo?". chessbase.com . Archivado desde el original el 5 de marzo de 2005 . Consultado el 1 de mayo de 2005 .
  31. ^ ab Reglamento de clasificación de la FIDE en vigor a partir del 1 de julio de 2014. FIDE Online (fide.com) (Reporte). FIDE . 2014-07-01. Archivado desde el original el 1 de julio de 2014 . Consultado el 1 de julio de 2014 .
  32. ^ Reglamento de clasificación de la FIDE válido desde el 1 de julio de 2013 hasta el 1 de julio de 2014. FIDE Online (fide.com) (Reporte). 2013-07-01. Archivado desde el original el 15 de julio de 2014 . Consultado el 1 de julio de 2014 .
  33. ^ "Cambios en las regulaciones de calificación". FIDE Online (fide.com) (Presione soltar). FIDE . 2011-07-21. Archivado desde el original el 13 de mayo de 2012 . Consultado el 19 de febrero de 2012 .
  34. ^ "Factor K". Club de ajedrez.com . Ayuda de la CPI. 2002-10-18. Archivado desde el original el 13 de marzo de 2012 . Consultado el 19 de febrero de 2012 .
  35. ^ Kiraly, F.; Qian, Z. (2017). "Modelado de deportes competitivos: modelos Bradley-Terry-Elo para el aprendizaje supervisado y en línea de los resultados de la competición emparejada". arXiv : 1701.08055 [estad.ML].
  36. ^ abc Szczecinski, Leszek; Djebbi, Aymen (1 de septiembre de 2020). "Comprender los sorteos del algoritmo de calificación Elo". Revista de Análisis Cuantitativo en el Deporte . 16 (3): 211–220. doi :10.1515/jqas-2019-0102. ISSN  1559-0410. S2CID  219784913.
  37. ^ Davidson, Roger R. (1970). "Sobre la ampliación del modelo Bradley-Terry para acomodar vínculos en experimentos de comparación pareada". Revista de la Asociación Estadounidense de Estadística . 65 (329): 317–328. doi :10.2307/2283595. ISSN  0162-1459. JSTOR  2283595.
  38. ^ Guía de ajedrez para padres Archivado el 28 de mayo de 2008 en Wayback Machine Skittles , Don Heisman, Chesscafe.com, 4 de agosto de 2002
  39. ^ "Chess News - El plan Nunn para el Campeonato Mundial de Ajedrez". ChessBase.com. 8 de junio de 2005. Archivado desde el original el 19 de noviembre de 2011 . Consultado el 19 de febrero de 2012 .
  40. ^ ab "Presentación de los puntos Planeswalker". 6 de septiembre de 2011. Archivado desde el original el 30 de septiembre de 2011 . Consultado el 9 de septiembre de 2011 .
  41. ^ ab "Llegar al grano". 9 de septiembre de 2011. Archivado desde el original el 18 de octubre de 2016 . Consultado el 9 de septiembre de 2011 .
  42. ^ ab Jeff Sonas (27 de julio de 2009). "Calificación de la inflación: sus causas y posibles curas". chessbase.com . Archivado desde el original el 23 de noviembre de 2013 . Consultado el 27 de agosto de 2009 .
  43. ^ ab "Viswanathan Anand". Juegos de ajedrez.com. Archivado desde el original el 28 de marzo de 2013 . Consultado el 14 de agosto de 2012 .
  44. ^ Regan, Kenneth; Haworth, chico (4 de agosto de 2011). "Clasificaciones de ajedrez intrínsecas". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 25 (1): 834–839. doi : 10.1609/aaai.v25i1.7951 . ISSN  2374-3468. S2CID  15489049. Archivado desde el original el 20 de abril de 2021 . Consultado el 1 de septiembre de 2021 .
  45. ^ Bergersen, Per A. "ELO-SYSTEMET" (en noruego). Federación Noruega de Ajedrez. Archivado desde el original el 8 de marzo de 2013 . Consultado el 21 de octubre de 2013 .
  46. ^ abc Una conversación con Mark Glickman [1] Archivado el 7 de agosto de 2011 en Wayback Machine , publicado en Chess Life en la edición de octubre de 2006
  47. ^ "Elo-sistema". Noruega Sjakkforbund . Archivado desde el original el 5 de diciembre de 2013 . Consultado el 23 de agosto de 2009 .
  48. ^ Larry Kaufman, Opciones del tablero de ajedrez (2021), p. 179
  49. ^ "Explicación de las calificaciones de backgammon". resultados.ukbgf.com . Archivado desde el original el 14 de noviembre de 2019 . Consultado el 1 de junio de 2020 .
  50. ^ "¡Juega! Glosario Pokémon: Elo". Archivado desde el original el 15 de enero de 2015 . Consultado el 15 de enero de 2015 .
  51. ^ Lyons, Keith (10 de junio de 2014). "¿Cuáles son las clasificaciones Elo del fútbol mundial?". La conversación . Archivado desde el original el 15 de junio de 2019 . Consultado el 3 de julio de 2019 .
  52. ^ Plata, Nate (28 de junio de 2006). "Mentiras, Malditas Mentiras: ¿Somos Elo?". Archivado desde el original el 22 de agosto de 2006 . Consultado el 13 de enero de 2023 .
  53. ^ "Probabilidades de postemporada, versión ELO". Baseballprospectus.com. Archivado desde el original el 7 de marzo de 2012 . Consultado el 19 de febrero de 2012 .
  54. ^ Cole, Bryan (15 de agosto de 2014). "Ranking Elo del béisbol internacional". Más allá de la puntuación de la caja . Nación SB . Archivado desde el original el 2 de enero de 2016 . Consultado el 4 de noviembre de 2015 .
  55. ^ "¿Es Rafa la CABRA de Clay?". 8 de mayo de 2018. Archivado desde el original el 27 de febrero de 2021 . Consultado el 22 de agosto de 2018 .
  56. ^ "Tasa Fargo" . Consultado el 31 de marzo de 2022 .
  57. ^ "Revisión de la Clasificación Mundial FIFA/Coca-Cola" (PDF) . Fifa. Junio ​​de 2018. Archivado desde el original (PDF) el 12 de junio de 2018 . Consultado el 30 de junio de 2020 .
  58. ^ Plata, Nate; Fischer-Baum, Reuben (21 de mayo de 2015). "Cómo calculamos las calificaciones Elo de la NBA". Cinco Treinta Ocho . Archivado desde el original el 23 de mayo de 2015.
  59. ^ Reuben Fischer-Baum y Nate Silver, "La historia completa de la NBA", FiveThirtyEight, 21 de mayo de 2015.[2] Archivado el 23 de mayo de 2015 en Wayback Machine.
  60. ^ Plata, Nate (4 de septiembre de 2014). "Presentamos las calificaciones Elo de la NFL". Cinco Treinta Ocho. Archivado desde el original el 12 de septiembre de 2015.
    Paine, Neil (10 de septiembre de 2015). "Las calificaciones Elo de la NFL han vuelto". Cinco Treinta Ocho. Archivado desde el original el 11 de septiembre de 2015..
  61. ^ "Revolución de las estadísticas de hockey: ¿cómo eligen los equipos a los jugadores?". Revolución de las estadísticas de hockey . Archivado desde el original el 2 de octubre de 2016 . Consultado el 29 de septiembre de 2016 .
  62. ^ "Acerca de las calificaciones: calificaciones de Hema". Hemarantes . Consultado el 30 de enero de 2024 .
  63. ^ "Emparejamiento | LoL - League of Legends". Na.leagueoflegends.com. 2010-07-06. Archivado desde el original el 26 de febrero de 2012 . Consultado el 19 de febrero de 2012 .
  64. ^ "Bienvenidos a la octava temporada de juego competitivo". PlayOverwatch.com . Blizzard Entertainment. Archivado desde el original el 12 de marzo de 2018 . Consultado el 11 de marzo de 2018 .
  65. ^ "World of Warcraft Europa -> La Arena". Wow-europe.com. 2011-12-14. Archivado desde el original el 23 de septiembre de 2010 . Consultado el 19 de febrero de 2012 .
  66. ^ "El desarrollador de AirMech explica por qué utilizan Elo". Archivado desde el original el 17 de febrero de 2015 . Consultado el 15 de enero de 2015 .
  67. ^ [3] [ enlace muerto ]
  68. ^ "MWO: Noticias". mwomercs.com . Archivado desde el original el 27 de agosto de 2018 . Consultado el 27 de junio de 2017 .
  69. ^ "Age of Empires II: Tablas de clasificación DE - Age of Empires". 14 de noviembre de 2019. Archivado desde el original el 27 de enero de 2022 . Consultado el 27 de enero de 2022 .
  70. ^ "Preguntas frecuentes: calificaciones". lichess.org . Archivado desde el original el 2 de abril de 2019 . Consultado el 11 de noviembre de 2020 .
  71. ^ "Registro de Wayback Machine de Clanbase.com". Archivado desde el original el 5 de noviembre de 2017 . Consultado el 29 de octubre de 2017 .
  72. ^ "Escalera del gremio". Wiki.guildwars.com. Archivado desde el original el 1 de marzo de 2012 . Consultado el 19 de febrero de 2012 .
  73. ^ "Mensaje de despedida de Clanbase". Archivado desde el original el 24 de diciembre de 2013 . Consultado el 29 de octubre de 2017 .
  74. ^ "Escalera de juegos Scrimbase". Archivado desde el original el 30 de octubre de 2017 . Consultado el 29 de octubre de 2017 .
  75. ^ "Página de clasificación de jugadores de fans de Golden Tee". 26 de diciembre de 2007. Archivado desde el original el 1 de enero de 2014 . Consultado el 31 de diciembre de 2013 .
  76. ^ "Uso de descripciones humanas comparadas para biometría suave" Archivado el 8 de marzo de 2013 en Wayback Machine , DA Reid y MS Nixon, Conferencia conjunta internacional sobre biometría (IJCB), 2011
  77. ^ Pörschmann; et al. (2010). "El éxito reproductivo masculino y sus correlatos de comportamiento en un mamífero poligínico, el lobo marino de Galápagos (Zalophus wollebaeki)". Ecología Molecular . 19 (12): 2574–86. doi :10.1111/j.1365-294X.2010.04665.x. PMID  20497325. S2CID  19595719.
  78. ^ Tsang; et al. (2016). "Inspección de tejidos basada en el método de calificación Elo". Reconocimiento de patrones . 51 : 378–394. Código Bib : 2016PatRe..51..378T. doi :10.1016/j.patcog.2015.09.022. hdl : 10722/229176 . Archivado desde el original el 5 de noviembre de 2020 . Consultado el 5 de mayo de 2020 .
  79. ^ "Sistema de clasificación de competencia de algoritmos". 23 de diciembre de 2009. Archivado desde el original el 2 de septiembre de 2011 . Consultado el 16 de septiembre de 2011 .
  80. ^ "Preguntas frecuentes: ¿Cuáles son las calificaciones y las divisiones?". Archivado desde el original el 25 de septiembre de 2011 . Consultado el 16 de septiembre de 2011 .
  81. ^ "Distribución de calificaciones". Archivado desde el original el 13 de octubre de 2011 . Consultado el 16 de septiembre de 2011 .
  82. ^ "Con respecto a la calificación: Parte 2". Archivado desde el original el 13 de octubre de 2011 . Consultado el 16 de septiembre de 2011 .
  83. ^ "El emparejamiento de Tinder se parece más a Warcraft de lo que piensas: Kill Screen". Matar pantalla . 2016-01-14. Archivado desde el original el 19 de agosto de 2017 . Consultado el 19 de agosto de 2017 .
  84. ^ "¡La mejor cámara para teléfonos inteligentes de 2022!". YouTube . 2022-12-22 . Consultado el 7 de enero de 2023 .
  85. ^ Avery, Christopher N .; Glickman, Mark E.; Hoxby, Carolina M.; Metrick, Andrew (1 de febrero de 2013). "Una clasificación de preferencia revelada de colegios y universidades de EE. UU.". La revista trimestral de economía . 128 (1): 425–467. doi :10.1093/qje/qjs043.
  86. ^ Irwin, Neil (4 de septiembre de 2014). "Por qué las universidades con un enfoque distinto tienen una ventaja oculta". El resultado . Los New York Times . Consultado el 9 de mayo de 2023 .
  87. ^ Selingo, Jeffrey J. (23 de septiembre de 2015). "Cuando los estudiantes tienen opciones entre las mejores universidades, ¿cuál eligen?". El Washington Post . Consultado el 9 de mayo de 2023 .
  88. ^ Askell, Amanda; Bai, Yuntao; Chen, Anna; Drenaje, amanecer; Ganguli, Profundo; Henighan, Tom; Jones, Andy; José, Nicolás; Mann, Ben (9 de diciembre de 2021), Asistente de lenguaje general como laboratorio de alineación, doi :10.48550/arXiv.2112.00861 , consultado el 28 de febrero de 2024
  89. ^ "Semana 8 de la clasificación de Chatbot Arena: Presentación de MT-Bench y Vicuna-33B | LMSYS Org". lmsys.org . Consultado el 28 de febrero de 2024 .
  90. ^ "Chatbot Arena: nuevos modelos y actualización del sistema Elo | LMSYS Org". lmsys.org . Consultado el 28 de febrero de 2024 .
  91. ^ Guión de The Social Network, Sony Pictures Archivado el 4 de septiembre de 2012 en Wayback Machine , p. dieciséis

Fuentes

Otras lecturas

enlaces externos