La expectativa pitagórica es una fórmula de análisis deportivo ideada por Bill James para estimar el porcentaje de partidos que un equipo de béisbol "debería" haber ganado en función de la cantidad de carreras que anotó y permitió. La comparación del porcentaje de victorias real de un equipo con el porcentaje de victorias pitagóricas se puede utilizar para hacer predicciones y evaluar qué equipos tienen un rendimiento superior y cuáles no. El nombre proviene de la semejanza de la fórmula con el teorema de Pitágoras . [1]
La fórmula básica es:
donde Win Ratio es la proporción de victorias generada por la fórmula. El número esperado de victorias sería la proporción de victorias esperada multiplicada por el número de juegos jugados.
Empíricamente, esta fórmula se correlaciona bastante bien con el desempeño real de los equipos de béisbol. Sin embargo, desde que se inventó esta fórmula, los estadísticos descubrieron que tenía un error bastante rutinario, generalmente de unos tres juegos de diferencia.
Por ejemplo, los Yankees de Nueva York de 2002 anotaron 897 carreras y permitieron 697 carreras: según la fórmula original de James, los Yankees deberían haber terminado con un porcentaje de victorias de .624.
Basándose en una temporada de 162 juegos, los Yankees de 2002 deberían haber terminado con un récord de 101-61: en realidad terminaron con un récord de 103-58. [2]
En un esfuerzo por corregir este error rutinario, los estadísticos han realizado numerosas búsquedas para encontrar el exponente ideal.
Si se utiliza un exponente de un solo número, 1,83 es el más preciso y es el que utiliza baseball-reference.com. [3] Por lo tanto, la fórmula actualizada se lee de la siguiente manera:
La más conocida es la fórmula de Pythagenport [4] desarrollada por Clay Davenport de Baseball Prospectus :
Concluyó que el exponente debería calcularse a partir de un equipo determinado en función de las carreras anotadas, las carreras permitidas y los partidos. Al no reducir el exponente a un solo número para los equipos en cualquier temporada, Davenport pudo informar un error cuadrático medio de 3,991 en lugar de un error cuadrático medio de 4,126 para un exponente de 2. [4]
Menos conocido pero igualmente (si no más) efectivo es elFórmula de Pythagenpat , desarrollada por David Smyth. [5]
Davenport expresó su apoyo a esta fórmula, diciendo:
Después de una revisión más profunda, yo (Clay) he llegado a la conclusión de que el llamado método Smyth/Patriot, también conocido como Pythagenpat, se ajusta mejor. En ese sentido, X = (( rs + ra )/ g ) 0,287 , aunque hay cierto margen de maniobra para el desacuerdo en el exponente. De todos modos, esa ecuación es más simple, más elegante y obtiene la mejor respuesta en un rango más amplio de ejecuciones anotadas que Pythagenport, incluido el valor obligatorio de 1 en 1 rpg. [6]
Estas fórmulas solo son necesarias cuando se trata de situaciones extremas en las que el número promedio de carreras anotadas por partido es muy alto o muy bajo. En la mayoría de las situaciones, simplemente elevando al cuadrado cada variable se obtienen resultados precisos.
Existen algunas desviaciones estadísticas sistemáticas entre el porcentaje de victorias real y el porcentaje de victorias esperado, que incluyen la calidad del bullpen y la suerte. Además, la fórmula tiende a retroceder hacia la media , ya que los equipos que ganan muchos partidos tienden a estar subrepresentados por la fórmula (lo que significa que "deberían" haber ganado menos partidos), y los equipos que pierden muchos partidos tienden a estar sobrerrepresentados (deberían" haber ganado más).
Un ejemplo notable son los Rangers de Texas de 2016 , que superaron su récord previsto por 13 juegos, terminando con 95-67 mientras que tenían un récord esperado de victorias y derrotas de 82-80.
En su Informe de clasificación ajustada, [7] Baseball Prospectus hace referencia a diferentes "órdenes" de victorias para un equipo. El orden básico de victorias es simplemente la cantidad de juegos que han ganado. Sin embargo, debido a que el récord de un equipo puede no reflejar su verdadero talento debido a la suerte, se desarrollaron diferentes medidas del talento de un equipo.
Las victorias de primer orden, basadas en el diferencial de carreras puro , son la cantidad de victorias esperadas generadas por la fórmula "pythagenport" (ver arriba). Además, para filtrar aún más las distorsiones de la suerte, los sabermetristas también pueden calcular las carreras esperadas anotadas y permitidas de un equipo a través de una ecuación de tipo carreras creadas (la más precisa a nivel de equipo es Base Runs ). Estas fórmulas dan como resultado la cantidad esperada de carreras del equipo dadas sus estadísticas ofensivas y defensivas (total de sencillos, dobles, bases por bolas, etc.), lo que ayuda a eliminar el factor suerte del orden en el que se produjeron los hits y las bases por bolas del equipo dentro de una entrada. Usando estas estadísticas, los sabermetristas pueden calcular cuántas carreras "debería" haber anotado o permitido un equipo.
Al introducir estas carreras esperadas anotadas y permitidas en la fórmula pitagórica, se pueden generar victorias de segundo orden, la cantidad de victorias que un equipo merece en función de la cantidad de carreras que debería haber anotado y permitido dadas sus estadísticas ofensivas y defensivas. Las victorias de tercer orden son victorias de segundo orden que se han ajustado en función de la fuerza del calendario (la calidad del pitcheo y el bateo del oponente). Se ha demostrado [ ¿según quién? ] que el porcentaje de victorias de segundo y tercer orden predice el porcentaje de victorias real futuro del equipo mejor que el porcentaje de victorias real y el porcentaje de victorias de primer orden. [ cita requerida ]
Inicialmente, la correlación entre la fórmula y el porcentaje real de victorias era simplemente una observación experimental. En 2003, Hein Hundal proporcionó una derivación inexacta de la fórmula y demostró que el exponente pitagórico era aproximadamente 2/( σ √ π ) donde σ era la desviación estándar de las carreras anotadas por todos los equipos dividida por el número promedio de carreras anotadas. [8] En 2006, el profesor Steven J. Miller proporcionó una derivación estadística de la fórmula [9] bajo algunas suposiciones sobre los juegos de béisbol: si las carreras de cada equipo siguen una distribución de Weibull y las carreras anotadas y permitidas por juego son estadísticamente independientes , entonces la fórmula da la probabilidad de ganar. [9]
En términos más simples, la fórmula pitagórica con exponente 2 se deduce inmediatamente de dos supuestos: que los equipos de béisbol ganan en proporción a su "calidad", y que su "calidad" se mide por la relación entre sus carreras anotadas y sus carreras permitidas. Por ejemplo, si el equipo A ha anotado 50 carreras y ha permitido 40, su medida de calidad sería 50/40 o 1,25. La medida de calidad para su oponente (colectivo), el equipo B, en los partidos jugados contra A, sería 40/50 (ya que las carreras anotadas por A son carreras permitidas por B, y viceversa), o 0,8. Si cada equipo gana en proporción a su calidad, la probabilidad de que A gane sería 1,25 / (1,25 + 0,8), lo que equivale a 50 2 / (50 2 + 40 2 ), la fórmula pitagórica. La misma relación es válida para cualquier número de carreras anotadas y permitidas, como se puede ver escribiendo la probabilidad de "calidad" como [50/40] / [ 50/40 + 40/50], y despejando las fracciones .
La suposición de que una medida de la calidad de un equipo está dada por la proporción de sus carreras anotadas y permitidas es a la vez natural y plausible; esta es la fórmula por la que se determinan las victorias individuales (juegos). [Hay otros candidatos naturales y plausibles para las medidas de calidad del equipo, que, suponiendo un modelo de "calidad", conducen a fórmulas de expectativa de porcentaje de victorias correspondientes que son aproximadamente tan precisas como las pitagóricas.] La suposición de que los equipos de béisbol ganan en proporción a su calidad no es natural, pero es plausible. No es natural porque el grado en que los concursantes deportivos ganan en proporción a su calidad depende del papel que juega el azar en el deporte. Si el azar juega un papel muy importante, entonces incluso un equipo con una calidad mucho mayor que sus oponentes ganará solo un poco más a menudo de lo que pierde. Si el azar juega un papel muy pequeño, entonces un equipo con una calidad solo ligeramente superior a sus oponentes ganará mucho más a menudo de lo que pierde. Esto último es más cierto en el baloncesto, por varias razones, entre ellas que se anotan muchos más puntos que en el béisbol (lo que da al equipo con mayor calidad más oportunidades de demostrar esa calidad, con correspondientemente menos oportunidades para que el azar o la suerte permitan al equipo de menor calidad ganar).
El béisbol tiene la cantidad justa de posibilidades para permitir que los equipos ganen aproximadamente en proporción a su calidad, es decir, para producir un resultado aproximadamente pitagórico con exponente dos. El exponente más alto del baloncesto, alrededor de 14 (ver más abajo), se debe al papel menor que juega el azar en el baloncesto. El hecho de que el exponente pitagórico más preciso (constante) para el béisbol sea alrededor de 1,83, ligeramente menos de 2, se puede explicar por el hecho de que hay (aparentemente) un poco más de posibilidades en el béisbol de las que permitirían a los equipos ganar en proporción precisa a su calidad. Bill James se dio cuenta de esto hace mucho tiempo cuando observó que una mejora en la precisión de su fórmula pitagórica original con exponente dos se podía lograr simplemente añadiendo un número constante al numerador y el doble de la constante al denominador. Esto acerca el resultado ligeramente más a 0,500, que es lo que haría un papel ligeramente mayor para el azar, y lo que también hace el uso del exponente de 1,83 (o cualquier exponente positivo menor que dos). Se pueden probar varios candidatos para esa constante para ver cuál se ajusta mejor a los datos de la vida real.
El hecho de que el exponente más preciso de las fórmulas pitagóricas del béisbol sea una variable que depende del total de carreras por partido también se explica por el papel del azar, ya que cuantas más carreras se anoten, menos probable es que el resultado se deba al azar, en lugar de a la mayor calidad del equipo ganador que se haya manifestado durante las oportunidades de anotar. Cuanto mayor sea el exponente, más lejos de un porcentaje de victorias de 0,500 estará el resultado de la fórmula pitagórica correspondiente, que es el mismo efecto que crea una menor función del azar. El hecho de que las fórmulas precisas para exponentes variables produzcan exponentes mayores a medida que aumenta el total de carreras por partido concuerda, por tanto, con una comprensión del papel que desempeña el azar en los deportes.
En su Baseball Abstract de 1981, James desarrolló explícitamente otra de sus fórmulas, llamada fórmula log5 (que desde entonces ha demostrado ser empíricamente precisa), utilizando la noción de que 2 equipos tienen un porcentaje de victorias cara a cara entre sí en proporción a una medida de "calidad". Su medida de calidad era la mitad de la "tasa de victorias" del equipo (o "probabilidades de ganar"). La tasa de victorias o las probabilidades de ganar es la relación entre las victorias del equipo contra la liga y sus derrotas contra la liga. [James no parecía darse cuenta en ese momento de que su medida de calidad se podía expresar en términos de la tasa de victorias. Dado que en el modelo de calidad cualquier factor constante en una medida de calidad termina por cancelarse, hoy en día es mejor tomar la medida de calidad simplemente como la tasa de victorias en sí, en lugar de la mitad de ella.] Luego afirmó que la fórmula pitagórica, que había desarrollado antes empíricamente, para predecir el porcentaje de victorias a partir de carreras, era "lo mismo" que la fórmula log5, aunque sin una demostración o prueba convincente. Su supuesta demostración de que eran lo mismo se redujo a mostrar que las dos fórmulas diferentes se simplificaban a la misma expresión en un caso especial, que en sí mismo se trata de manera vaga, y no hay reconocimiento de que el caso especial no es el general. Tampoco promulgó posteriormente al público ningún modelo explícito basado en la calidad para la fórmula pitagórica. A partir de 2013, todavía hay poca conciencia pública en la comunidad sabermétrica de que un modelo simple de "los equipos ganan en proporción a la calidad", que utiliza la proporción de carreras como medida de calidad, conduce directamente a la fórmula pitagórica original de James.
En el Abstract de 1981, James también dice que primero había intentado crear una fórmula "log5" utilizando simplemente los porcentajes de victorias de los equipos en lugar de las carreras en la fórmula pitagórica, pero que no dio resultados válidos. La razón, desconocida para James en ese momento, es que su intento de formulación implica que la calidad relativa de los equipos está dada por la relación de sus porcentajes de victorias. Sin embargo, esto no puede ser cierto si los equipos ganan en proporción a su calidad, ya que un equipo con un porcentaje de victorias de .900 gana contra sus oponentes, cuyo porcentaje de victorias general es de aproximadamente .500, en una relación de 9 a 1, en lugar de la relación de 9 a 5 de sus porcentajes de victorias de .900 a .500. El fracaso empírico de su intento condujo a su enfoque final, más indirecto (e ingenioso) y exitoso para log5, que todavía usaba consideraciones de calidad, aunque sin una apreciación completa de la simplicidad final del modelo y de su aplicabilidad más general y verdadera similitud estructural con su fórmula pitagórica.
El ejecutivo deportivo estadounidense Daryl Morey fue el primero en adaptar la expectativa pitagórica de James al baloncesto profesional mientras era investigador en STATS, Inc. Descubrió que usar 13,91 para los exponentes proporcionaba un modelo aceptable para predecir los porcentajes de victorias y derrotas:
El "Teorema de Pitágoras modificado" de Daryl se publicó por primera vez en STATS Basketball Scoreboard, 1993-94 . [10]
El conocido analista de baloncesto Dean Oliver también aplicó la teoría pitagórica de James al baloncesto profesional. El resultado fue similar.
Otro destacado estadístico del baloncesto , John Hollinger , utiliza una fórmula pitagórica similar, excepto que tiene como exponente 16,5.
La fórmula también ha sido utilizada en la Liga Nacional de Fútbol por el sitio web de estadísticas de fútbol y editor Football Outsiders , donde se la conoce como proyección pitagórica .
La fórmula se utiliza con un exponente de 2,37 y da un porcentaje de victorias proyectado. Luego, ese porcentaje de victorias se multiplica por 17 (por la cantidad de partidos jugados en una temporada de la NFL a partir de 2021) para obtener una cantidad proyectada de victorias. Esta cantidad proyectada que da la ecuación se conoce como victorias pitagóricas.
La edición de 2011 del Football Outsiders Almanac [11] afirma: "Desde 1988 hasta 2004, 11 de los 16 Super Bowls fueron ganados por el equipo que lideró la NFL en victorias pitagóricas, mientras que solo siete fueron ganados por el equipo con la mayor cantidad de victorias reales. Los campeones del Super Bowl que lideraron la liga en victorias pitagóricas pero no en victorias reales incluyen a los Patriots de 2004 , los Ravens de 2000 , los Rams de 1999 y los Broncos de 1997 ".
Aunque Football Outsiders Almanac reconoce que la fórmula había sido menos exitosa a la hora de elegir a los participantes del Super Bowl entre 2005 y 2008, se reafirmó en 2009 y 2010. Además, "la proyección pitagórica también sigue siendo un predictor valioso de la mejora de un año a otro. Los equipos que ganan un mínimo de un partido completo más que su proyección pitagórica tienden a retroceder el año siguiente; los equipos que ganan un mínimo de un partido completo menos que su proyección pitagórica tienden a mejorar el año siguiente, en particular si estaban en .500 o por encima de él a pesar de su bajo rendimiento.
Por ejemplo, los New Orleans Saints de 2008 tuvieron un récord de 8-8 a pesar de 9,5 victorias pitagóricas, lo que da una pista de la mejora que se produjo con la temporada de campeonato del año siguiente .
Los Minnesota Vikings de 2022 fueron un gran caso atípico en este sentido, con un récord de 13-4 a pesar de tener 8,4 victorias pitagóricas. [12]
En 2013, el estadístico Kevin Dayaratna y el matemático Steven J. Miller proporcionaron una justificación teórica para aplicar la expectativa pitagórica al hockey sobre hielo. En particular, descubrieron que al hacer las mismas suposiciones que Miller hizo en su estudio de 2007 sobre el béisbol, específicamente que los goles anotados y los goles permitidos siguen distribuciones de Weibull estadísticamente independientes , la expectativa pitagórica funciona tan bien para el hockey sobre hielo como para el béisbol. El estudio de Dayaratna y Miller verificó la legitimidad estadística de hacer estas suposiciones y estimó que el exponente pitagórico para el hockey sobre hielo es ligeramente superior a 2. [13]