PECOTA , acrónimo de Player Empirical Comparison and Optimization Test Algorithm , [1] es un sistema sabermétrico para pronosticar el rendimiento de los jugadores de las Grandes Ligas de Béisbol . La palabra es un acrónimo basado en el nombre del veterano jugador de las Grandes Ligas Bill Pecota , quien, con un promedio de bateo de por vida de .249, es quizás representativo del típico jugador de PECOTA. PECOTA fue desarrollado por Nate Silver en 2002-2003 y presentado al público en el libro Baseball Prospectus 2003. [ 2] Baseball Prospectus (BP) ha sido propietario de PECOTA desde 2003; Silver administró PECOTA desde 2003 hasta 2009. A partir de la primavera de 2009, BP asumió la responsabilidad de producir los pronósticos anuales, lo que convirtió a 2010 en la primera temporada de béisbol en la que Silver no jugó ningún papel en la producción de proyecciones de PECOTA. [3]
Uno de los varios sistemas estadísticos ampliamente publicitados de pronósticos del rendimiento de los jugadores, los pronósticos de jugadores PECOTA son comercializados por BP como un producto de béisbol de fantasía . Desde 2003, los pronósticos anuales PECOTA se han publicado tanto en los libros anuales Baseball Prospectus como, en forma más detallada, en el sitio web basado en suscripción BaseballProspectus.com. [4] PECOTA también inspiró algunos sistemas de proyección análogos para otros deportes profesionales: KUBIAK para la Liga Nacional de Fútbol Americano , SCHOENE [5] y CARMELO [6] para la Asociación Nacional de Baloncesto , y VUKOTA [7] para la Liga Nacional de Hockey .
PECOTA pronostica el rendimiento de un jugador en todas las categorías principales utilizadas en los juegos típicos de béisbol de fantasía; también pronostica la producción en categorías sabermétricas avanzadas desarrolladas por Baseball Prospectus (por ejemplo, VORP y EqA ). Además, PECOTA pronostica varios diagnósticos resumidos, como tasas de ruptura, tasas de mejora y tasas de deserción, así como los valores de mercado de los jugadores. La lógica y la metodología subyacentes a PECOTA se han descrito en varias publicaciones, pero las fórmulas detalladas son exclusivas y no se han compartido con la comunidad de investigación del béisbol. [ cita requerida ]
Silver describió la inspiración para su enfoque de la siguiente manera:
La idea básica detrás de PECOTA es realmente una fusión de dos cosas diferentes: el trabajo de [Bill] James sobre las puntuaciones de similitud y el trabajo de Gary Huckabay sobre Vlad, el sistema de proyección anterior de [Baseball Prospectus], que intentaba asignar a los jugadores a una serie de trayectorias profesionales diferentes. [8] Creo que Gary utilizó algo así como trece o quince trayectorias profesionales separadas, y todo lo que PECOTA está haciendo en realidad es llevar eso al extremo lógico, donde esencialmente hay una trayectoria profesional separada para cada jugador en la historia de las Grandes Ligas. Las puntuaciones de comparabilidad son el mecanismo por el cual selecciona y elige entre esas trayectorias profesionales. [9]
PECOTA se basa en comparar las estadísticas de rendimiento pasado de un jugador determinado con el rendimiento de jugadores de béisbol de las Grandes Ligas "comparables" mediante puntajes de similitud . Como se describe en el glosario del sitio web Baseball Prospectus: [10]
PECOTA compara a cada jugador con una base de datos de aproximadamente 20.000 temporadas de bateadores de las Grandes Ligas desde la Segunda Guerra Mundial. Además, también se basa en una base de datos de aproximadamente 15.000 temporadas de ligas menores traducidas (1997-2006) para jugadores que pasaron la mayor parte de su temporada anterior en las ligas menores. ... PECOTA considera cuatro amplias categorías de atributos para determinar la comparabilidad de un jugador: [ cita requerida ]
1. Métricas de producción, como el promedio de bateo, el poder aislado y la tasa de bases por bolas no intencionales para los bateadores, o la tasa de ponches y la tasa de rodados para los lanzadores.
2. Métricas de uso, incluida la duración de la carrera y las apariciones en el plato o las entradas lanzadas.
3. Atributos fenotípicos, incluyendo lateralidad, altura, peso, duración de la carrera (para jugadores de ligas mayores) y nivel de ligas menores (para prospectos).
4. Posición de fildeo (para bateadores) o rol de abridor/relevo (para lanzadores). ... En la mayoría de los casos, la base de datos es lo suficientemente grande como para proporcionar un conjunto significativamente grande de comparables apropiados. Cuando no lo es, el programa está diseñado para "hacer trampa" al expandir su tolerancia para jugadores diferentes hasta que se alcanza un tamaño de muestra razonable.
PECOTA utiliza el análisis del vecino más próximo para emparejar a un jugador individual con un conjunto de otros jugadores que son más similares a él. Aunque se basa en el concepto subyacente de las puntuaciones de similitud de Bill James , PECOTA calcula estas puntuaciones de una manera distinta que conduce a un conjunto de "comparables" muy diferente al del método de James. [11] Además, Silver describe la siguiente característica distintiva:
Los puntajes de similitud de PECOTA se basan principalmente en el análisis de un período de tres años del desempeño de un lanzador. Por lo tanto, podríamos observar lo que hizo un lanzador entre los 35 y los 37 años y compararlo con los desempeños más similares entre los 35 y los 37 años, después de ajustar los estadios, los efectos de la liga y una gran cantidad de otras cosas. Esto es diferente de los puntajes de similitud que puede ver en baseball-reference.com o en otros lugares, que intentan evaluar la totalidad de la carrera de un jugador hasta una edad determinada. [12]
Una vez que se determina un conjunto de "comparables" para cada jugador, su pronóstico de rendimiento futuro se basa en el rendimiento histórico de sus "comparables". Por ejemplo, el rendimiento previsto de un jugador de 26 años en la próxima temporada se basará en el rendimiento de los jugadores de 26 años de las Grandes Ligas más comparables en su temporada posterior.
Se desarrollan conjuntos separados de predicciones para bateadores y lanzadores.
PECOTA también se basa mucho en el uso de estadísticas periféricas para pronosticar el rendimiento futuro de un jugador determinado. Por ejemplo, basándose en los conocimientos que surgen del uso de estadísticas de pitcheo independientes de la defensa , PECOTA pronostica el rendimiento futuro de un lanzador en un área determinada utilizando información sobre su rendimiento pasado en otras áreas. [13] Como escribe el analista de béisbol y periodista Alan Schwarz , "Silver ... diseñó un sofisticado algoritmo de varianza que ha examinado las estadísticas de todos los lanzadores de las grandes ligas desde 1946 para determinar qué números pronostican mejor la efectividad, específicamente el promedio de carreras limpias . Sus hallazgos son contraintuitivos para la mayoría de los fanáticos. "Cuando intentas predecir ERA futuras con ERA pasadas, estás cometiendo un error", dijo Silver. Silver descubrió que las estadísticas más predictivas, por un margen considerable, son la tasa de ponches y la tasa de bases por bolas de un lanzador. Los jonrones permitidos, las fallas de zurdos y diestros y otros datos dicen menos sobre el futuro de un lanzador". [14]
En lugar de centrarse en hacer estimaciones puntuales del rendimiento futuro de un jugador (como el promedio de bateo, los jonrones y los ponches), PECOTA se basa en el rendimiento histórico de los "comparables" de un jugador determinado para producir una distribución de probabilidad del rendimiento previsto del jugador determinado durante los próximos cinco años. Alan Schwarz ha destacado esta característica de PECOTA: "Lo que separa a Pecota del montón de sistemas de proyección que los forasteros han desarrollado durante muchas décadas es cómo reconoce, incluso hace alarde, de la incertidumbre de predecir las habilidades de un jugador. En lugar de generar una línea de estadísticas esperadas, Pecota presenta siete -algunas optimistas, algunas pesimistas- cada una con su propio nivel de confianza. El sistema se parece mucho a la previsión de las trayectorias de los huracanes: los jugadores pueden ir en muchas direcciones, por lo que prepararse para una sola es una tontería". [15] Silver ha escrito:
Este procedimiento requiere que nos familiaricemos con el pensamiento probabilístico. Si bien la mayoría de los jugadores de un determinado tipo pueden progresar de cierta manera (por ejemplo, alcanzar su máximo potencial al principio), siempre habrá excepciones. Además, los jugadores comparables pueden no siempre rendir de acuerdo con su verdadero nivel de habilidad. A veces parecerán superarlo en una temporada determinada y otras veces no lo alcanzarán, debido a los problemas de tamaño de la muestra que describimos anteriormente.
PECOTA tiene en cuenta este tipo de factores al crear no un único punto de pronóstico, como hacen otros sistemas, sino más bien una gama de posibles resultados que el jugador podría esperar lograr con diferentes niveles de probabilidad. En lugar de decirle que va a llover, le decimos que hay un 80% de posibilidades de que llueva, porque el 80% de las veces que estas condiciones atmosféricas se han presentado el martes, ha llovido el miércoles. [ cita requerida ]
Sin duda, este enfoque es más complicado que el método estándar de aplicar un ajuste por edad basado en el curso "promedio" de desarrollo de todos los jugadores a lo largo de la historia. Sin embargo, también es mucho más representativo de la realidad y, además, más preciso. [16]
Aunque Silver fue el creador de PECOTA, la producción de pronósticos de PECOTA fue un esfuerzo de equipo: "Puede que yo sea 'el tipo de PECOTA', pero es en gran medida un esfuerzo de equipo", dijo Silver sobre el personal de BP. "Todos lo hacemos. Es mi bebé, pero se necesita un pueblo para dirigir un PECOTA". [17] Por ejemplo, PECOTA se basa en las traducciones de Clay Davenport (las llamadas Traducciones Davenport o DT) de las estadísticas de béisbol de ligas menores e internacionales para estimar el rendimiento equivalente de las ligas mayores de cada jugador. [18] De esta manera, PECOTA puede hacer proyecciones para más de 1.600 jugadores cada año, incluidos muchos jugadores con poca o ninguna experiencia previa en las ligas mayores.
Los pronósticos de pretemporada de 2009 fueron los últimos de los que Silver asumió la responsabilidad principal. En marzo de 2009, Silver anunció que el extremadamente complejo y laborioso conjunto de manipulaciones y cálculos de bases de datos de PECOTA se trasladaría a una plataforma diferente . Aunque Baseball Prospectus había sido el propietario de PECOTA desde que Silver se la vendió en 2003 (y Silver administraba y asumía la responsabilidad de los pronósticos), a partir de entonces los pronósticos de PECOTA serían generados por el equipo de Baseball Prospectus, inicialmente con Clay Davenport a cargo del esfuerzo [19] y, más tarde, durante la temporada 2013, con Colin Wyers a cargo de la producción y las mejoras en PECOTA [3] .
La mayoría de los otros sistemas de pronóstico populares no utilizan un enfoque de "jugadores comparables". En cambio, la mayoría se basan en proyecciones directas del desempeño pasado de un jugador a su desempeño futuro, generalmente utilizando como base un promedio ponderado del desempeño de un jugador en sus tres años anteriores. Al igual que PECOTA, muchos de esos sistemas también ajustan las proyecciones por envejecimiento, efectos de parque y regresión hacia la media . Al igual que PECOTA, también pueden ajustar la dificultad competitiva de cada una de las dos ligas principales. [20] Sin embargo, los sistemas difieren entre sí en los tipos e intensidades de los ajustes de edad, estimaciones de efectos de regresión, ajustes de parque y ajustes de dificultad de la liga que pueden hacer, así como en si usan puntajes de similitud. [21] PECOTA también hace proyecciones para muchos más jugadores que otros sistemas, porque PECOTA se basa en estadísticas ajustadas de ligas menores, así como en estadísticas de ligas mayores, e intenta hacer proyecciones para todos los jugadores en las listas ampliadas de las ligas mayores (40 jugadores por equipo), así como otros prospectos . [ cita requerida ]
A partir de 2000, los Indios de Cleveland desarrollaron una base de datos analítica propia llamada DiamondView para evaluar la información de exploración reunida por el equipo; este sistema incorporó posteriormente indicadores de rendimiento de los jugadores e indicadores financieros, con el fin de evaluar y proyectar el rendimiento de todos los jugadores de las grandes ligas. [22] Durante 2008-2009, los Piratas de Pittsburgh estaban en proceso de desarrollar MITT ("Gestión, Información, Herramientas y Talento"), una base de datos propia que integra informes de exploración, información médica y contractual, y estadísticas y proyecciones de rendimiento. [23]
Introducidas por primera vez en 2003, [24] las proyecciones PECOTA se producen cada año y se publican tanto en las monografías anuales de Baseball Prospectus como en el sitio web BaseballProspectus.com. PECOTA ha experimentado varias mejoras desde 2003. La versión de 2006 introdujo métricas para la valoración de mercado de los jugadores en función de los niveles de rendimiento previstos. La versión de 2007 introdujo ajustes para los efectos de la liga, para tener en cuenta las diferencias en el entorno competitivo de las dos ligas mayores. [25] La actualización de 2008 tuvo en cuenta las diferencias en el rendimiento de los jugadores durante la primera y la segunda mitad de la temporada anterior, así como las divisiones de pelotón (qué tan bien se desempeñó un jugador contra bateadores o lanzadores que eran zurdos o diestros). [26] También tuvo en cuenta el corrido de bases. [27] En 2009, Baseball Prospectus introdujo las proyecciones PECOTA durante la temporada, para actualizar y complementar sus proyecciones de comienzo de temporada. [28] En 2012, PECOTA cambió sustancialmente la forma en que ponderaba el desempeño de los años anteriores para establecer la línea de base para las proyecciones. [29] Además, se agregaron pronósticos a 10 años y pronósticos percentiles a las tarjetas PECOTA de jugadores individuales que se publican en línea. [30]
Aunque Baseball Prospectus promociona comercialmente a PECOTA como "mortalmente preciso", todos los sistemas de proyección están sujetos a una considerable incertidumbre. Una comparación descubrió que PECOTA había superado a varios otros sistemas de pronóstico para la temporada 2006 en la predicción de OPS . Se desempeñó casi tan bien como el mejor de los otros sistemas en la predicción de ERA . [31] Aunque las proyecciones de PECOTA se realizan para más de 1000 bateadores cada temporada, la evaluación del sistema incluyó solo un poco más de 100 jugadores que tuvieron un mínimo de 500 AB en las Grandes Ligas y que también habían sido incluidos en las proyecciones de los otros sistemas. La propia comparación de Nate Silver del desempeño de los sistemas de proyección alternativos para bateadores en 2007 también mostró que PECOTA lideró el campo, aunque un par más estaban cerca. [32]
Aunque el PECOTA fue diseñado principalmente para predecir el rendimiento de jugadores individuales , también se ha aplicado para predecir el rendimiento de equipos . Para este propósito, se establecen gráficos de profundidad de equipo proyectados con tiempos de juego proyectados para cada miembro del equipo, basándose en el asesoramiento experto del personal de Baseball Prospectus. La cantidad de carreras que un equipo anotará y permitirá durante la próxima temporada se estima en función de los tiempos de juego y el rendimiento individual previsto por PECOTA de cada jugador, utilizando un algoritmo de "Valor marginal de alineación" creado por David Tate y desarrollado posteriormente por Keith Woolner . [33] Las victorias esperadas de un equipo se basan en la aplicación de una versión mejorada de la Fórmula pitagórica de Bill James al número estimado de carreras anotadas y permitidas por la lista de jugadores bajo los supuestos de tiempo de juego dados. [34]
PECOTA se ha utilizado en pronósticos de pretemporada [35] sobre cuántas victorias obtendrán los equipos y en simulaciones de mitad de temporada sobre la cantidad de victorias que obtendrá cada equipo y sus probabilidades de llegar a los playoffs. [36] En 2006, los pronósticos de pretemporada de PECOTA se compararon favorablemente con otros sistemas de pronóstico (incluidas las probabilidades de línea de apuestas de Las Vegas ) en la predicción del número de victorias que obtendrían los equipos durante la temporada. [37] Una evaluación independiente realizada por el sitio web Vegas Watch mostró que PECOTA tuvo el error más bajo en la predicción de victorias de equipos de las Grandes Ligas en 2008 de todos los pronósticos más conocidos, tanto los que se basaban en sabermetría como los que dependían de la experiencia individual. [38] En 2009, sin embargo, PECOTA se quedó atrás de todos los pronosticadores conocidos. [39]
Un resumen de las temporadas 2003 a 2007 muestra que el error promedio de PECOTA entre las victorias pronosticadas y las reales del equipo disminuyó: [40] 2003 5,91 victorias; 2004 7,71 victorias; 2005 5,14 victorias; 2006 4,94 victorias; 2007 4,31 victorias. Silver conjetura que la mejora se debe en parte a que se tuvo en cuenta la defensa en los pronósticos a partir de 2005. En 2008, el error promedio fue de 8,5 victorias. [41]