En el fútbol , los goles esperados ( xG ) son una métrica de rendimiento que se utiliza para evaluar el rendimiento de los equipos y los jugadores. [1] Se puede utilizar para representar la probabilidad de una oportunidad de gol que pueda resultar en un gol . [2] También se utiliza en el hockey sobre hielo . [3] [4] [5]
La métrica de goles esperados se calcula generalmente determinando la probabilidad de que se marque un tiro en función de varios factores, tomados del momento anterior al disparo del jugador. Estos factores pueden variar según el modelo estadístico, pero incluyen la distancia hasta el arco, el ángulo, la calidad del tiro y otras características. A cada tiro se le asigna un valor probabilístico, que representa cuántas veces es probable que se marque ese tiro en función de tiros similares. Por ejemplo, es probable que un tiro con un valor de 0,3 goles se marque aproximadamente 3 de cada 10 veces. [6] La métrica de goles esperados se ha vuelto más común con el aumento del análisis de datos en los deportes, ya que los analistas basaron la métrica en años acumulados de datos deportivos. [7]
Existe cierto debate sobre el origen del término goles esperados . Vic Barnett y su colega Sarah Hilditch hicieron referencia a los "goles esperados" en su artículo de 1993 en el que investigaron los efectos de las superficies de césped artificial (AP) en el rendimiento del equipo local en el fútbol de asociación en Inglaterra. [8] Su artículo incluía esta observación:
Cuantitativamente, encontramos que el grupo AP marca aproximadamente 0,15 goles más por partido en casa de lo esperado y, teniendo en cuenta los goles en contra menos de lo esperado en los partidos en casa, una diferencia de goles adicional (para los partidos en casa) de aproximadamente 0,31 goles por partido en casa. A lo largo de una temporada, esto produce aproximadamente 3 goles más a favor, una diferencia de goles mejorada de aproximadamente 6 goles. [9]
Jake Ensum, Richard Pollard y Samuel Taylor (2004) informaron sobre su estudio de datos de 37 partidos de la Copa Mundial de 2002 en los que se registraron 930 tiros y 93 goles. [10] Su investigación buscó "investigar y cuantificar 12 factores que podrían afectar el éxito de un tiro". Su regresión logística identificó cinco factores que tenían un efecto significativo en la determinación del éxito de un tiro pateado: distancia desde el arco; ángulo desde el arco; si el jugador que realiza el tiro estaba o no al menos a 1 m del defensor más cercano; si el tiro fue o no precedido inmediatamente por un centro ; y el número de jugadores de campo entre el lanzador y el arco. [10] Concluyeron que "el cálculo de las probabilidades de tiro permite una mayor profundidad de análisis de las oportunidades de tiro en comparación con el registro solo del número de tiros". [10] En un artículo posterior (2004), Ensum, Pollard y Taylor combinaron datos de las competiciones de la Copa Mundial de 1986 y 2002 para identificar tres factores significativos que determinaban el éxito de un tiro: distancia desde el arco; ángulo desde el arco; y si el jugador que realizaba el tiro estaba o no al menos a 1 m de distancia del defensor más cercano. [11] Estudios más recientes han identificado factores similares como relevantes para las métricas xG. [12]
Howard Hamilton (2009) propuso "una estadística útil en el fútbol" que "en última instancia contribuirá a lo que yo llamo un 'valor de gol esperado': para cualquier acción en el campo durante el transcurso de un juego, la probabilidad de que dicha acción cree un gol". [13]
Sander Itjsma (2011) analizó "un método para asignar valores diferentes a diferentes oportunidades creadas durante un partido de fútbol" y al hacerlo concluyó: [14]
Ahora disponemos de un sistema para estimar el valor total de las ocasiones creadas por cada equipo durante el partido. Saber cuántos goles se espera que marque un equipo a partir de sus oportunidades es mucho más valioso que simplemente saber cuántos intentos de marcar un gol se realizaron. Otras aplicaciones de este método de evaluación serían distinguir una falta de intentos de calidad creados de un problema de finalización o evaluar el rendimiento de la defensa y el portero. Y una tercera opción sería trazar el balance del juego durante el partido en términos de la calidad de las ocasiones creadas para representar gráficamente cómo evolucionó el balance del juego durante el partido. [14]
Sarah Rudd (2011) analizó los patrones probables de puntuación de goles (P(Goal)) en su uso de cadenas de Markov para el análisis táctico (incluida la proximidad de los defensores) de 123 partidos de la temporada 2010-2011 de la Liga Premier inglesa . [15] En una presentación en video de su artículo en el Simposio de Nueva Inglaterra de Estadísticas en el Deporte de 2011, Rudd informó sobre su uso de métodos de análisis para comparar los "goles esperados" con los goles reales y su proceso de aplicación de ponderaciones a acciones incrementales para los resultados P(goal). [16]
En abril de 2012, Sam Green escribió sobre los "goles esperados" en su evaluación de los goleadores de la Premier League . [17] Preguntó: "Entonces, ¿cómo cuantificamos qué áreas del campo tienen más probabilidades de resultar en un gol y, por lo tanto, qué tiros tienen la mayor probabilidad de resultar en un gol?". Añadió:
Si podemos establecer esta métrica, podremos aumentar de forma precisa y eficaz nuestras posibilidades de marcar y, por lo tanto, de ganar partidos. Del mismo modo, podemos utilizar estos datos desde una perspectiva defensiva para limitar las mejores oportunidades defendiendo áreas clave del campo. [17]
Green propuso un modelo para determinar "la probabilidad de que un tiro sea a puerta y/o se marque". Con este modelo "podemos observar los tiros de cada jugador y sumar la probabilidad de que cada uno de ellos sea gol para dar un valor de gol esperado (xG)". [17]
En 2004, Alan Ryder compartió una metodología para el estudio de la calidad de un tiro al arco en hockey sobre hielo . Su discusión comenzó con esta frase: “No todos los tiros al arco son iguales”. [18] El modelo de Ryder para la medición de la calidad del tiro fue:
- Recopilar los datos y analizar las probabilidades de gol para cada circunstancia de tiro.
- Construir un modelo de probabilidades de objetivos que se base en las circunstancias medidas
- Para cada tiro, determine su probabilidad de gol.
- Goles esperados: EG = la suma de las probabilidades de gol de cada tiro
- Neutralice la variación en los tiros a portería calculando los Goles Esperados Normalizados
- Calidad de tiro en contra
Ryder concluyó:
El modelo para alcanzar los objetivos previstos teniendo en cuenta los factores de calidad de tiro se basa simplemente en los datos. No se hacen suposiciones significativas. Los métodos analíticos son los clásicos de la estadística y la ciencia actuarial. Por lo tanto, los resultados son muy creíbles. [19]
En 2007, [3] Ryder emitió un aviso de retirada de productos para su modelo de calidad de tiro. Presentó “una nota de advertencia sobre el cálculo de la calidad de tiro” y señaló “problemas de calidad de datos con la medición de la calidad de los tiros realizados y permitidos por un equipo de hockey”. [3]
Informó:
Me preocupaba que hubiera un sesgo sistemático en los datos. Los errores aleatorios no me preocupan. Se compensan en grandes volúmenes de datos. Pero sí creo que... la puntuación en ciertas pistas tiene un sesgo hacia tiros más largos o más cortos, el factor más dominante en un modelo de calidad de tiro. Y me propuse investigar esa posibilidad. [3]
El término "goles esperados" apareció en un artículo sobre el rendimiento del hockey sobre hielo presentado por Brian Macdonald [4] en la Conferencia de Análisis Deportivo MIT Sloan en 2012. El método de Macdonald para calcular los goles esperados se informó en el artículo:
Utilizamos datos de las últimas cuatro temporadas completas de la NHL . Para cada equipo, la temporada se dividió en dos mitades. Dado que los intercambios y las lesiones a mitad de temporada pueden tener un impacto en el rendimiento de un equipo, no utilizamos estadísticas de la primera mitad de la temporada para predecir goles en la segunda mitad. En cambio, dividimos la temporada en juegos pares e impares, y utilizamos estadísticas de juegos impares para predecir goles en juegos pares. Los datos de 2007-08 , 2008-09 y 2009-10 se utilizaron como datos de entrenamiento para estimar los parámetros en el modelo, y los datos de todo el año 2010-11 se reservaron para validar el modelo. El modelo también se validó utilizando una validación cruzada de 10 veces. El error cuadrático medio (MSE) de los goles reales y los goles previstos fue nuestra elección para medir el rendimiento de nuestros modelos. [4]