Solapas principales

SSAC19 (III). Probabilidades condicionales, patrones de movimiento y estudios económicos

  • Resumen de los artículos científicos presentados
  • ¿Cómo se puede construir un perfil de un jugador de forma automática?
  • ¿Cuánto vale una ronda del Draft con o sin protección? ¿Cuánto dinero pierde un equipo cuando una superestrella es baja de última hora?
  • ¿Cómo sería la distribución óptima de tiros de campo de un equipo?
 
 

Habiendo resumido la gran mayoría de ideas de las mesas redondas del MIT Sloan Sports Analytics Symposium 2019, es la hora para descubrir qué proyectos están llevando a cabo los grupos de investigación punteros mundialmente. El SSAC recibe cada año más de 100 propuestas de artículos sobre cualquier tipo de deporte, y (aproximadamente) 20 de estos reciben la oportunidad de publicar su trabajo; de estos, tan solo 8 acceden a una fase semi-final. Los semifinalistas presentan, durante el primer día de congreso, sus investigaciones en un formato de 20 minutos (más preguntas); 4 proyectos son seleccionados al final del día para presentar en la fase final, donde las charlas no pueden superar los 10 minutos. Aunque en este ocasión, el paper ganador fuera sobre métricas futbolísticas (una investigación del venezolano analista del F.C. Barcelona Javier Fernández), las contribuciones en el mundo del baloncesto no se quedaron cortas. 

Using Deep Learning to Understand Patterns of Movement in the NBA [Akhil Nistala, John Guttag - Semifinalista]

Este artículo presenta un nuevo método para identificar el estilo de juego de los jugadores de la NBA, sin necesidad de trabajar horas y horas en videoanálisis y anotaciones manuales. Los autores recolectaron todos los datos de tracking de 3 temporadas enteras, y como ya se había hecho en años anteriores, se plasman estos datos como si fueran trayectorias sobre una imagen, limitando los movimientos ofensivos en el medio campo donde se ataca. La principal contribución es el entrenamiento de un modelo de inteligencia artificial, que transforma una trayectoria 2D en una representación densa de esta misma; básicamente, esta densidad representa un rango de probabilidades. Por ejemplo, si un jugador X rodea toda la línea de 3 exactamente en el 7.25, y un jugador Y rodea la línea de 3 en 7.30, se tratará de un movimiento casi idéntico; con la representación densa, se dirá que el jugador tiene (por ejemplo) una probabilidad de 0.8 de andar entre los 7.15-7.35, y una probabilidad 0.2 de andar por 7.05-7.15 o 7.35-7.45.

Con estas representaciones, se presentan dos aplicaciones:
- La primera es un buscador de acciones similares, donde se combinan las trayectorias con datos de eventing (un play-by-play más complejo), asignando así un ID y un valor temporal a cada desplazamiento en cada momento. De este modo, se pueden encontrar todas las posesiones que (por ejemplo) “los Spurs del Play-Off de 2015 pasaron el balón mínimo 5 veces en una posesión y tiraron desde la esquina izquierda”, o “todas las posesiones en las cuales Harden amasa el balón un 80% del tiempo pero no termina lanzando”.
- La segunda, es una herramienta para sacar un perfil automático de cada jugador. Teniendo todos los desplazamientos de todos los jugadores, se sacaron (con el clásico algoritmo de K-Means) los 20 patrones de movimiento más repetidos, los cuales incluyen penetraciones de fuera a dentro, carretones, continuaciones en bloqueos directos… Con todos los movimientos de un jugador, se puede comparar con qué porcentaje realiza cada uno de estos patrones; por ejemplo, los tiradores tienen un porcentaje del patrón de carretón alto, mientras que los interiores tienen más peso en situaciones cercanas al aro. También se pueden comprobar las tendencias naturales de los jugadores: por ejemplo, Lebron James (zurdo fuera de las canchas) frecuenta mucho más en el lado izquierdo de la pista. Otros dos casos curiosos son los de Paul George post-lesión y Kevin Love; el primero pasó de hacer un 16.5% de jugadas al lado derecho en 2014 a un 46.6% en 2016, mientras que el segundo, cuando cambió Minnesota por Cleveland, aumentó en un 15% sus acciones de perímetro en detrimento del juego en poste bajo.
 


From Markov Models to Poisson Point Processes: Modeling Movement in the NBA [Jacob Mortensen, Luke Bornn]

El ya reputado Bornn y su equipo hicieron una valiosa contribución al modelado del movimiento de los jugadores de baloncesto; hasta el momento, solo sistemas basados en sistemas de Deep Learning y modelos de Markov se habían presentado en este tipo de congresos, los cuales carecen de control y ajuste de parámetros (el primero) y limitaciones en el tipo de movimiento observable (el segundo). Principalmente, los autores utilizan un modelo no paramétrico para saber hacia dónde se transportará el balón entre dos instantes sucesivos, considerando la cancha como una matriz de 50x50 posibles posiciones y siempre asumiendo que el número de estados que puede tomar el balón es finito: cambio de posición natural debido al mismo manejo, pase, tiros, pausas (falta personal) o pérdidas. El problema se trata con probabilidades condicionales; es decir, asumiendo que el balón se encuentra en una posición específica, ¿dónde estará poco después? Para hacerlo, se utiliza una process convolution model, la cual tiene en cuenta macrotransiciones - aproximando que en el campo ofensivo hay 12 regiones, calcular la probabilidad de que se pase de una región a otra – y microtransiciones, las cuales consideran todas las posiciones del campo discreteadas (y no uniéndolas en regiones). Con este sistema, se puede observar la diferencia entre patrones de juego dadas ciertas circunstancias; por ejemplo, el estudio muestra dos claros ejemplos:
1. El movimiento de los Golden State Warriors cuando el balón se encuentra en situaciones de poste alto se traduce a la aproximación de la canasta cuando Curry está en pista (puede que debido a los pases precisos en continuaciones del base), mientras que este no está jugando, la tendencia en este mismo tipo de situaciones es alejarse del aro.

captura_de_pantalla_2019-03-12_17.41.58.png

Probabilidad condicional de movimiento del balón dada una posición inicial (círculo blanco)


2. La comparación del movimiento de los Cleveland Cavaliers en situaciones de poste bajo derecho antes y después de la destitución de David Blatt; la entropía era mayor con el israelí-estadounidense, lo que significa que había un rango amplio de posibles destinos para el balón, mientras que en la era post-Blatt el balón quedó retenido en esa región del campo.


La mejora de estos métodos y inclusión de métricas ya existentes como el Expected Possession Value sería de gran uso para los equipos profesionales, pero aún se tendrían que añadir una componente temporal, la cual contextualizaría en muchos casos dónde va el balón (por ejemplo, con 1 segundo de posesión, está claro que el balón debe ir al aro).

The Economic Impact of NBA Superstars: Evidence from Missed Games Using Ticket Microdata from a Secondary Marketplace [Scott Kaplan et al.] 

En este amplio estudio, se ha querido cuantificar en cuánto dinero se traducen las ausencias de las principales estrellas de la NBA. Tomando como muestra los jugadores All-Star del 2018, se han construido dos de los denominados parsers (análisis y almacenamiento de los información de una web): el primero, extrae los precios de las entradas de los partidos desde una plataforma virtual de reventa de entradas, y el segundo se ha aplicado sobre el timeline en una liga de fantasía, utilizándose para detectar cuándo aparece un mensaje sobre un jugador que se pierde un partido. Habiendo demostrado la veracidad de los dos parsers, los autores muestran unos resultados gráficos en los cuales se muestra la variabilidad de precios en las entradas cuando se anuncia que uno de los principales alicientes no jugará el partido en cuestión, pudiendo diferenciar entre los partidos como local o visitante.
Aunque la muestra de datos sea pequeña, los gráficos muestran que los 4 jugadores que más influyeron en una caída de precios en la última temporada fueron: Kemba Walker, Kyrie Irving, Anthony Davis y Stephen Curry. Mientras Walker y Davis son los claros ejemplos de jugadores franquicia en equipos relativamente pequeños, Irving influyó en este cambio económico dado su alto hype primera temporada en Boston; el efecto también es notable con Curry (8%), dado que se trata de un jugador que hace cosas diferentes y todo el mundo quiere ver. Para contextualizar, si aproximamos que la ausencia de Curry supone una caída de 25$/entrada, y suponemos que hay 20.000 aficionados/partido en Golden State, si el base se perdiera todos los partidos de la temporada, habría unas pérdidas de 41 millones de dólares (1 millón más que el salario anual de Curry). Aunque pueda sorprender, dos jugadores que no tienen este impacto son James Harden y Kevin Durant (más el siempre infravalorado Damian Lillard). En cambio, en los partidos como visitante, el efecto de las ausencias de Durant (y las de Curry) sí que es considerable, probablemente porque ver a los Golden State Warriors es una atracción de primer nivel, y estos tan solo juegan (máximo) 2 veces en cada campo visitante de la NBA.

captura_de_pantalla_2019-03-12_17.43.45.png

Caídas del precio de las entradas dependiendo de la ausencia de un jugador determinado

Analytics for the Front Office: Valuing Portections on NBA Draft Picks [Ben Foster, Michael Binns - Finalista]

El mercado de la NBA es una jungla con muchísimos actores; dado que el stock es limitado y las restricciones son obvias (margen salarial, por ejemplo), muchos equipos han comprobado que traspasar rondas del draft aumenta la liquidez del mercado en cuestión. Aún así, este traspaso no se puede hacer a la ligera, dado que una elección alta en el draft puede ser una potencial estrella de la liga. Por este motivo, distintos equipos traspasan sus picks con un sistema de protección: por ejemplo, si un equipo está en la parte baja de la tabla, tiene altas probabilidades de caer en los primeros puestos de la lotería del draft, así que se puede optar por traspasar la ronda con una protección top-10 en el año 1, top-5 en el año 2 y sin protección en el año 3. Esto querrá decir que el equipo que reciba la ronda, también recibirá al jugador drafteado si este cae entre: (a) los puestos 11-30 en el primer año, (b) en caso que el primer año haya caído entre el 1-10, si cae entre el 6-30 en el segundo año, o (c) en caso que haya caído en las posiciones 1-10 en el primer año y 1-5 en el segundo, lo recibirá sea cual sea su posición en el draft en el tercer año.
Los autores proponen un sistema que asigna valor (en base a cualquier métrica como Win Shares) a las rondas que tiene un equipo, viendo así el efecto de las posibles protecciones que puedan encubrir un pick. Este sistema se compone de tres módulos:
- Un modelo probabilístico basado en el sistema de rating ELO y ajustado con una simulación de MonteCarlo, que simula cómo quedará el equipo en futuras temporadas (basado en un histórico de temporadas), y por lo consecuente, sobre qué rango podran elegir en el draft.
- Un sistema de cuantificación sobre cada posición del draft; en este caso, se han analizado los Win Shares (contribución de un jugador al nombre de victorias de un equipo) producidos a 5 años vista por todos los jugadores, individualizando por posición. Es decir, los Win Shares de la posición 1 serán (aproximadamente) la media de los todos los jugadores entre Anthony Bennet y Lebron James (peor y mejor de los casos respectivamente).
- Un módulo de análisis financiero en el cual se le da un precio a la combinación producida por la posición estimada y el valor de la ronda. Con la transformación, todo se acaba reduciendo a una fórmula, en la cual se le debe introducir también un parámetro de hasta qué punto se quiere arriesgar; por ejemplo, la primera posición del draft tiene un riesgo evidente (mucho que perder pero también mucho que ganar).
Mostrando dos ejemplos detallados, se demuestra que con un sistema de este tipo se puede jugar con ventaja traspasando rondas, y también sería una métrica válida para comparar el valor real de los assets involucrados en el traspaso de dos equipos (¿cómo saber si un jugador determinado es mejor que 2 rondas?).
Aún así, el sistema aún carece de dos características: (1) no se cuantifican los Win Shares entre jugadores elegidos en años consecutivos por diferentes equipos debido a una protección, y (2) no hay ninguna variable que cuantifique cómo de alto/bajo es el nivel de una generación de draft determinada.


Chuckers: Measuring Lineup Shot Distribution Optimality Using Spatial Allocative Efficiency Models [Nathan Sandholtz, Jacob Mortensen, Luke Bornn]

Este interesante estudio nació de la siguiente intrigante pregunta: en el partido de Play-Off perdido de Oklahoma ante Utah en el cual Westbrook anota 46 puntos pero lanza 43 veces a canasta, ¿se podrían haber optimizado los tiros del base para un mejor rendimiento de equipo?
Al tratarse de un deporte de equipo, el sistema presentado se basa en superficies de FG% (porcentaje de los 5 jugadores de una alineación desde todas las posiciones en el campo ofensivo) y de FGA (porcentaje de tiros intentados desde cada posición dividido por el total del equipo). Para los experimentos realizados, se han extraído datos de las diferentes APIs de la NBA (temporada 2016-2017), y recolectadas en un repositorio open-source al alcance de todos los que tengan conocimiento del lenguaje de programación R.
Con estos datos, se pueden visualizar rankings de qué jugadores lanzan (en teoría) más de la cuenta desde las diferentes regiones espaciales (es decir, los que tiran más y con peores porcentajes). Sin embargo, para cuantificar los datos dichos rankings no bastan, así que los autores proponen dos nuevas métricas, como el Lineup Points Lost (LPL) y el Player LPL Contribution (PLC), que pretenden simbolizar lo siguiente: (por ejemplo) ¿cuántos puntos pierde Golden State si un tiro desde 5 metros en la esquina derecha lo tira Zaza Pachulia y no otro de los jugadores en pista? (ejemplo de hace 2 temporadas)
Con estas herramientas, se puede ver cómo de “ineficientes” son las cartas de tiro de cada equipo, e incluso analizar qué jugadores abusan/deberían abusar más de tiros en diferentes posiciones. Aún así, el método presentado carece de una contextualización evidente: en los gráficos de uso de Oklahoma, se muestra que Roberson abusa de los tiros de 3 puntos desde la esquina, y en cambio se puede ver que Westbrook debería tirar más desde esta posición (compensación abuso-no abuso); sin embargo, la mayoría de estos tiros de Robertson proceden de penetraciones y pase del base, así que es imposible que Westbrook asuma estos lanzamientos porque no puede estar en los dos espacios a la vez. Además, tampoco se tienen en cuenta otros factores importantes, como son la presión defensiva, el tiempo de reloj o las mismas instrucciones de los entrenadores.
Finalmente, diferentes clasificaciones se muestran en base a estas métricas, mostrando que Isaiah Thomas, DeMarcus Cousins y Kelly Oubre fueron los tres jugadores que más abusaron de los tiros de corta, media y larga distancia respectivamente, mientras que Al Horford, Otto Porter y Gary Harris los tres que hubiesen habido que tomar más tiros. En las clasificaciones de equipos, los que distribuyeron peor los tiros desde estos tres rangos fueron: corta - Sacramento Kings, media -Washington Wizards (con John Wall abusando) y larga - Oklahoma City (con un pésimo porcentaje de Roberson y, en menor medida, Oladipo). Es curioso que el sistema asume que especialistas como Korver o Anderson deberían tomar más tiros, pero claro está que estos jugadores no se generan sus lanzamientos, y que ya lanzan en todas las ocasiones en las que tienen ocasión; seguramente, cargar de más responsabilidad a este tipo de jugadores reduciría los porcentajes de tiro de estos. Si se añadiesen datos de contexto, esta herramienta ya podría ser utilizada por los analistas de la mejor liga del mundo.

captura_de_pantalla_2019-03-12_17.54.30.png

Chuckers: mapas con zonas de abuso (violeta) e infra-abuso (rojo) de tiros por cada jugador

 

Sobre el autor

 
Antiguedad: 
2 años 6 meses
#contenidos: 
31
#Comentarios: 
86
Total lecturas: 
94,857