Solapas principales

7 aplicaciones de Big Data al baloncesto: de defensores fantasma a predicciones “deep”

En la era del Big Data, las estadísticas avanzadas están de moda en Estados Unidos y las franquicias de la NBA están apostando cada vez más fuerte por equipos de “Data Science”, que manejan cantidades inimaginables de datos para que el rendimiento del equipo mejore.

La pregunta es: ¿de dónde salen las ideas para analizar estos datos? ¿Por dónde se empieza? Aunque no haya una respuesta válida, en la mayoría de los casos todo empieza con un estudio puramente científico de investigación en las universidades. En el mundo académico, el nivel del investigador se mide a partir de las publicaciones científicas (también llamadas “papers”) que han sido aceptadas en revistas o congresos, y del número de veces que han sido citadas por otros autores.

El Sports Analytics Conference (SSAC), organizado por el MIT Sloan (albergado en Boston), es el congreso por excelencia que reúne deporte, tecnología y datos. En las tan solo las 48 horas que dura este prestigioso evento, se organizan decenas de paneles de discusión, competiciones hackaton, concursos delante de inversores y en la vertiente académica, se publican alrededor de 30 “papers” (en formato presentación o poster) en este mismo campo de investigación.  Este congreso empezó hace un par de días, y hay 7 publicaciones puramente baloncestísticas que nos describen, desde las bases de la inteligencia artificial, qué novedades están por venir. En este artículo, repasaremos las principales contribuciones de un modo superficial, dado que leer y entender todos los detalles de un paper requiere de una base ingenieril avanzada y horas de concentración.

 

Consideraciones antes de leer:

- Muchos de los proyectos que veremos a continuación están basados en datos de tracking, que contienen el seguimiento (en coordenadas x, y) de los jugadores de la NBA en todos los partidos de la temporada, con 25 muestras por segundo. Empresas como STATS o Second Spectrum proporcionan estos datos a las diferentes franquicias e incluso a centros de investigación, y están basados en un sistema multi-cámara instalado en los techos de los pabellones de la mejor liga del mundo.

- Las técnicas de aprendizaje automático han avanzado una barbaridad con la irrupción del “deep learning”. Hace unos meses, escribía un artículo donde explicaba cómo funcionaba la inteligencia artificial clásica, donde el investigador selecciona los atributos que caracterizan determinados ítems y después, estos sirven para clasificar o realizar cualquier otro tipo de tarea. Las técnicas de “deep learning” van más allá y se basan en bases de datos de millones de imágenes/secuencias; en estas, se construye una red neuronal (llamada Convolutional Neural Network) que funciona –en muchos casos- como una caja negra, dado que por sí misma aprende cuáles son las características más representativas de los ítems en cuestión. La mayoría de publicaciones que explicaremos en este artículo usan Deep Learning (tutorial de Standford en Youtube).

LISTA DE TODOS LOS ARTÍCULOS CIENTÍFICOS PUBLICADOS EN EL SSAC2018

1. El concepto de “ghosting”

Uno de los “hot topics” en la investigación de este año ha sido el querer simular comportamientos de jugadores dado el inicio de una secuencia. En esta simulación, el hipotético movimiento de los jugadores recibe el nombre de “fantasma” y puede ayudar a mejorar la toma de decisiones.

Bhostgusters: Realtime Interactive Play Sketching with Syntehsized NBA Defenders (Thomas Seidl, Aditya Cherukumudi, Andrew Hartnett, Peter Carr, Patrick Lucey). Está claro que diseñar una jugada perfecta es un tarea muy difícil, dado que no nace tan solo de un trabajo amplio de scouting sobre un determinado equipo, sino que también es necesaria una dosis de espontaneidad creativa, donde el entrenador se debe anticipar a la defensa que se le planteará. Bhostgusters pretende ser una herramienta utilizada a pie de pista en un tablet que analice todos los posibles escenarios en una hipotética jugada; es decir, el modelo de inteligencia artificial conoce los patrones defensivos específicos de cada equipo de la NBA, y dado el esbozo temporal de una jugada, el programa puede adaptarla al tipo de defensa a la cual se someterá el equipo. Por ejemplo, no sería lo mismo plantear una jugada para un tiro triple ante un equipo que defiende agresivo la línea de pase que plantearla para un equipo que defiende cerrado regalando pocos puntos en la pintura. Por si fuera poco, los datos añadidos en el modelo de aprendizaje automático incluyen metadatos como el tiempo de posesión y partido o incluso las faltas de los jugadores. Estos datos adicionales ayudan a modelar situaciones extremas: (1) en una situación donde quedan 3 segundos de posesión, la defensa presionará al jugador con el balón, o (2) si hay un jugador interior al borde de la eliminación, probablemente no hará las ayudas tan agresivas en penetraciones de exteriores. Los resultados son excelentes e incluso se llega a predecir el tipo de defensa que hará un equipo en muchos de los bloqueos directos. El estudio incluye una aplicación (aún no disponible ni comercializada) donde el entrenador puede dibujar jugadas a su antojo, el vídeo no tiene pérdida.

Learning an Egocentric Basketball Ghosting Model using Wearable Cameras and Deep Convolutional Networks (Gedas Bertasius, Aaron Chan y Jianbo Shi). Tener los datos de tracking en coordenadas X, Y de todos los jugadores es un avance significativo en el mundo del baloncesto, pero, ¿es suficiente para ver qué está sucediendo? Según los autores de esta investigación, hace falta mucha más información para comprender la toma de decisiones de los jugadores, como la orientación de los defensores o simplemente lo que ve el jugador que tiene el balón. Para enriquecer estos datos, en este proyecto se añade una nueva forma de codificar en 12 dimensiones la orientación de los jugadores, dada una secuencia de vídeo obtenida con una cámara wearable integrada en la camiseta del jugador ofensivo. Viendo el panorama del jugador en cuestión, se puede predecir cuál será el comportamiento que adoptará o más bien dicho, el que sería lógico que adoptara (un jugador fantasma ofensivo). Aún así, la complicación de este proyecto es máxima, dado que no existe tal base de datos de vídeos sacados “desde el pecho” de los jugadores; por este motivo, los autores crearon un nuevo dataset con cámaras grabando casi 1000 secuencias de 1x1’s. Sin embargo, el proyecto tiene dos claros problemas: (1) las cámaras en el pecho no ofrecen la visión real del jugador y en muchos casos (por muchos fps que se utilicen) la calidad de los frames es borrosa y (2) las situaciones de 1x1 son una pequeña muestra del juego ofensivo de un equipo, y son simulaciones ideales donde tan solo hay un jugador defensor en cancha, evitando así oclusiones u otros problemas. La mejora de esta investigación podría ayudar a cambiar la toma de decisiones de los jugadores con mala selección de tiro, e intentar aprender de los mejores.

 

captura_de_pantalla_2018-02-25_00.48.21.jpg

Visión desde una cámara wearable situada en la camiseta || Bertasius et al.

2. Cambiar la realidad

Las técnicas de inteligencia artificial también sirven para replantearse la realidad, entendiendo el porqué de la toma de decisiones del Draft o plantear escenarios alternativos como sistemas ofensivos de juego.

Drafting Errors and Decision Making Bias in the NBA Draft (Daniel Sailofsky). Escoger un jugador en el Draft de la NBA es una tarea con un riesgo gigantesco detrás, y si no, que se lo pregunten al General Manager (GM) de los Knicks después de escoger a Kristaps Prozingis en 2015. Esta claro que los GM de las franquicias NBA siguen unos patrones para tomar una decisión que maximice el rendimiento del equipo, pero, ¿utilizan los criterios adecuados? En esta trabajo se investigan los factores estadísticos que afectan a la toma de decisión en la que un jugador de la NCAA es escogido en el Draft, y también la correlación de estos factores con el rendimiento de dicho jugador en la NBA.  Las variables que se tienen en cuenta son estadísticas normalizadas en formato de porcentaje. También se incluyen datos de la conferencia de procedencia y años de experiencia de dichos jóvenes jugadores (ACC, Big 12, Big Ten, Big East, Pac 10 o SEC), de su posición (base, exterior o interior) o de sus condiciones atléticas (medidas en el pre-draft workout).

Los resultados son curiosos: queda demostrado que la universidad de procedencia tiene una influencia en la posición del pick, pero no tiene correlación con el rendimiento del jugador en la NBA. De aquí sale una discusión hasta filosófica: los GM prefieren los jugadores de mejores universidades porque son los que han visto más durante el año y creen conocer más, sin utilizar datos empíricos de tales jugadores. El contrapunto a esta discusión es el factor de riesgo que puede hacer peligrar el status quo del Manager en cuestión: si el jugador escogido era uno de los líderes de un equipo campeón de la NCAA y no rinde como se esperaba, poca gente culpará al GM.

Del mismo modo, se tiende a pensar que un la estadística clave para intuir cómo se adaptará el jugador a la NBA es la anotación; en este mismo artículo se demuestra lo contrario. Las dos estadísticas que más influyen positivamente en el rendimiento NBA son la el porcentaje de rebotes y de perdidas, ambas relacionadas con el control del balón. Está claro que todo General Manager habrá visto uno por uno todos los highlights de Zion Williamson u otros jugadores espectaculares, pero pocos se fijan en la capacidad para controlar el balón. También se demuestra que los jugadores más altos y con más envergadura salen favorecidos en el Draft, y aunque se haya demostrado que estas características no influyen en el rendimiento NBA, los GM siempre acuden a la frase de “la técnica individual se puede entrenar, pero la altura no”. Finalmente, los años de Universidad en el caso de equipos de conferencias potentes no siguen un patrón concreto (porque también han cambiado las normas en los últimos años), pero en universidades menores, los jugadores que están 3 o 4 años (late bloomers en muchos casos) acostumbran a salir en mejores posiciones del sorteo.

 

Replaying the NBA (Nathan Sandholtz, Luke Bornn). Este es, posiblemente, el artículo más complicado de entender, pero a su vez, el de mayor potencial; la investigación pretende recrear situaciones hipotéticas de juego (por ejemplo: ¿qué pasaría si el equipo no tirara triples?) para analizar cómo cambiaría el rendimiento de un equipo. Para hacerlo, se utilizan las famosas cadenas de Markov, que adaptadas al baloncesto se pueden entender del siguiente modo: se plantea el curso de la posesión como una serie de estados finitos, donde el jugador con el balón tiene un posible conjunto de acciones (mantener el balón, pasar o tirar), cada una con una probabilidad -cuanto más lejos o más presionado, menor será la probabilidad de tiro- y una recompensa asociada –el número de puntos que se pueden anotar-. Todo este conjunto de probabilidades constituye una cadena de posibles eventos y probabilidades de transición, que confluyen en una métrica para evaluar la eficiencia del tiro, es decir: la probabilidad que tiene un jugador de anotar un lanzamiento dada una secuencia de eventos (pases y movimiento) y una presión defensiva concreta. Con esta configuración, se pueden simular resultados y estadísticas infinitas cambiando el curso de las posesiones y las tendencias del equipo.

Dado que el tiro de media distancia esta desapareciendo por completo, la simulación presentada en el estudio es la siguiente: ¿qué pasaría si los equipos de la NBA tiraran un 20% menos de tiros defendidos (contested) desde la media distancia cuando quedan más de 10 segundos de posesión? Está claro que la ventaja de tirar menos tiros de media distancia es anotar más de 3 en 3, pero por el mismo coste, puede que se estén desaprovechando oportunidades de tiros claros y esto se transforme en balones perdidos. Con este 20%, los resultados muestran que los puntos por lanzamiento esperados son mayores en todos los equipos, así como también lo es la estimación de puntos anotados en 100 posesiones; es lógico ver que el equipo que menos variación tiene es Houston Rockets, un equipo que apenas utiliza el mid-range. Para dar validez a la investigación, se lleva este mismo al extermo, con una simulación que elimina el 90% de tiros de media distancia: en este caso, los resultados empeoran para todos los equipos de la liga, dado que se estaría usando una mala selección de tiro y desaprovechando buenos tiros. Esto magnifica más aún el mérito de Mike D’Antoni (entrenador de los Rockets), dado que queda demostrado que no basta con pedir al equipo que solo tiren triples, sino que también es necesario adaptar los sistemas ofensivos para que los  tiros sean lo más eficientes posibles.

 

captura_de_pantalla_2018-02-25_00.51.5.jpg

Diferencia en predicción de puntos anotados con un 20% menos de tiros de MD || Bornn et al.

3. Predecir y optimizar:

Otra de las aplicaciones más repetidas en este congreso es la predicción de determinados factores dados gigabytes de información, y este año no ha sido una excepción:

Deep Learning of Player Trajectory Representations for Team Activity Analysis (Nazanin Mehrasa, Yatao Zhong, Frederick Tung, Luke Bornn, Greg Mori). Aunque pueda parecer un objetivo muy simple, esta investigación cubre una parte intangible de los equipos de baloncesto: la identidad. Se trata de un problema muy difícil de plantear, cuya aplicación sería la siguiente: dados los datos de tracking de una posesión concreta, tener un modelo de inteligencia artificial que prediga qué equipo es el que ha ejecutado dicha posesión. Los autores no han podido llegar a este nivel (han conseguido un 24% de precisión), pero sí que han cumplido con creces un objetivo de un peldaño inferior: dados los datos de tracking de todas las posesiones de un partido (de un equipo), han conseguido categorizar cuál era el equipo en cuestión con un 95% de precisión (con los Phoenix Suns siendo el peor equipo con poco más de un 65%). Este método giraba en base a un ancoraje, que sería la distancia de los jugadores al balón.

En un segundo experimento, se ha intentado clasificar de nuevo las posesiones individuales con el impacto de los jugadores estrella: es decir, ¿son los Warriors más fáciles de distinguir cuando Stephen Curry está en pista? Entrenando un nuevo modelo de inteligencia artificial (cambiando básicamente el orden de los jugadores en la matriz de datos), se ha mejorado del 24 al 42% de precisión.

The Advantage of Doubling: A Deep Reinforcement Learning Approach to Studying the Double Team in the NBA (Jiaxuan Wang, Ian Fox, Jonathan Skaza, Nick Linck, Satinder Singh, Jenna Wiens). Los partidos de baloncesto son partidas de ajedrez, donde los entrenadores plantean mil trucos para intentar secar al equipo contrincante: un claro ejemplo son los constantes 2c1 contra el jugador estrella del otro equipo. Sin embargo, hacer una defensa doble tiene un riesgo muy claro: si el jugador que recibe el 2c1 consigue sacar un buen pase, la probabilidad de encajar una canasta fácil es alta. Así pues, ¿qué se debe hacer? En esta investigación se ha entrenado un modelo de inteligencia artificial (dados los datos de tracking) capaz de detectar cuándo un jugador está sometido a un 2c1 de más de 2 segundos. Después, es necesario calcular el riesgo de hacer una defensa doble modelando con (otra vez) una cadena de Markov; partiendo el campo en diferentes trozos y sabiendo qué jugador tiene el balón, un defensor cercano (diferente al que defiende al jugador con balón) tiene dos acciones posibles: hacer el 2c1 o no hacerlo, y la recompensa en este caso se mide con los puntos no encajados. Por si fuera poco, otros factores como el peso del jugador defensor, el rango de tiro del jugador con el balón, la posesión o el marcador también se tienen en cuenta en este modelo. Como curiosidad y considerando todos los 2c1 en los últimos tres años, los autores detectaron que los jugadores más efectivos ante estas situaciones son John Wall (bases) y Rudy Gay (aleros), mientras que los peores son Lou Williams y Kevin Durant. Del mismo modo, también vieron que el tándem defensivo formado por Kyle Lowry y Jonas Valanciunas fue el más efectivo en puntos por posesión (0.64), mientras que Ricky Rubio y Karl Anthony-Towns fueron los que más balones perdidos forzaron (21% de las ocasiones).

El experimento descrito está realizado con la defensa de diferentes equipos ante Cleveland Cavaliers (2016-2017); el objetivo del modelo entrenado es decir cuándo se tendría que hacer un 2c1 dada la posición de los jugadores de los Cavs en pista. Los resultados son contra-intuitivos, dado que la inteligencia artificial sugiere hacer muchas menos defensas dobles a Irving o Lebron, pero en cambio pide más presión cuando jugadores de rol como JR Smith, Shumpert o Jefferson tienen el balón. Los autores no defienden del todo este resultado, dado que consideran que no hay aún una muestra de datos significativa para sacar conclusiones.

High-resolution shot capture reveals systematic biases and an improved method for shooter evaluation (Rachel Marty). El famoso analista Kirk Goldsberry publicó hace unos años un artículo que decía que el mejor tirador no era aquel que mejor porcentaje de tiros de campo tenía, sino aquel que tiraba mejor desde diferentes posiciones del campo. En este proyecto se pretende seguir la tarea de Goldsberry añadiendo más conocimiento científico si cabe, para así tener métricas de tiro más completas que puedan servir para mejorar porcentajes y/o evaluar los jugadores. La tecnología de Noahlytics es un sensor 3D en la canasta que no tan solo te dice desde dónde se ha tirado en lanzamiento, sino también en qué parte del aro ha impactado; con este avance, se pueden sacar nuevas características para hacer un análisis más exhaustivo: la desviación izquierda-derecha y la desviación delante-detrás. Esta investigación esta aún en fase beta, dado que tan solo se ha testeado con tres jugadores de diferentes porcentajes, pero claro está que con estas nuevas estadísticas, se podrán describir mucho mejor los defectos en el tiro de los jugadores. De hecho, en el concurso de triples de este All-Star ya aparecían grafismos de este tipo; dará mucho de qué hablar.

Sobre el autor

 
Antiguedad: 
2 años 6 meses
#contenidos: 
31
#Comentarios: 
86
Total lecturas: 
94,609

Comentarios

Interesante trabajo. Bien documentado. Siempre habrá un espacio para desorientar a las predicciones. Estamos hablando de IA que aprende y desarrolla perfiles de incluso los entrenadores. La creatividad siempre irá un paso por delante.

La verdad es que todo esto suena a ciencia ficción. ¿Realmente se llegarán a aplicar estas cosas? ¿En qué niveles? Si algunas de estas tecnologías entran, supongo que lo harían desde las élites hacia abajo...y eso quizá acabaría chocando y encontrando como problema el hecho de que los jugadores lleguen formados sin el uso de estas técnicas...  En fin, dentro de una década habrá que echar las vista atrás y ver si este artículo fue premonitorio... En cualquier caso, es verdaderamente interesenta leer este tipo de trabajos

 

No tardaran en jugar robots a esto. Por lo que entiendo de la pizarra cibernética , el entrenador diseñará in situ tácticas en base a la predicción que le genera automáticamente una aplicación de las posibles defensas o ataques del rival ¿es correcto? Desnaturalización del juego, el riesgo de eliminar la improvisación como manera de que los jugadores aprendan a interpretar en tiempo real situaciones de juego.

Gran recopilación Adrià! Como se ve en el paper "Replaying the NBA (Nathan Sandholtz, Luke Bornn)" toda esta locura desatada con los datos funciona. No solo la mano de D'Antoni se nota en Houston, sino la de Morey creando el equipo de data que tiene detrás. Cuando veremos esta locura llegar a Europa? Se está haciendo por aquí también ya?

¡Muchas gracias! Justo ayer por la noche estaba viendo una sesión de debate respecto la locura del run & gun, en un panel donde estaban Morey y Steve Nash, muy recomendable: https://www.youtube.com/watch?v=kolSvuMdkck Aquí es curioso porque el "triple-sistema" no está basado en posesiones tan cortas, aunque la tendencia sea a abrirse cada vez más y utilizar formatos de pequeños... ¡Estaremos atentos!