Las estadísticas avanzadas se utilizan cada vez más en el mundo del baloncesto, y los entrenadores se están quedando cortos con los box-scores habituales. En Estados Unidos, empresas como STATS o Second Spectrum entregan después de cada partido un informe con datos que reflejan que ha sucedido realmente en el partido: cuántos puntos ha anotado el contrincante después de pasar un bloqueo por detrás, cuál ha sido el rendimiento de cada jugador en diferentes fases del partido, etc. Sin embargo, en Europa no existen este tipo de datos; aunque cualquier aficionado pueda constatar que Edwin Jackson ha sido el máximo anotador de la temporada, nadie puede decir quién ha sido el jugador que mejores decisiones ha tomado, o el jugador que más ha luchado por los rebotes.

Con una base de datos inmensa (incluyendo el tracking de los jugadores), este tipo de estadísticas se puede inferir con modelos de inteligencia artificial, porque actualmente se pueden hacer auténticas virguerías con fríos datos.

Dado mi techiebackground, este artículo pretende explicar cómo se puede aplicar la inteligencia artificial en un problema baloncestístico muy simple, que trata sobre la clasificación de posiciones de los jugadores dados sus estadísticas anuales. Me explico, todo aficionado de baloncesto ama los debates, donde cualquier persona puede hacerse la entendida (me incluyo) con tópicos como:

– Johannes Voigtmann juega de pívot porque mide más de dos metros, pero en realidad es un alero.

– Albert Ventura tiene alma de jugador interior, una lástima que no sea más alto.

– Kyle Fogg es un buen jugador, pero no está hecho para jugar de base, debería jugar de escolta.

Sin embargo, ¿cómo se pueden contrastan numéricamente este tipo de opiniones? Como en muchos otros casos, un modelo de inteligencia artificial puede dar, con suficiente precisión, una estimación válida.

Antes de explicar la aplicación concreta, explicaré de un modo muy sencillo qué hace la inteligencia artificial conjunto de datos: pondremos por caso que se dispone del promedio de asistencias y rebotes de todos los bases y los pívots de la ACB. Plasmando estos datos en un simple gráfico en 2D, se obtendría una muestra parecida a la Figura 1:

Como se puede observar, hay dos grupos diferenciados, pues los pívots recogen más rebotes y reparten menos asistencias que los bases (y viceversa). De este modo, un algoritmo de inteligencia artificial (como por ejemplo las máquinas de vectores de soporte) establece unos límites para después poder clasificar nuevas instancias; esta operación se llama entrenamiento del conjunto.

Como se puede ver en la Figura 2, dos nuevas instancias han sido introducidas en la muestra, sin saber a qué tipo de jugador corresponden; dados los límites encontrados anteriormente, las nuevas instancias serán clasificadas. En este caso, el algoritmo deduciría que el punto naranja corresponde a un pívot, mientras que el rojo pertenece a un base.

Aunque parezca muy simple, las complicaciones llegan cuando se intenta diferenciar un pívot de un ala-pívot, o un escolta de un alero, y para ello hace falta añadir más información al conjunto de datos (cualquier otro tipo de estadística).

Sin más preámbulos, pasamos directamente al modelo entrenado, el cual contiene los siguientes datos:

– Estadísticas incluidas en la muestra: puntos, tiros de 2 (convertidos/fallados), tiros de 3 (convertidos/fallados), tiros libres (convertidos/fallados), rebotes ofensivos, rebotes defensivos, asistencias, recuperaciones, perdidas, tapones, tapones recibidos, mates, faltas personales, faltas personales recibidas.

– Las estadísticas corresponden a los 32 partidos/equipo en la Liga Regular (no se han incluido ni Play-Off, ni Copa del Rey, ni competiciones europeas).

– Las estadísticas son en formato “proyección en 40 minutos”. Esto quiere decir, que un jugador que anota 6 puntos por partido en 20 minutos de promedio, tiene una proyección de 12 en 40. El motivo por usar este tipo de proyección es la estandarización de las estadísticas (normalización). Por ejemplo, puede que un pívot titular que juegue más de 30 minutos por partido reparta las mismas asistencias de un base de rotación que juegue entre 10-12; con dicha proyección, los datos se contextualizan.

Jugadores incluidos en la muestra: todos aquellos que han disputado un mínimo de 10 partidos con su equipo y un mínimo de 11 minutos por partido. El total de jugadores incluidos es de 187.

Utilizando estos datos y una estrategia de validación cruzada, el modelo de inteligencia artificial ha conseguido clasificar los jugadores con 70.05% de precisión. En la Tabla 1 se muestra la clasificación individualizada de cada jugador.

Tabla 1: clasificación individualizada según el modelo de inteligencia artificial de los jugadores de la ACB

Ver imagen ampliada

Más concretamente, las conclusiones más curiosas son las siguientes:

1. Clasificación por posiciones

31/39 bases han sido clasificados con éxito (79.49%). Todos los errores menos uno han sido bases clasificados como escoltas, generalmente en jugadores que precisamente encajan en la definición de combo-guard, pudiendo actuar de 1-2 dependiendo del momento: Terry Smith, Jamar Wilson o el ya mencionado Kyle Fogg son claros ejemplos.

22/35 escoltas han sido clasificados con éxito (62.85%). En este caso, los errores de clasificación también han sido propiciados por el etiquetaje de escoltas como otro tipo de jugador exterior. Por ejemplo, jugadores que hacen un poco de todo (sobretodo en defensa) como Vidal, Ventura, Oleson o David Navarro son considerados aleros.

– El caso de los aleros es el más conflictivo de todos, con una precisión del 44.11 % (15/34), pues existen muchos perfiles distintos: reboteadores como Beiran, Rojas, Lockett, O’Neale, Antetokounmpo o Sato son considerados como ala-pívots, mientras que los más anotadores como Mumbrú, San Emeterio, Eriksson o Paunic son considerados escoltas.

29/38 ala-pívots han sido clasificados con éxito (76.31%). Los errores se han dado en aquellos 4’s que tienden a jugar abiertos como Bogdanovic, Gielo, Hervelle, Suárez o Milosevic, clasificados como 3’s, y en los jugadores duros de roer que pueden ocupar la posición de 5, como Reyes, Oriola o Llovet.

– Los pívots son los más fáciles de clasificar, con una precisión del 82.93% (34/41). Las únicas confusiones han venido en aquellos 5’s con capacidad para lanzar de media-larga distancia, como Voigtmann, Hettsheimeir o Whittington. También se han contabilizado como errores el etiquetaje de jugadores polivalentes como Dubjlevic y Sikma en la posición de 4; sin embargo, este tipo de jugador puede alternarse en las posiciones interiores sin problema, así que la precisión podría ser aún mayor si se considerara la opción de etiquetar un jugador en dos roles.

2. Los jugadores más atípicos

El jugador más atípico desde el punto de vista de este modelo de inteligencia artificial es sin duda Álex Llorca. El escolta es un jugador de garra y defensa no acostumbrado a lanzar desde la larga distancia; la combinación de estos factores ha hecho que Llorca sea clasificado como un pívot puro (5).

Otras clasificaciones atípicas son las del base Keny Chery considerado un alero o la del alero Marius Grigonis, considerado un base.  Aún así, como dice el dicho: el tiempo pone a cada uno en su lugar, y con esto quiero decir que muchas de los errores del modelo han sido cometidos sobre jugadores que han tenido lesiones de media o larga duración, o que han sido desconvocados en un considerable número de partidos. Sin ir más lejos, los mismos Llorca y Grigonis han tenido problemas físicos, y Chery no dispuso de la confianza de sus entrenadores en un Betis que navegó a la deriva.

Otros casos de jugadores mal clasificados y “pocos” partidos disputados podrían ser Sarunas Vasiliauskas, Scott Bamforth, Nico Richotti, Stephen Holt, Osvaldas Matulionis, Rafa Hettsheimeir o Albert Miralles.

3. Los equipos más atípicos

Para calcular cómo de atípico es un equipo, se utilizará una simple métrica: el número de errores cuantificado dividido entre el número total de jugadores de dicho equipo. El número de errores cuantificado es un concepto fácil de entender: un escolta clasificado como un base o un alero (posiciones más parecidas) cuenta como “1 error”, pero un escolta clasificado como un ala-pívot o una pívot cuenta como “2” o “3 errores” respectivamente. El ranking de los equipos de la ACB es el siguiente:

1. Divina Seguros Joventut: 67 %

2. Montakit Fuenlabrada: 54 %

3. Iberostar Tenerife: 50 %

4. Real Betis Energía Plus: 44 %

5. Valencia Basket: 41 %

6. Movistar Estudiantes: 36 %

6. Río Natura Monbús: 36 %

8. Unicaja de Málaga: 33 %

9. Bilbao Basket: 30 %

10. Baskonia Basket: 27 %

11. UCAM Murcia: 18 %

11. Morabanc Andorra: 18 %

11. ICL Manresa: 18 %

14. F.C. Barcelona: 17 %

14. Real Madrid: 17 %

16. Tecnyconta Zaragoza: 11 %

17. Herbalife Gran Canaria: 9%

Como se puede deducir, no existe una correlación directa entre este ranking y la posición de los equipos en la clasificación real. Los casos más curiosos son los siguientes:

– El Divina Seguros Joventut presenta la plantilla más atípica según el modelo, donde los tres bases son considerados escoltas, los dos escoltas son tratados como aleros y los dos ala-pívots están clasificados como aleros. De hecho, se trata de una plantilla con perfiles de jugadores muy similares, y el caso de los 4’s es muy claro: la Penya ha sufrido mucho contra ala-pívots físicos dado que ni Bogdanovic ni Gielo son un perfil de 4 duro que basa su juego en el poste. Además, con tanto especialista defensivo exterior (Ventura, Vidal o el mismo Lapornik), han sido los bases los que han asumido los galones de anotación que habitualmente tienen los escoltas.

– El equipo más “típico” es el Herbalife Gran Canaria, donde todos los jugadores cumplen el rol que se suponen a excepción del todoterreno Royce O’Neale.

– Las lesiones han influido en algunos de los errores del modelo, dado que ha habido jugadores que han tenido que parchear en posiciones que (aparentemente) no son la suya: sería el caso de Antetokounmpo o Whittington con la lesiones de Nacho Martín o Rosco Allen ocupando la posición de 4.

– Muchos equipos compensan por si mismos los errores de clasificación; sin ir más lejos, en el juego interior del Baskonia, Voigtmann es considerado un 4, pero Shengelia suple estadísticamente las carencias del alemán en el poste y termina clasificado como un 5.

Conclusión

Como habéis podido observar, con un conjunto de datos muy limitado (32 partidos de 17 equipos distintos), se pueden extraer conclusiones más que interesantes mediante el uso de inteligencia artificial. El “boom” de estos modelos está aún por llegar, pero los entrenadores se pueden frotar las manos con la cantidad de información que tendrán a su disposición.