Oubliez les échecs, DeepMind forme sa nouvelle IA pour jouer au football

Les chercheurs de DeepMind, le laboratoire d’intelligence artificielle du mastodonte britannique, ont délaissé les nobles jeux d’échecs et Go pour un plaisir plus plébéien : le football.
La société sœur de Google a publié hier un document de recherche et un article de blog qui l’accompagne détaillant ses nouvelles primitives motrices probabilistes neurales (NPMP) – une méthode par laquelle les agents d’intelligence artificielle peuvent apprendre à faire fonctionner des corps physiques.
Par le article de blog:
Un NPMP est un module de contrôle moteur à usage général qui traduit les intentions motrices à court horizon en signaux de contrôle de bas niveau, et il est formé hors ligne ou via RL en imitant les données de capture de mouvement (MoCap), enregistrées avec des trackers sur des humains ou des animaux effectuant des mouvements de intérêt.
Inscrivez-vous à la newsletter de la conférence TNW
Et soyez le premier en ligne pour les offres de billets, les nouvelles sur les événements et plus encore !
À l’avant: Essentiellement, l’équipe DeepMind a créé un système d’IA qui peut apprendre à faire des choses à l’intérieur d’un simulateur physique en regardant des vidéos d’autres agents effectuant ces tâches.
Et, bien sûr, si vous avez un moteur physique géant et une réserve inépuisable de robots curieux, la seule chose rationnelle à faire est de lui apprendre à dribbler et à tirer :
Selon l’équipe document de recherche:
Nous avons optimisé des équipes d’agents pour jouer au football simulé via l’apprentissage par renforcement, limitant l’espace de solution à celui des mouvements plausibles appris à l’aide de données de capture de mouvement humain.
Arrière plan: Afin de former l’IA à faire fonctionner et à contrôler des robots dans le monde, les chercheurs doivent préparer les machines à la réalité. Et, en dehors des simulations, tout peut arriver. Les agents doivent faire face à la gravité, à des surfaces glissantes inattendues et à des interférences imprévues d’autres agents.
Le but de l’exercice n’est pas de construire un meilleur footballeur – Cristiano Ronaldo n’a rien à craindre des robots, pour l’instant – mais plutôt d’aider l’IA et ses développeurs à trouver comment optimiser la capacité des agents à prédire les résultats.
Alors que l’IA commence sa formation, elle est à peine capable de déplacer son avatar humanoïde basé sur la physique sur le terrain. Mais, en récompensant un agent chaque fois que son équipe marque un but, le modèle est capable de mettre les chiffres en marche en 50 heures environ. Après plusieurs jours d’entraînement, l’IA commence à prédire où ira la balle et comment les autres agents réagiront à son mouvement.
Selon le papier :
Le résultat est une équipe de joueurs de football humanoïdes coordonnés qui présentent un comportement complexe à différentes échelles, quantifié par une gamme d’analyses et de statistiques, y compris celles utilisées dans l’analyse du sport dans le monde réel. Notre travail constitue une démonstration complète de la prise de décision intégrée apprise à plusieurs échelles dans un cadre multi-agents.
Prise rapide : Ce travail est assez rad. Mais nous ne sommes pas sûrs que cela représente une « démonstration complète » de quoi que ce soit. Le modèle est évidemment capable de faire fonctionner un agent incarné. Mais, sur la base de la apparemment trié sur le volet GIFs sur le billet de blog, ce travail est encore profondément en phase de simulation.
L’essentiel ici, c’est que l’IA n’« apprend » pas à jouer au football. C’est un mouvement brutal dans les limites de sa simulation. Cela peut sembler être un problème mineur, mais les résultats sont assez évidents :
L’agent de l’IA ci-dessus a l’air absolument terrifié. Je ne sais pas ce qu’il fuit, mais je suis certain que c’est la chose la plus effrayante qui soit.
Il se déplace comme un extraterrestre portant un costume humain pour la première fois car, contrairement aux humains, l’IA ne peut pas apprendre en regardant. Des systèmes comme celui formé par DeepMind analysent des milliers d’heures de vidéo et, essentiellement, extraient des données de mouvement sur le sujet dont ils essaient d'”apprendre”.
Cependant, il est presque certain que ces modèles deviendront plus robustes au fil du temps. Nous avons vu ce que Boston Dynamics peut faire avec des algorithmes d’apprentissage automatique et des chorégraphies préprogrammées.
Il sera intéressant de voir comment des modèles plus adaptatifs, tels que ceux développés par DeepMind, s’en tireront une fois qu’ils auront dépassé l’environnement de laboratoire et dans des applications robotiques réelles.