Comment entraîner un robot (en utilisant l’IA et les supercalculateurs) –

  • FrançaisFrançais



  • Avant de rejoindre l’Université du Texas à Arlington en tant que professeur adjoint au Département d’informatique et d’ingénierie et d’y fonder le laboratoire de vision robotique, William Beksi a effectué un stage chez iRobot, le plus grand producteur mondial de robots grand public (principalement grâce à son aspirateur robot Roomba). .

    Pour naviguer dans les environnements construits, les robots doivent être capables de détecter et de prendre des décisions sur la manière d’interagir avec leur environnement local. Les chercheurs de l’entreprise souhaitaient utiliser la machine et l’apprentissage profond pour entraîner leurs robots à se familiariser avec les objets, mais cela nécessite un vaste ensemble de données d’images. Bien qu’il existe des millions de photos et de vidéos de pièces, aucune n’a été prise du point de vue d’un aspirateur robotique. Les efforts de formation en utilisant des images avec des perspectives centrées sur l’homme ont échoué.

    Les recherches de Beksi se concentrent sur la robotique, la vision par ordinateur et les systèmes cyber-physiques. «En particulier, je suis intéressé par le développement d’algorithmes qui permettent aux machines d’apprendre de leurs interactions avec le monde physique et d’acquérir de manière autonome les compétences nécessaires pour exécuter des tâches de haut niveau», a-t-il déclaré.

    Des années plus tard, maintenant avec un groupe de recherche comprenant six doctorants en informatique, Beksi a rappelé le problème de la formation Roomba et a commencé à explorer des solutions. Une approche manuelle, utilisée par certains, consiste à utiliser une caméra coûteuse à 360 degrés pour capturer des environnements (y compris des maisons Airbnb louées) et un logiciel personnalisé pour recoudre les images en un tout. Mais Beksi pensait que la méthode de capture manuelle serait trop lente pour réussir.

    Au lieu de cela, il s’est tourné vers une forme d’apprentissage en profondeur connue sous le nom de réseaux antagonistes génératifs, ou GAN, où deux réseaux de neurones se disputent dans un jeu jusqu’à ce que le «générateur» de nouvelles données puisse tromper un «discriminateur». Une fois formé, un tel réseau permettrait la création d’un nombre infini de pièces ou d’environnements extérieurs possibles, avec différents types de chaises ou de tables ou de véhicules aux formes légèrement différentes, mais tout de même – pour une personne et un robot – des objets identifiables avec dimensions et caractéristiques reconnaissables.

    «Vous pouvez perturber ces objets, les déplacer vers de nouvelles positions, utiliser différentes lumières, couleurs et textures, puis les rendre dans une image de formation qui pourrait être utilisée dans un jeu de données», a-t-il expliqué. “Cette approche fournirait potentiellement des données illimitées pour entraîner un robot.”

    «La conception manuelle de ces objets prendrait une énorme quantité de ressources et d’heures de travail humain tandis que, s’ils sont correctement formés, les réseaux génératifs peuvent les fabriquer en quelques secondes», a déclaré Mohammad Samiul Arshad, un étudiant diplômé du groupe de Beksi impliqué dans la recherche.

    GÉNÉRATION D’OBJETS POUR SCÈNES SYNTHÉTIQUES

    Après quelques tentatives initiales, Beksi a réalisé que son rêve de créer des scènes photoréalistes complètes était actuellement hors de portée. «Nous avons pris du recul et examiné les recherches actuelles pour déterminer comment commencer à une plus petite échelle – générer des objets simples dans des environnements.»

    Beksi et Arshad ont présenté PCGAN, le premier réseau antagoniste génératif conditionnel à générer des nuages ​​de points colorés denses en mode non supervisé, lors de la Conférence internationale sur la vision 3D (3DV) en novembre 2020. Leur article, “A Progressive Conditional Generative Adversarial Network for Generating Nuages ​​de points 3D denses et colorés », montre que leur réseau est capable d’apprendre à partir d’un ensemble d’apprentissage (dérivé de ShapeNetCore, une base de données de modèles CAO) et d’imiter une distribution de données 3D pour produire des nuages ​​de points colorés avec des détails fins à plusieurs résolutions.

    «Il y avait des travaux qui pourraient générer des objets synthétiques à partir de ces ensembles de données de modèle CAO», a-t-il déclaré. “Mais personne ne pouvait encore gérer la couleur.”

    Afin de tester leur méthode sur une diversité de formes, l’équipe de Beksi a choisi des chaises, des tables, des canapés, des avions et des motos pour leur expérience. L’outil permet aux chercheurs d’accéder au nombre quasi-infini de versions possibles de l’ensemble d’objets généré par le système d’apprentissage profond.

    «Notre modèle apprend d’abord la structure de base d’un objet à basse résolution et évolue progressivement vers des détails de haut niveau», a-t-il expliqué. “La relation entre les parties de l’objet et leurs couleurs – par exemple, les pieds de la chaise / table sont de la même couleur tandis que l’assise / le plateau sont contrastés – est également apprise par le réseau. Nous commençons petit, en travaillant avec des objets , et construire une hiérarchie pour générer une scène entièrement synthétique qui serait extrêmement utile pour la robotique. “

    Ils ont généré 5 000 échantillons aléatoires pour chaque classe et effectué une évaluation en utilisant un certain nombre de méthodes différentes. Ils ont évalué à la fois la géométrie et la couleur des nuages ​​de points à l’aide de diverses mesures courantes sur le terrain. Leurs résultats ont montré que PCGAN est capable de synthétiser des nuages ​​de points de haute qualité pour un tableau disparate de classes d’objets.

    SIM2REAL

    Un autre problème sur lequel Beksi travaille est connu sous le nom de «sim2real». «Vous disposez de données d’entraînement réelles et de données d’entraînement synthétiques, et il peut y avoir des différences subtiles dans la manière dont un système d’IA ou un robot apprend d’elles», a-t-il déclaré. “Sim2real” examine comment quantifier ces différences et rendre les simulations plus réalistes en capturant la physique de cette scène – frottements, collisions, gravité – et en utilisant le traçage de rayons ou de photons. “

    La prochaine étape pour l’équipe de Beksi est de déployer le logiciel sur un robot et de voir comment il fonctionne en relation avec l’écart de domaine sim-réel.

    La formation du modèle PCGAN a été rendue possible par la ressource d’apprentissage en profondeur Maverick 2 de TACC, à laquelle Beksi et ses étudiants ont pu accéder via le programme de recherche sur la cyberinfrastructure de l’Université du Texas (UTRC), qui fournit des ressources informatiques aux chercheurs de l’un des systèmes UT. 14 institutions.

    «Si vous souhaitez augmenter la résolution pour inclure plus de points et plus de détails, cette augmentation s’accompagne d’une augmentation du coût de calcul», a-t-il noté. “Nous n’avons pas ces ressources matérielles dans mon laboratoire, il était donc essentiel d’utiliser TACC pour ce faire.”

    En plus des besoins de calcul, Beksi avait besoin d’un stockage important pour la recherche. «Ces ensembles de données sont énormes, en particulier les nuages ​​de points 3D», a-t-il déclaré. “Nous générons des centaines de mégaoctets de données par seconde; chaque nuage de points représente environ 1 million de points. Vous avez besoin d’une énorme quantité de stockage pour cela.”

    Bien que Beksi affirme que le domaine est encore loin d’avoir de très bons robots robustes qui peuvent être autonomes pendant de longues périodes, cela profiterait à plusieurs domaines, notamment les soins de santé, la fabrication et l’agriculture.

    «La publication n’est qu’un petit pas vers l’objectif ultime de générer des scènes synthétiques d’environnements intérieurs pour faire progresser les capacités de perception robotique», a-t-il déclaré.

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.