L’apprentissage automatique garantit les performances des robots en territoire inconnu –

  • FrançaisFrançais



  • Un petit drone effectue un vol d’essai à travers un espace rempli de cylindres en carton placés au hasard agissant comme remplaçants pour les arbres, les personnes ou les structures. L’algorithme contrôlant le drone a été entraîné sur un millier de parcours simulés chargés d’obstacles, mais il n’en a jamais vu un comme celui-ci. Pourtant, neuf fois sur 10, l’avion de la taille d’une pinte évite tous les obstacles sur son passage.

    Cette expérience est un terrain d’essai pour un défi majeur de la robotique moderne: la capacité à garantir la sécurité et le succès des robots automatisés opérant dans des environnements nouveaux. Alors que les ingénieurs se tournent de plus en plus vers les méthodes d’apprentissage automatique pour développer des robots adaptables, de nouveaux travaux des chercheurs de l’Université de Princeton progressent sur ces garanties pour les robots dans des contextes avec divers types d’obstacles et de contraintes.

    «Au cours de la dernière décennie, il y a eu énormément d’enthousiasme et de progrès autour de l’apprentissage automatique dans le contexte de la robotique, principalement parce qu’il vous permet de gérer des entrées sensorielles riches», comme celles de la caméra d’un robot, et de cartographier ces entrées complexes aux actions, a déclaré Anirudha Majumdar, professeur adjoint de génie mécanique et aérospatial à Princeton.

    Cependant, les algorithmes de contrôle de robot basés sur l’apprentissage automatique courent le risque de surajustement de leurs données d’entraînement, ce qui peut rendre les algorithmes moins efficaces lorsqu’ils rencontrent des entrées différentes de celles sur lesquelles ils ont été formés. Le Intelligent Robot Motion Lab de Majumdar a relevé ce défi en élargissant la suite d’outils disponibles pour la formation des politiques de contrôle des robots et en quantifiant le succès et la sécurité probables des robots fonctionnant dans des environnements nouveaux.

    Dans trois nouveaux articles, les chercheurs ont adapté des cadres d’apprentissage automatique d’autres domaines au domaine de la locomotion et de la manipulation de robots. Ils se sont tournés vers la théorie de la généralisation, qui est généralement utilisée dans des contextes qui mappent une seule entrée sur une seule sortie, comme le marquage automatique des images. Les nouvelles méthodes sont parmi les premières à appliquer la théorie de la généralisation à la tâche plus complexe de garantir les performances des robots dans des contextes inconnus. Alors que d’autres approches ont fourni de telles garanties sous des hypothèses plus restrictives, les méthodes de l’équipe offrent des garanties plus largement applicables sur les performances dans des environnements nouveaux, a déclaré Majumdar.

    Dans le premier article, une preuve de principe pour l’application des cadres d’apprentissage automatique, l’équipe a testé leur approche dans des simulations comprenant un véhicule à roues traversant un espace rempli d’obstacles et un bras robotique saisissant des objets sur une table. Ils ont également validé la technique en évaluant l’évitement d’obstacles d’un petit drone appelé Parrot Swing (une combinaison de quadricoptère et d’avion à voilure fixe) alors qu’il volait dans un couloir de 60 pieds de long parsemé de cylindres en carton. Le taux de réussite garanti de la politique de contrôle du drone était de 88,4% et il a évité les obstacles dans 18 des 20 essais (90%).

    L’ouvrage, publié le 3 octobre dans le Journal international de recherche en robotique, a été co-écrit par Majumdar; Alec Farid, étudiant diplômé en génie mécanique et aérospatial; et Anoopkumar Sonar, un concentrateur informatique de la classe 2021 de Princeton.

    Lors de l’application de techniques d’apprentissage automatique d’autres domaines à la robotique, a déclaré Farid, “il y a beaucoup d’hypothèses spéciales que vous devez satisfaire, et l’une d’elles est de dire à quel point les environnements que vous attendez de voir sont similaires aux environnements de votre politique En plus de montrer que nous pouvons faire cela dans un environnement robotique, nous nous sommes également attachés à essayer d’élargir les types d’environnements pour lesquels nous pourrions fournir une garantie. “

    «Les types de garanties que nous pouvons offrir varient d’environ 80% à 95% de taux de réussite sur les nouveaux environnements, en fonction de la tâche spécifique, mais si vous déployez [an unmanned aerial vehicle] dans un environnement réel, alors 95% ne sont probablement pas assez bons “, a déclaré Majumdar.” Je vois cela comme l’un des plus grands défis, et un sur lequel nous travaillons activement. “

    Pourtant, les approches de l’équipe représentent des progrès indispensables en matière de garanties de généralisation pour les robots fonctionnant dans des environnements invisibles, a déclaré Hongkai Dai, chercheur principal au Toyota Research Institute de Los Altos, en Californie.

    “Ces garanties sont primordiales pour de nombreuses applications critiques pour la sécurité, telles que les voitures autonomes et les drones autonomes, où l’ensemble de formation ne peut pas couvrir tous les scénarios possibles”, a déclaré Dai, qui n’était pas impliqué dans la recherche. “La garantie nous indique à quel point il est probable qu’une politique puisse encore fonctionner raisonnablement bien dans des cas invisibles, et établit donc la confiance dans la politique, où l’enjeu de l’échec est trop élevé.”

    Dans deux autres articles, qui seront présentés le 18 novembre lors de la conférence virtuelle sur l’apprentissage des robots, les chercheurs ont examiné des améliorations supplémentaires pour rapprocher les politiques de contrôle des robots des garanties qui seraient nécessaires pour un déploiement dans le monde réel. Un article utilisait l’apprentissage par imitation, dans lequel un «expert» humain fournit des données d’entraînement en guidant manuellement un robot simulé pour ramasser divers objets ou se déplacer à travers différents espaces avec des obstacles. Cette approche peut améliorer le succès des politiques de contrôle basées sur l’apprentissage automatique.

    Pour fournir les données de formation, l’auteur principal Allen Ren, un étudiant diplômé en génie mécanique et aérospatial, a utilisé une souris d’ordinateur 3D pour contrôler un bras robotique simulé chargé de saisir et de soulever des tasses à boire de différentes tailles, formes et matériaux. D’autres expériences d’apprentissage par imitation impliquaient le bras poussant une boîte sur une table et une simulation d’un robot à roues naviguant autour de meubles dans un environnement comme à la maison.

    Les chercheurs ont déployé les politiques apprises des tâches de saisie de tasse et de poussée de boîte sur un bras robotique dans le laboratoire, qui a pu ramasser 25 tasses différentes en saisissant leurs bords entre ses deux pinces en forme de doigts – sans tenir la poignée. comme le ferait un humain. Dans l’exemple de l’encadrement, la politique a obtenu 93% de succès sur les tâches plus faciles et 80% sur les tâches plus difficiles.

    “Nous avons une caméra sur le dessus de la table qui voit l’environnement et prend une photo cinq fois par seconde”, a déclaré Ren. “Notre simulation de formation aux politiques prend cette image et produit le type d’action que le robot doit entreprendre, puis nous avons un contrôleur qui déplace le bras vers les emplacements souhaités en fonction de la sortie du modèle.”

    Un troisième article a démontré le développement de planificateurs basés sur la vision qui fournissent des garanties aux robots volants ou marcheurs pour effectuer des séquences de mouvements planifiées dans divers environnements. La création de politiques de contrôle pour les mouvements planifiés a posé un nouveau problème d’échelle – un besoin d’optimiser les politiques basées sur la vision avec des milliers, plutôt que des centaines, de dimensions.

    «Cela nécessitait de proposer de nouveaux outils algorithmiques pour être en mesure de s’attaquer à cette dimensionnalité tout en étant capable de donner de solides garanties de généralisation», a déclaré l’auteur principal Sushant Veer, associé de recherche postdoctoral en génie mécanique et aérospatial.

    Un aspect clé de la stratégie de Veer était l’utilisation de primitives de mouvement, dans lesquelles une politique ordonne à un robot d’aller tout droit ou de tourner, par exemple, plutôt que de spécifier un couple ou une vitesse pour chaque mouvement. Réduire l’espace des actions possibles rend le processus de planification plus facile à gérer, a déclaré Majumdar.

    Veer et Majumdar ont évalué les planificateurs basés sur la vision sur des simulations d’un drone naviguant autour d’obstacles et d’un robot à quatre pattes traversant un terrain accidenté avec des pentes aussi élevées que 35 degrés – “un problème très difficile que beaucoup de gens en robotique essaient encore. à résoudre », a déclaré Veer.

    Dans l’étude, le robot à pattes a atteint un taux de réussite de 80% sur des environnements de test invisibles. Les chercheurs s’efforcent d’améliorer encore les garanties de leurs politiques, ainsi que d’évaluer les performances des politiques sur de vrais robots dans le laboratoire.

    Le travail a été financé en partie par le US Office of Naval Research, la National Science Foundation, un Google Faculty Research Award et un Amazon Research Award.

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.