Donner aux robots une perception humaine de leur environnement physique –

  • FrançaisFrançais



  • N’apprécierions-nous pas tous un peu d’aide dans la maison, surtout si cette aide se présentait sous la forme d’un robot intelligent, adaptable et sans plainte? Bien sûr, il existe les Roombas à un tour du monde de l’électroménager. Mais les ingénieurs du MIT envisagent davantage les robots comme des aides à domicile, capables de suivre des commandes de haut niveau de type Alexa, telles que «Va dans la cuisine et va me chercher une tasse de café».

    Pour mener à bien ces tâches de haut niveau, les chercheurs pensent que les robots devront être capables de percevoir leur environnement physique comme le font les humains.

    «Pour prendre une décision dans le monde, vous devez avoir un modèle mental de l’environnement qui vous entoure», explique Luca Carlone, professeur assistant d’aéronautique et d’astronautique au MIT. «C’est quelque chose de si simple pour les humains.

    Mais pour les robots, c’est un problème extrêmement difficile, où il s’agit de transformer les valeurs de pixels qu’ils voient à travers une caméra, en une compréhension du monde. “Maintenant, Carlone et ses étudiants ont développé une représentation de la perception spatiale pour les robots qui est modélisée après la manière les humains perçoivent et naviguent dans le monde.

    Le nouveau modèle, qu’ils appellent 3D Dynamic Scene Graphs, permet à un robot de générer rapidement une carte 3D de son environnement qui comprend également des objets et leurs étiquettes sémantiques (une chaise contre une table, par exemple), ainsi que des personnes, des pièces, murs et autres structures que le robot voit probablement dans son environnement.

    Le modèle permet également au robot d’extraire des informations pertinentes de la carte 3D, d’interroger l’emplacement des objets et des pièces, ou le mouvement des personnes sur son chemin.

    «Cette représentation compressée de l’environnement est utile car elle permet à notre robot de prendre rapidement des décisions et de planifier son chemin», déclare Carlone. “Ce n’est pas trop loin de ce que nous faisons en tant qu’humains. Si vous avez besoin de planifier un chemin entre votre domicile et le MIT, vous ne planifiez pas chaque position que vous devez prendre. Vous pensez simplement au niveau des rues et des points de repère, qui vous aide à planifier votre itinéraire plus rapidement. “

    Au-delà des aides domestiques, Carlone affirme que les robots qui adoptent ce nouveau type de modèle mental de l’environnement peuvent également être adaptés à d’autres emplois de haut niveau, tels que travailler côte à côte avec des personnes dans une usine ou explorer un site de catastrophe pour les survivants.

    Lui et ses étudiants, y compris l’auteur principal et étudiant diplômé du MIT Antoni Rosinol, présenteront leurs résultats cette semaine lors de la conférence virtuelle Robotics: Science and Systems.

    Un mélange de cartographie

    À l’heure actuelle, la vision et la navigation robotiques ont avancé principalement le long de deux voies: la cartographie 3D qui permet aux robots de reconstruire leur environnement en trois dimensions tout en explorant en temps réel; et la segmentation sémantique, qui aide un robot à classer les caractéristiques de son environnement en tant qu’objets sémantiques, comme une voiture par rapport à un vélo, ce qui jusqu’à présent est principalement réalisé sur des images 2D.

    Le nouveau modèle de perception spatiale de Carlone et Rosinol est le premier à générer une carte 3D de l’environnement en temps réel, tout en étiquetant également des objets, des personnes (qui sont dynamiques, contrairement aux objets) et des structures au sein de cette carte 3D.

    L’élément clé du nouveau modèle de l’équipe est Kimera, une bibliothèque open source que l’équipe a précédemment développée pour construire simultanément un modèle géométrique 3D d’un environnement, tout en codant la probabilité qu’un objet soit, par exemple, une chaise par rapport à un bureau.

    «Comme la créature mythique qui est un mélange d’animaux différents, nous voulions que Kimera soit un mélange de cartographie et de compréhension sémantique en 3D», explique Carlone.

    Kimera fonctionne en captant des flux d’images de la caméra d’un robot, ainsi que des mesures inertielles à partir de capteurs embarqués, pour estimer la trajectoire du robot ou de la caméra et pour reconstruire la scène sous forme de maillage 3D, le tout en temps réel.

    Pour générer un maillage 3D sémantique, Kimera utilise un réseau de neurones existant formé sur des millions d’images du monde réel, pour prédire l’étiquette de chaque pixel, puis projette ces étiquettes en 3D à l’aide d’une technique connue sous le nom de lancer de rayons, couramment utilisée en informatique. graphiques pour un rendu en temps réel.

    Le résultat est une carte de l’environnement d’un robot qui ressemble à un maillage tridimensionnel dense, où chaque face est codée par couleur comme faisant partie des objets, des structures et des personnes de l’environnement.

    Une scène en couches

    Si un robot comptait uniquement sur ce maillage pour naviguer dans son environnement, ce serait une tâche coûteuse en calcul et chronophage. Les chercheurs ont donc développé Kimera, développant des algorithmes pour construire des “graphes de scène” dynamiques en 3D à partir du maillage sémantique 3D initial, très dense, de Kimera.

    Les graphiques de scène sont des modèles d’infographie populaires qui manipulent et rendent des scènes complexes, et sont généralement utilisés dans les moteurs de jeux vidéo pour représenter des environnements 3D.

    Dans le cas des graphes de scènes dynamiques 3D, les algorithmes associés abstrument ou décomposent le maillage sémantique 3D détaillé de Kimera en couches sémantiques distinctes, de sorte qu’un robot peut “voir” une scène à travers une couche ou une lentille particulière. Les couches progressent dans la hiérarchie des objets et des personnes, aux espaces ouverts et aux structures telles que les murs et les plafonds, aux pièces, aux couloirs et aux halls, et enfin aux bâtiments entiers.

    Carlone dit que cette représentation en couches évite à un robot d’avoir à donner un sens à des milliards de points et de faces dans le maillage 3D d’origine.

    Au sein de la couche d’objets et de personnes, les chercheurs ont également pu développer des algorithmes permettant de suivre en temps réel le mouvement et la forme des humains dans l’environnement.

    L’équipe a testé son nouveau modèle dans un simulateur photo-réaliste, développé en collaboration avec le MIT Lincoln Laboratory, qui simule un robot naviguant dans un environnement de bureau dynamique rempli de personnes en mouvement.

    «Nous permettons essentiellement aux robots d’avoir des modèles mentaux similaires à ceux que les humains utilisent», déclare Carlone. «Cela peut avoir un impact sur de nombreuses applications, notamment les voitures autonomes, la recherche et le sauvetage, la fabrication collaborative et la robotique domestique.

    Un autre domaine est la réalité virtuelle et augmentée (RA). Imaginez que vous portiez des lunettes AR qui exécutent notre algorithme: les lunettes seraient en mesure de vous aider avec des questions telles que “Où ai-je laissé ma tasse rouge?” et “Quelle est la sortie la plus proche?”

    Vous pouvez le considérer comme une Alexa qui est consciente de l’environnement qui vous entoure et comprend les objets, les humains et leurs relations. “

    «Notre approche vient d’être rendue possible grâce aux progrès récents de l’apprentissage profond et à des décennies de recherche sur la localisation et la cartographie simultanées», déclare Rosinol. «Avec ce travail, nous faisons le saut vers une nouvelle ère de perception robotique appelée IA spatiale, qui n’en est qu’à ses balbutiements mais qui a un grand potentiel en robotique et en réalité virtuelle et augmentée à grande échelle.

    Cette recherche a été financée, en partie, par le laboratoire de recherche de l’armée, le bureau de recherche navale et le laboratoire MIT Lincoln.

    Article: “Graphiques de scènes dynamiques 3D: perception spatiale exploitable avec des lieux, des objets et des humains” https://roboticsconference.org/program/papers/79/

    Vidéo: https://www.youtube.com/watch?v=SWbofjhyPzI

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse de messagerie ne sera pas publiée.