Un algorithme aide les systèmes d’intelligence artificielle à éviter les entrées “ contradictoires ” –

  • FrançaisFrançais



  • Dans un monde parfait, ce que vous voyez est ce que vous obtenez. Si tel était le cas, le travail des systèmes d’intelligence artificielle serait d’une simplicité rafraîchissante.

    Prenez les systèmes d’évitement de collision dans les voitures autonomes. Si l’entrée visuelle des caméras embarquées pouvait être entièrement fiable, un système d’IA pourrait directement mapper cette entrée à une action appropriée – tourner à droite, tourner à gauche ou continuer tout droit – pour éviter de heurter un piéton que ses caméras voient dans la route. .

    Mais que se passe-t-il s’il y a un problème dans les caméras qui décale légèrement une image de quelques pixels? Si la voiture faisait aveuglément confiance à ce que l’on appelle des «contributions contradictoires», elle pourrait prendre des mesures inutiles et potentiellement dangereuses.

    Un nouvel algorithme d’apprentissage en profondeur développé par les chercheurs du MIT est conçu pour aider les machines à naviguer dans le monde réel et imparfait, en créant un «scepticisme» sain sur les mesures et les entrées qu’elles reçoivent.

    L’équipe a combiné un algorithme d’apprentissage par renforcement avec un réseau de neurones profonds, tous deux utilisés séparément pour entraîner les ordinateurs à jouer à des jeux vidéo comme Go et aux échecs, pour construire une approche qu’ils appellent CARRL, pour Certified Adversarial Robustness for Deep Reinforcement Learning.

    Les chercheurs ont testé l’approche dans plusieurs scénarios, y compris un test simulé d’évitement de collision et le jeu vidéo Pong, et ont constaté que CARRL fonctionnait mieux – en évitant les collisions et en remportant plus de jeux Pong – par rapport aux techniques d’apprentissage automatique standard, même en face. des contributions incertaines et contradictoires.

    «Vous pensez souvent qu’un adversaire est quelqu’un qui pirate votre ordinateur, mais il se peut aussi que vos capteurs ne soient pas excellents ou que vos mesures ne soient pas parfaites, ce qui est souvent le cas», explique Michael Everett, postdoc au MIT. Département d’aéronautique et d’astronautique (AeroAstro). “Notre approche permet de tenir compte de cette imperfection et de prendre une décision sûre. Dans tout domaine critique pour la sécurité, il s’agit d’une approche importante à laquelle il faut réfléchir.”

    Everett est l’auteur principal d’une étude décrivant la nouvelle approche, qui apparaît dans l’IEEE Transactions sur les réseaux de neurones et les systèmes d’apprentissage. L’étude est issue de la thèse de maîtrise de l’étudiant au doctorat du MIT Björn Lütjens et a été conseillée par le professeur Jonathan How du MIT AeroAstro.

    Réalités possibles

    Pour rendre les systèmes d’IA robustes contre les contributions contradictoires, les chercheurs ont essayé de mettre en œuvre des défenses pour l’apprentissage supervisé. Traditionnellement, un réseau neuronal est formé pour associer des étiquettes ou des actions spécifiques à des entrées données. Par exemple, un réseau de neurones qui alimente des milliers d’images étiquetées comme des chats, ainsi que des images étiquetées comme des maisons et des hot dogs, devrait correctement étiqueter une nouvelle image comme un chat.

    Dans les systèmes d’IA robustes, les mêmes techniques d’apprentissage supervisé pourraient être testées avec de nombreuses versions légèrement modifiées de l’image. Si le réseau atterrit sur la même étiquette – chat – pour chaque image, il y a de fortes chances que, altérée ou non, l’image soit bien celle d’un chat, et le réseau est robuste à toute influence contradictoire.

    Mais exécuter toutes les altérations possibles de l’image est un calcul exhaustif et difficile à appliquer avec succès à des tâches sensibles au temps telles que l’évitement des collisions. De plus, les méthodes existantes n’identifient pas non plus quelle étiquette utiliser, ni quelle action entreprendre, si le réseau est moins robuste et étiquette certaines images de chat modifiées comme une maison ou un hot-dog.

    «Afin d’utiliser les réseaux de neurones dans des scénarios critiques pour la sécurité, nous avons dû découvrir comment prendre des décisions en temps réel basées sur les hypothèses les plus défavorables sur ces réalités possibles», déclare Lütjens.

    La meilleure récompense

    L’équipe a plutôt cherché à s’appuyer sur l’apprentissage par renforcement, une autre forme d’apprentissage automatique qui ne nécessite pas d’associer des entrées étiquetées à des sorties, mais vise plutôt à renforcer certaines actions en réponse à certaines entrées, en fonction d’une récompense qui en résulte. Cette approche est généralement utilisée pour entraîner les ordinateurs à jouer et à gagner des parties telles que les échecs et le go.

    L’apprentissage par renforcement a surtout été appliqué à des situations où les intrants sont supposés être vrais. Everett et ses collègues disent qu’ils sont les premiers à apporter une «robustesse certifiable» à des contributions incertaines et contradictoires dans l’apprentissage par renforcement.

    Leur approche, CARRL, utilise un algorithme d’apprentissage par renforcement profond existant pour former un réseau Q profond, ou DQN – un réseau neuronal avec plusieurs couches qui associe finalement une entrée à une valeur Q ou un niveau de récompense.

    L’approche prend une entrée, telle qu’une image avec un seul point, et considère une influence contradictoire, ou une région autour du point où elle pourrait réellement se trouver à la place. Chaque position possible du point dans cette région est alimentée par un DQN pour trouver une action associée qui aboutirait à la récompense la plus optimale dans le pire des cas, basée sur une technique développée par le récent étudiant diplômé du MIT Tsui-Wei “Lily” Weng PhD ‘ 20.

    Un monde antagoniste

    Lors de tests avec le jeu vidéo Pong, dans lequel deux joueurs utilisent des palettes de chaque côté d’un écran pour passer une balle d’avant en arrière, les chercheurs ont présenté un «adversaire» qui a tiré la balle légèrement plus bas qu’elle ne l’était réellement. Ils ont constaté que CARRL gagnait plus de matchs que les techniques standard, à mesure que l’influence de l’adversaire augmentait.

    “Si nous savons qu’une mesure ne doit pas être fiable exactement, et que la balle peut être n’importe où dans une certaine région, alors notre approche dit à l’ordinateur qu’il doit placer la pagaie au milieu de cette région, pour s’assurer que nous frappons le balle même dans le pire des cas », dit Everett.

    La méthode était tout aussi robuste dans les tests d’évitement de collision, où l’équipe a simulé un agent bleu et un agent orange essayant de changer de position sans entrer en collision. Alors que l’équipe perturbait l’observation par l’agent orange de la position de l’agent bleu, CARRL a orienté l’agent orange autour de l’autre agent, prenant une place plus large alors que l’adversaire devenait plus fort, et la position de l’agent bleu devenait plus incertaine.

    Il est arrivé un moment où CARRL est devenu trop conservateur, ce qui a amené l’agent orange à supposer que l’autre agent pouvait se trouver n’importe où dans son voisinage, et en réponse à éviter complètement sa destination. Ce conservatisme extrême est utile, dit Everett, car les chercheurs peuvent ensuite l’utiliser comme limite pour ajuster la robustesse de l’algorithme. Par exemple, l’algorithme peut considérer un écart plus petit, ou une région d’incertitude, qui permettrait toujours à un agent d’obtenir une récompense élevée et d’atteindre sa destination.

    En plus de surmonter des capteurs imparfaits, Everett affirme que CARRL pourrait être un début pour aider les robots à gérer en toute sécurité des interactions imprévisibles dans le monde réel.

    «Les gens peuvent être antagonistes, comme se trouver devant un robot pour bloquer ses capteurs, ou interagir avec eux, pas nécessairement avec les meilleures intentions», dit Everett. “Comment un robot peut-il penser à toutes les choses que les gens pourraient essayer de faire et essayer de les éviter? Contre quel genre de modèles contradictoires voulons-nous nous défendre? C’est quelque chose que nous réfléchissons à la façon de faire.”

    Cette recherche a été soutenue, en partie, par Ford Motor Company dans le cadre de l’alliance Ford-MIT.

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.