L’IA apprend maintenant à évoluer comme des formes de vie terrestres


  • FrançaisFrançais



  • Cet article fait partie de notre revues d’articles de recherche sur l’IA, une série d’articles qui explorent les dernières découvertes en matière d’intelligence artificielle.

    Des centaines de millions d’années d’évolution ont béni notre planète avec une grande variété de formes de vie, chacune intelligente à sa manière. Chaque espèce a évolué pour développer des compétences innées, des capacités d’apprentissage et une forme physique qui assurent sa survie dans son environnement.

    Mais en dépit d’être inspiré par la nature et l’évolution, le domaine de l’intelligence artificielle s’est largement concentré sur la création des éléments de l’intelligence séparément et sur leur fusion après le développement. Bien que cette approche ait donné d’excellents résultats, elle a également limité la flexibilité des agents d’IA dans certaines des compétences de base trouvées même dans les formes de vie les plus simples.

    Dans un nouveau papier publié dans la revue scientifique Nature, des chercheurs en IA de l’Université de Stanford présentent une nouvelle technique qui peut aider à franchir certaines de ces limites. Intitulée « Deep Evolutionary Reinforcement Learning », la nouvelle technique utilise un environnement virtuel complexe et un apprentissage par renforcement pour créer des agents virtuels qui peuvent évoluer à la fois dans leur structure physique et leurs capacités d’apprentissage. Les résultats peuvent avoir des implications importantes pour l’avenir de la recherche en IA et en robotique.

    L’évolution est difficile à simuler

    Crédit: Ben Dickson / TechTalks

    Dans la nature, le corps et le cerveau évoluent ensemble. À travers de nombreuses générations, chaque espèce animale a traversé d’innombrables cycles de mutation pour développer des membres, des organes et un système nerveux afin de soutenir les fonctions dont elle a besoin dans son environnement. Les moustiques ont une vision thermique pour détecter la chaleur corporelle. Les chauves-souris ont des ailes pour voler et un appareil d’écholocalisation pour naviguer dans les endroits sombres. Les tortues marines ont des nageoires pour nager et un système de détection de champ magnétique pour parcourir de très longues distances. Les humains ont une posture droite qui libère leurs bras et leur permet de voir l’horizon lointain, des mains et des doigts agiles qui peuvent manipuler des objets, et un cerveau qui fait d’eux les meilleures créatures sociales et résolveurs de problèmes sur la planète.

    Fait intéressant, toutes ces espèces descendent de la première forme de vie apparue sur Terre il y a plusieurs milliards d’années. Sur la base des pressions de sélection causées par l’environnement, les descendants de ces premiers êtres vivants ont évolué dans de nombreuses directions différentes.

    Étudier l’évolution de la vie et de l’intelligence est intéressant. Mais il est extrêmement difficile de le reproduire. Un système d’IA qui voudrait recréer la vie intelligente de la même manière que l’évolution l’a fait devrait rechercher un très grand espace de morphologies possibles, ce qui est extrêmement coûteux en calcul. Il faudrait beaucoup de cycles d’essais et d’erreurs parallèles et séquentiels.

    Les chercheurs en IA utilisent plusieurs raccourcis et fonctionnalités prédéfinies pour surmonter certains de ces défis. Par exemple, ils corrigent l’architecture ou la conception physique d’un système d’IA ou robotique et se concentrent sur l’optimisation des paramètres d’apprentissage. Un autre raccourci est l’utilisation de Lamarckien plutôt que l’évolution darwinienne, dans laquelle les agents d’IA transmettent leurs paramètres appris à leurs descendants. Une autre approche consiste à former séparément différents sous-systèmes d’IA (vision, locomotion, langage, etc.), puis à les assembler dans un système final d’IA ou de robotique. Bien que ces approches accélèrent le processus et réduisent les coûts de formation et d’évolution des agents d’IA, elles limitent également la flexibilité et la variété des résultats qui peuvent être obtenus.

    Apprentissage profond par renforcement évolutif

    Structure d'apprentissage par renforcement évolutif profond
    Crédit: Ben Dickson / TechTalks

    Dans leur nouveau travail, les chercheurs de Stanford visent à rapprocher la recherche en IA du processus évolutif réel tout en maintenant les coûts aussi bas que possible. “Notre objectif est d’élucider certains principes régissant les relations entre la complexité environnementale, la morphologie évoluée et la capacité d’apprentissage du contrôle intelligent”, écrivent-ils dans leur article.

    Leur cadre est appelé Deep Evolutionary Reinforcement Learning. Dans DERL, chaque agent utilise apprentissage par renforcement profond d’acquérir les compétences nécessaires pour maximiser ses objectifs au cours de sa vie. DERL utilise l’évolution darwinienne pour rechercher dans l’espace morphologique des solutions optimales, ce qui signifie que lorsqu’une nouvelle génération d’agents d’IA est engendrée, ils n’héritent que des traits physiques et architecturaux de leurs parents (avec de légères mutations). Aucun des paramètres appris n’est transmis d’une génération à l’autre.

    “DERL ouvre la porte à la réalisation d’expériences in silico à grande échelle pour fournir des informations scientifiques sur la façon dont l’apprentissage et l’évolution créent en coopération des relations sophistiquées entre la complexité environnementale, l’intelligence morphologique et l’apprentissage des tâches de contrôle”, écrivent les chercheurs.

    Simuler l’évolution

    Pour leur cadre, les chercheurs ont utilisé MuJoCo, un environnement virtuel qui fournit une simulation physique des corps rigides très précise. Leur espace de conception s’appelle UNIversal aniMAL (UNIMAL), dans lequel le but est de créer des morphologies qui apprennent des tâches de locomotion et de manipulation d’objets sur une variété de terrains.

    Chaque agent de l’environnement est composé d’un génotype qui définit ses membres et ses articulations. Le descendant direct de chaque agent hérite du génotype du parent et subit des mutations qui peuvent créer de nouveaux membres, supprimer des membres existants ou apporter de petites modifications à des caractéristiques telles que les degrés de liberté ou la taille des membres.

    Chaque agent est formé avec un apprentissage par renforcement pour maximiser les récompenses dans divers environnements. La tâche la plus élémentaire est la locomotion, dans laquelle l’agent est récompensé pour la distance qu’il parcourt au cours d’un épisode. Les agents dont la structure physique est mieux adaptée à la traversée du terrain apprennent plus rapidement à utiliser leurs membres pour se déplacer.

    Pour tester les résultats du système, les chercheurs ont généré des agents dans trois types de terrains : plats (FT), variables (VT) et terrains variables avec objets modifiables (MVT). Le terrain plat exerce une pression de sélection moindre sur la morphologie des agents. Les terrains variables, en revanche, obligent les agents à développer une structure physique plus polyvalente qui peut gravir des pentes et contourner les obstacles. La variante MVT présente le défi supplémentaire d’exiger des agents qu’ils manipulent des objets pour atteindre leurs objectifs.

    Les avantages du DERL

    Les avantages du DERL
    Crédit: Ben Dickson / TechTalks