Réduire les réseaux de neurones massifs utilisés pour modéliser le langage –

  • FrançaisFrançais



  • Vous n’avez pas besoin d’un marteau pour casser une noix.

    Jonathan Frankle fait des recherches sur l’intelligence artificielle – pas sur les pistaches grignotantes – mais la même philosophie s’applique à son «hypothèse de billet de loterie». Il postule que, cachés dans des réseaux de neurones massifs, des sous-réseaux plus légers peuvent accomplir la même tâche plus efficacement. L’astuce consiste à trouver ces sous-réseaux “chanceux”, surnommés les billets de loterie gagnants.

    Dans un nouvel article, Frankle et ses collègues ont découvert de tels sous-réseaux cachés au sein du BERT, une approche de réseau neuronal de pointe pour le traitement du langage naturel (PNL). En tant que branche de l’intelligence artificielle, la PNL vise à déchiffrer et analyser le langage humain, avec des applications telles que la génération de texte prédictif ou les chatbots en ligne. En termes de calcul, BERT est encombrant, exigeant généralement une puissance de calcul intensif indisponible pour la plupart des utilisateurs. L’accès au ticket de loterie gagnant de BERT pourrait uniformiser les règles du jeu, permettant potentiellement à davantage d’utilisateurs de développer des outils de PNL efficaces sur un smartphone – aucun marteau n’est nécessaire.

    «Nous atteignons le point où nous allons devoir rendre ces modèles plus simples et plus efficaces», déclare Frankle, ajoutant que cette avancée pourrait un jour «réduire les barrières à l’entrée» pour la PNL.

    Frankle, étudiant au doctorat dans le groupe de Michael Carbin au laboratoire d’informatique et d’intelligence artificielle du MIT, a co-écrit l’étude, qui sera présentée le mois prochain lors de la conférence sur les systèmes de traitement de l’information neuronale. Tianlong Chen de l’Université du Texas à Austin est l’auteur principal de l’article, qui comprenait les collaborateurs Zhangyang Wang, également de Texas A&M, ainsi que Shiyu Chang, Sijia Liu et Yang Zhang, tous du MIT-IBM Watson AI Lab .

    Vous avez probablement interagi avec un réseau BERT aujourd’hui. C’est l’une des technologies qui sous-tendent le moteur de recherche de Google, et elle a suscité l’enthousiasme des chercheurs depuis que Google a publié BERT en 2018. BERT est une méthode de création de réseaux de neurones – des algorithmes qui utilisent des nœuds en couches, ou «neurones», pour apprendre à performer une tâche à travers la formation sur de nombreux exemples. BERT est formé en essayant à plusieurs reprises de remplir des mots laissés en dehors d’un passage d’écriture, et sa puissance réside dans la taille gargantuesque de cet ensemble de données d’entraînement initial. Les utilisateurs peuvent ensuite affiner le réseau neuronal de BERT en fonction d’une tâche particulière, comme la création d’un chatbot de service client. Mais se disputer BERT prend une tonne de puissance de traitement.

    «Un modèle BERT standard de nos jours – la variété de jardin – a 340 millions de paramètres», explique Frankle, ajoutant que le nombre peut atteindre 1 milliard. La mise au point d’un réseau aussi massif peut nécessiter un supercalculateur. “C’est juste excessivement cher. C’est bien au-delà de la capacité informatique de vous ou moi.”

    Chen est d’accord. Malgré l’explosion de popularité de BERT, ces modèles «souffrent d’une énorme taille de réseau», dit-il. Heureusement, “l’hypothèse des billets de loterie semble être une solution”.

    Pour réduire les coûts de calcul, Chen et ses collègues ont cherché à identifier un modèle plus petit dissimulé dans le BERT. Ils ont expérimenté en élaguant de manière itérative les paramètres du réseau BERT complet, puis en comparant les performances du nouveau sous-réseau à celles du modèle BERT d’origine. Ils ont effectué cette comparaison pour une gamme de tâches PNL, de la réponse aux questions au remplissage du mot vide dans une phrase.

    Les chercheurs ont trouvé des sous-réseaux réussis qui étaient de 40 à 90% plus minces que le modèle BERT initial, selon la tâche. De plus, ils ont pu identifier les billets de loterie gagnants avant d’exécuter des ajustements spécifiques à une tâche – une découverte qui pourrait réduire davantage les coûts informatiques de la PNL. Dans certains cas, un sous-réseau sélectionné pour une tâche pourrait être réutilisé pour une autre, bien que Frankle note que cette transférabilité n’était pas universelle. Pourtant, Frankle est plus que satisfait des résultats du groupe.

    «J’ai été un peu choqué que cela fonctionne même», dit-il. “Ce n’est pas quelque chose que j’ai pris pour acquis. Je m’attendais à un résultat beaucoup plus désordonné que ce que nous avons obtenu.”

    Cette découverte d’un ticket gagnant dans un modèle BERT est “convaincante”, selon Ari Morcos, un scientifique de Facebook AI Research. «Ces modèles sont de plus en plus répandus», déclare Morcos. “Il est donc important de comprendre si l’hypothèse des billets de loterie tient.” Il ajoute que cette découverte pourrait permettre aux modèles de type BERT de fonctionner en utilisant beaucoup moins de puissance de calcul, “ce qui pourrait être très impactant étant donné que ces modèles extrêmement volumineux sont actuellement très coûteux à exécuter”.

    Frankle est d’accord. Il espère que ce travail pourra rendre le BERT plus accessible, car il va à l’encontre de la tendance des modèles de PNL en constante croissance. «Je ne sais pas à quel point nous pouvons aller plus loin en utilisant ces calculs de type supercalculateur», dit-il. “Nous allons devoir réduire la barrière à l’entrée.” C’est exactement ce que fait l’identification d’un sous-réseau maigre gagnant à la loterie: permettre aux développeurs qui n’ont pas la puissance informatique de Google ou de Facebook de continuer à exécuter une PNL de pointe. «L’espoir est que cela réduira le coût, que cela le rendra plus accessible à tous … aux petits gars qui n’ont qu’un ordinateur portable», dit Frankle. “Pour moi, c’est vraiment excitant.”

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.