Le nouveau système matériel et logiciel des chercheurs rationalise l’analyse de phrases de pointe –


  • FrançaisFrançais


  • Le langage humain peut être inefficace. Certains mots sont essentiels. D’autres, consommables.

    Relisez la première phrase de cette histoire. Seuls deux mots, «langage» et «inefficace», transmettent presque tout le sens de la phrase. L’importance des mots clés sous-tend un nouvel outil populaire pour le traitement du langage naturel (PNL) par les ordinateurs: le mécanisme d’attention. Lorsqu’il est codé dans un algorithme PNL plus large, le mécanisme d’attention se concentre sur les mots clés plutôt que de traiter chaque mot avec la même importance. Cela donne de meilleurs résultats dans les tâches de PNL telles que la détection d’un sentiment positif ou négatif ou la prédiction des mots qui devraient suivre dans une phrase.

    Cependant, la précision du mécanisme d’attention se fait souvent aux dépens de la vitesse et de la puissance de calcul. Il fonctionne lentement sur des processeurs à usage général comme vous pourriez trouver dans les ordinateurs grand public. Ainsi, les chercheurs du MIT ont conçu un système logiciel-matériel combiné, baptisé SpAtten, spécialisé pour exécuter le mécanisme d’attention. SpAtten permet une PNL plus rationalisée avec moins de puissance de calcul.

    «Notre système est similaire à la façon dont le cerveau humain traite le langage», explique Hanrui Wang. “Nous lisons très vite et nous nous concentrons uniquement sur les mots clés. C’est l’idée avec SpAtten.”

    La recherche sera présentée ce mois-ci lors du Symposium international de l’IEEE sur l’architecture informatique haute performance. Wang est l’auteur principal de l’article et étudiant au doctorat au Département de génie électrique et d’informatique. Les co-auteurs incluent Zhekai Zhang et leur conseiller, le professeur adjoint Song Han.

    Depuis son introduction en 2015, le mécanisme d’attention a été une aubaine pour la PNL. Il est intégré à des modèles de PNL de pointe comme le BERT de Google et le GPT-3 d’OpenAI. La principale innovation du mécanisme d’attention est la sélectivité – elle peut déduire quels mots ou expressions d’une phrase sont les plus importants, en se basant sur des comparaisons avec des modèles de mots que l’algorithme a déjà rencontrés dans une phase d’apprentissage. Malgré l’adoption rapide du mécanisme d’attention dans les modèles PNL, ce n’est pas sans coût.

    Les modèles PNL nécessitent une charge importante de puissance informatique, en partie grâce aux demandes élevées de mémoire du mécanisme d’attention. «Cette partie est en fait le goulot d’étranglement des modèles PNL», déclare Wang. Un défi qu’il souligne est le manque de matériel spécialisé pour exécuter des modèles PNL avec le mécanisme d’attention. Les processeurs à usage général, comme les processeurs et les GPU, ont des problèmes avec la séquence compliquée du mécanisme d’attention de mouvement de données et d’arithmétique. Et le problème s’aggravera à mesure que les modèles de PNL deviendront plus complexes, en particulier pour les longues phrases. «Nous avons besoin d’optimisations algorithmiques et de matériel dédié pour traiter la demande de calcul toujours croissante», déclare Wang.

    Les chercheurs ont développé un système appelé SpAtten pour exécuter le mécanisme d’attention plus efficacement. Leur conception englobe à la fois des logiciels et du matériel spécialisés. Une avancée logicielle clé est l’utilisation par SpAtten de «l’élagage en cascade», ou l’élimination des données inutiles des calculs. Une fois que le mécanisme d’attention aide à choisir les mots clés d’une phrase (appelés jetons), SpAtten élague les jetons sans importance et élimine les calculs et les mouvements de données correspondants. Le mécanisme d’attention comprend également plusieurs branches de calcul (appelées têtes). Semblables aux jetons, les têtes sans importance sont identifiées et élaguées. Une fois envoyés, les jetons et les têtes superflus ne sont pas pris en compte dans les calculs en aval de l’algorithme, réduisant à la fois la charge de calcul et l’accès à la mémoire.

    Pour réduire davantage l’utilisation de la mémoire, les chercheurs ont également développé une technique appelée «quantification progressive». La méthode permet à l’algorithme d’utiliser des données dans des blocs de bits passants plus petits et d’en extraire le moins possible de la mémoire. Une précision de données inférieure, correspondant à une plus petite largeur de bits, est utilisée pour les phrases simples, et une précision plus élevée est utilisée pour les phrases compliquées. Intuitivement, c’est comme chercher l’expression «cmptr progm» comme version basse précision de «programme informatique».

    Parallèlement à ces avancées logicielles, les chercheurs ont également développé une architecture matérielle spécialisée pour exécuter SpAtten et le mécanisme d’attention tout en minimisant l’accès à la mémoire. Leur conception architecturale utilise un degré élevé de «parallélisme», ce qui signifie que plusieurs opérations sont traitées simultanément sur plusieurs éléments de traitement, ce qui est utile car le mécanisme d’attention analyse chaque mot d’une phrase à la fois. La conception permet à SpAtten de classer l’importance des jetons et des têtes (pour l’élagage potentiel) dans un petit nombre de cycles d’horloge informatique. Dans l’ensemble, les composants logiciels et matériels de SpAtten se combinent pour éliminer les manipulations de données inutiles ou inefficaces, en se concentrant uniquement sur les tâches nécessaires pour atteindre l’objectif de l’utilisateur.

    La philosophie derrière le système est capturée dans son nom. SpAtten est un portemanteau «d’attention clairsemée», et les chercheurs notent dans l’article que SpAtten est «homophonique avec« spartiate », ce qui signifie simple et frugal». Wang dit, “c’est comme notre technique ici: rendre la phrase plus concise.” Cette concision a été confirmée par les tests.

    Les chercheurs ont codé une simulation de la conception matérielle de SpAtten – ils n’ont pas encore fabriqué de puce physique – et l’ont testée contre des processeurs à usage général concurrents. SpAtten a couru plus de 100 fois plus vite que le prochain meilleur concurrent (un GPU TITAN Xp). En outre, SpAtten était plus de 1 000 fois plus économe en énergie que ses concurrents, ce qui indique que SpAtten pourrait aider à réduire les demandes d’électricité substantielles de NLP.

    Les chercheurs ont également intégré SpAtten dans leurs travaux antérieurs, pour les aider à valider leur philosophie selon laquelle le matériel et les logiciels sont mieux conçus en tandem. Ils ont construit une architecture de modèle PNL spécialisée pour SpAtten, en utilisant leur framework HAT (Hardware-Aware Transformer), et ont obtenu une accélération d’environ deux fois par rapport à un modèle plus général.

    Les chercheurs pensent que SpAtten pourrait être utile aux entreprises qui utilisent des modèles de PNL pour la majorité de leurs charges de travail d’intelligence artificielle. «Notre vision pour l’avenir est que de nouveaux algorithmes et matériels qui suppriment la redondance dans les langues réduiront les coûts et économiseront sur le budget énergétique des charges de travail PNL des centres de données», déclare Wang.

    À l’autre bout du spectre, SpAtten pourrait apporter la PNL à des appareils personnels plus petits. «Nous pouvons améliorer la durée de vie de la batterie des téléphones portables ou des appareils IoT», déclare Wang, faisant référence aux «objets» connectés à Internet – téléviseurs, haut-parleurs intelligents, etc. “C’est particulièrement important car à l’avenir, de nombreux appareils IoT interagiront avec les humains par la voix et le langage naturel, donc la PNL sera la première application que nous souhaitons utiliser.”

    Han dit que l’accent mis par SpAtten sur l’efficacité et la suppression de la redondance est la voie à suivre dans la recherche PNL. “Les cerveaux humains sont peu activés [by key words]. Les modèles de PNL qui sont faiblement activés seront prometteurs à l’avenir “, dit-il.” Tous les mots ne sont pas égaux – ne faites attention qu’aux plus importants. “

    Source

    La Rédaction

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

    Copy code