Microsoft et Nvidia ont créé le modèle de langage le plus grand et le plus puissant au monde à ce jour, mais il est toujours biaisé

Dans le contexte: Les coûts associés à la formation des modèles d’IA ont diminué plus de 100 fois entre 2017 et 2019, mais ils restent à ce jour prohibitifs pour la plupart des startups. Cela favorise naturellement les grandes entreprises comme Nvidia et Microsoft, qui utilisent des quantités incroyables de talents et d’argent en ingénierie pour créer des modèles d’IA toujours plus grands et plus performants à utiliser dans le traitement du langage naturel, en améliorant les résultats des moteurs de recherche, en améliorant la technologie de conduite autonome, et plus encore. . Les augmenter est la partie la plus facile – quantifier et éliminer les biais est un problème qui n’a pas encore été résolu.
Nvidia et Microsoft ont révélé lundi qu’ils travaillaient ensemble sur quelque chose appelé le “modèle de génération de langage naturel Megatron-Turing”. Les deux sociétés affirment avoir créé le « modèle de langage de transformateur monolithique formé à ce jour » le plus grand et le plus performant au monde.
Pour avoir une idée de son ampleur, le célèbre GPT-3 qui fait l’actualité depuis quelques années compte actuellement 175 milliards de paramètres. À titre de comparaison, le nouveau modèle MT-NLG s’étend sur 105 couches et compte pas moins de 530 milliards de paramètres.
MT-NLG est le successeur des modèles Turing NLG 17B et Megatron-LM et a pu démontrer une “précision inégalée” dans une variété de tâches en langage naturel telles que la compréhension de la lecture, le raisonnement de bon sens, la prédiction de l’achèvement, la désambiguïsation du sens des mots et le naturel inférences linguistiques.
Nvidia et Microsoft ont été entraînement ce modèle d’IA gargantuesque sur un superordinateur appelé Selene. Il s’agit d’un système composé de 560 serveurs Nvidia DGX A100, chacun contenant huit GPU A100 équipés de 80 gigaoctets de VRAM connectés via les interfaces NVLink et NVSwitch. Microsoft note que cette configuration est similaire à l’architecture de référence utilisée dans ses supercalculateurs cloud Azure NDv4.
Fait intéressant, Selene est également alimenté par des processeurs AMD EPYC 7742. Selon les gens de The Next Platform, Selene a coûté environ 85 millions de dollars à construire – 75 millions de dollars si nous supposons des remises sur volume typiques pour l’équipement de centre de données.
Microsoft affirme que MT-NLG a été formé sur 15 ensembles de données contenant plus de 339 milliards de jetons. Les ensembles de données ont été extraits de sources Web en anglais, telles que des revues universitaires, des communautés en ligne telles que Wikipedia et Stack Exchange, des référentiels de code tels que GitHub, des sites Web d’actualités, etc. Le plus grand ensemble de données s’appelle The Pile et pèse 835 gigaoctets.
Base de données | Source du jeu de données | Jetons (milliards) | Poids (pourcentage) | Époques |
---|---|---|---|---|
Livres3 | Ensemble de données de pieux | 25.7 | 14.3 | 1.5 |
OpenWebText2 | Ensemble de données de pieux | 14,8 | 19.3 | 3.6 |
Échange de pile | Ensemble de données de pieux | 11.6 | 5.7 | 1.4 |
Résumés PubMed | Ensemble de données de pieux | 4.4 | 2.9 | 1,8 |
Wikipédia | Ensemble de données de pieux | 4.2 | 4.8 | 3.2 |
Gutenberg (PG-19) | Ensemble de données de pieux | 2.7 | 0,9 | 0,9 |
LivreCorpus2 | Ensemble de données de pieux | 1.5 | 1,0 | 1,8 |
Exportateur du NIH | Ensemble de données de pieux | 0,3 | 0,2 | 1,8 |
Pile-CC | Ensemble de données de pieux | 49,8 | 9.4 | 0,5 |
ArXiv | Ensemble de données de pieux | 20,8 | 1.4 | 0,2 |
GitHub | Ensemble de données de pieux | 24,3 | 1.6 | 0,2 |
CC-2020-50 | Instantané Common Crawl (CC) | 68,7 | 13.0 | 0,5 |
CC-2021-04 | Instantané Common Crawl (CC) | 82,6 | 15.7 | 0,5 |
RéelActualités | RéelActualités | 21,9 | 9.0 | 1.1 |
CC-Histoires | Histoires de Common Crawl (CC) | 5.3 | 0,9 | 0,5 |
Dans l’ensemble, le projet a révélé que les modèles d’IA plus grands nécessitent moins de formation pour fonctionner suffisamment bien. Cependant, le problème récurrent et non résolu est celui du biais. Il s’avère que même en utilisant autant de données du monde réel que possible, les modèles de langage géants détectent les biais, les stéréotypes et toutes sortes de toxicité pendant le processus de formation.
La curation peut aider dans une certaine mesure, mais on sait depuis des années que les modèles d’IA ont tendance à amplifier les biais dans les données qui les alimentent. C’est parce que les ensembles de données ont été collectés à partir d’une variété de sources en ligne où les préjugés physiques, de genre, de race et de religion deviennent rapidement monnaie courante. Le plus grand défi pour résoudre ce problème est de quantifier le biais, ce qui n’est pas une mince tâche et reste un travail en cours, peu importe le nombre de ressources qui lui sont consacrées.
Certains d’entre vous se souviendront peut-être d’une expérience précédente de Microsoft où il a déclenché un chatbot Twitter surnommé Tay. Il n’a fallu que quelques heures à Tay pour saisir tous les pires traits que les humains pouvaient éventuellement lui enseigner, et la société Redmond a dû le supprimer moins de 24 heures après le lancement.
Nvidia et Microsoft ont tous deux déclaré qu’ils étaient déterminés à résoudre ce problème et feraient de leur mieux pour soutenir la recherche dans cette direction. Dans le même temps, ils avertissent que les organisations qui souhaitent utiliser MT-NLG en production doivent s’assurer que les mesures appropriées sont mises en place pour atténuer et minimiser les dommages potentiels aux utilisateurs. Microsoft a noté que toute utilisation de l’IA doit suivre les principes de fiabilité, de sécurité, de confidentialité, de transparence et de responsabilité décrits dans son “IA responsable” guider.