Un nouveau test révèle que l’IA manque toujours de bon sens –

  • FrançaisFrançais



  • Le traitement du langage naturel (PNL) a fait de grands progrès récemment – mais dans quelle mesure l’IA comprend-elle ce qu’elle lit? Moins que ce que nous pensions, selon des chercheurs du département d’informatique de l’USC. Dans un article récent, le professeur adjoint Xiang Ren et l’étudiant au doctorat Yuchen Lin ont découvert que malgré les progrès, l’IA n’a toujours pas le bon sens nécessaire pour générer des phrases plausibles.

    «Les modèles actuels de génération de texte par machine peuvent écrire un article qui peut être convaincant pour de nombreux humains, mais ils imitent fondamentalement ce qu’ils ont vu pendant la phase de formation», a déclaré Lin. “Notre objectif dans cet article est d’étudier le problème de savoir si les modèles actuels de génération de texte à la pointe de la technologie peuvent écrire des phrases pour décrire des scénarios naturels dans notre vie quotidienne.”

    Comprendre les scénarios de la vie quotidienne

    Plus précisément, Ren et Lin ont testé la capacité des modèles à raisonner et ont montré qu’il y avait un grand écart entre les modèles de génération de texte actuels et les performances humaines. Étant donné un ensemble de noms et de verbes communs, les modèles informatiques de PNL de pointe ont été chargés de créer des phrases crédibles décrivant un scénario quotidien. Bien que les modèles généraient des phrases grammaticalement correctes, ils étaient souvent logiquement incohérents.

    Par exemple, voici un exemple de phrase généré par un modèle à la pointe de la technologie en utilisant les mots “dog, frisbee, throw, catch”:

    “Deux chiens se lancent des frisbees.”

    Le test est basé sur l’hypothèse que des idées cohérentes (dans ce cas: «une personne lance un frisbee et un chien l’attrape») ne peuvent être générées sans une conscience plus profonde des concepts de bon sens. En d’autres termes, le bon sens est plus qu’une simple compréhension correcte de la langue – cela signifie que vous n’avez pas à tout expliquer dans une conversation. Il s’agit d’un défi fondamental dans l’objectif de développer une IA généralisable – mais au-delà du milieu universitaire, il est également pertinent pour les consommateurs.

    Sans une compréhension du langage, les chatbots et les assistants vocaux basés sur ces modèles de langage naturel de pointe sont vulnérables à l’échec. C’est également crucial si les robots doivent devenir plus présents dans les environnements humains. Après tout, si vous demandez du lait chaud à un robot, vous vous attendez à ce qu’il sache que vous voulez une tasse de mille, pas tout le carton.

    «Nous montrons également que si un modèle de génération fonctionne mieux sur notre test, il peut également bénéficier à d’autres applications qui nécessitent un raisonnement de bon sens, comme l’apprentissage robotique», a déclaré Lin. “Les robots doivent comprendre les scénarios naturels de notre vie quotidienne avant de prendre des mesures raisonnables pour interagir avec les gens.”

    Rejoindre Lin et Ren sur le papier sont Wangchunshu Zhou, Ming Shen, Pei Zhou de l’USC; Chandra Bhagavatula de l’Institut Allen d’Intelligence Artificielle; et Yejin Choi de l’Institut Allen d’Intelligence Artificielle et de l’École Paul G. Allen d’Informatique et d’Ingénierie, Université de Washington.

    Le test du bon sens

    Le raisonnement de bon sens, ou la capacité de faire des inférences en utilisant des connaissances de base sur le monde – comme le fait que les chiens ne peuvent pas se lancer de frisbees – a résisté aux efforts des chercheurs en IA pendant des décennies. Les modèles d’apprentissage en profondeur de pointe peuvent désormais atteindre une précision d’environ 90%, il semblerait donc que la PNL se soit rapprochée de son objectif.

    Mais Ren, un expert en traitement du langage naturel et Lin, son élève, avaient besoin de plus de conviction quant à l’exactitude de cette statistique. Dans leur article, publié dans le cadre de la conférence Findings of Empirical Methods in Natural Language Processing (EMNLP) du 16 novembre, ils contestent l’efficacité du benchmark et, par conséquent, le niveau de progrès réellement réalisé dans le domaine.

    «Les humains acquièrent la capacité de composer des phrases en apprenant à comprendre et à utiliser des concepts communs qu’ils reconnaissent dans leur environnement», a déclaré Lin.

    “L’acquisition de cette capacité est considérée comme une étape majeure dans le développement humain. Mais nous voulions tester si les machines peuvent vraiment acquérir une telle capacité de raisonnement génératif de bon sens.”

    Pour évaluer différents modèles de machines, la paire a développé une tâche de génération de texte contraint appelée CommonGen, qui peut être utilisée comme référence pour tester le bon sens génératif des machines. Les chercheurs ont présenté un ensemble de données composé de 35 141 concepts associés à 77 449 phrases. Ils ont constaté que le modèle, même le plus performant, n’atteignait qu’un taux de précision de 31,6% contre 63,5% pour les humains.

    “Nous avons été surpris que les modèles ne puissent pas se souvenir de la simple connaissance de bon sens selon laquelle” un humain lançant un frisbee “devrait être beaucoup plus raisonnable qu’un chien le faisant”, a déclaré Lin. “Nous constatons que même le modèle le plus puissant, appelé T5, après un entraînement avec un grand ensemble de données, peut encore faire des erreurs stupides.”

    Il semble, ont déclaré les chercheurs, que les tests précédents n’ont pas suffisamment remis en question les modèles sur leurs capacités de bon sens, imitant plutôt ce qu’ils ont vu dans la phase de formation.

    “Les études précédentes se sont principalement concentrées sur le bon sens discriminatoire”, a déclaré Ren. “Ils testent des machines avec des questions à choix multiples, où l’espace de recherche pour la machine est petit – généralement quatre ou cinq candidats.”

    Par exemple, un paramètre typique pour les tests de bon sens discriminants est une question à choix multiple répondant à une tâche, par exemple: “Où les adultes utilisent-ils des bâtons de colle?” A: classe B: bureau C: tiroir de bureau.

    La réponse ici, bien sûr, est «B: bureau». Même les ordinateurs peuvent comprendre cela sans trop de problèmes. En revanche, un paramètre génératif est plus ouvert, comme la tâche CommonGen, où un modèle est invité à générer une phrase naturelle à partir de concepts donnés.

    Ren explique: “Avec une formation approfondie sur les modèles, il est très facile d’avoir une bonne performance sur ces tâches. Contrairement à ces tâches de raisonnement discriminatoires de bon sens, notre test proposé se concentre sur l’aspect génératif du bon sens de la machine.”

    Ren et Lin espèrent que l’ensemble de données servira de nouvelle référence au profit des recherches futures sur l’introduction du bon sens dans la génération du langage naturel. En fait, ils ont même un classement décrivant les scores obtenus par les différents modèles populaires pour aider d’autres chercheurs à déterminer leur viabilité pour de futurs projets.

    «Les robots doivent comprendre les scénarios naturels de notre vie quotidienne avant de prendre des mesures raisonnables pour interagir avec les gens», a déclaré Lin.

    “En introduisant le bon sens et d’autres connaissances spécifiques à un domaine aux machines, je pense qu’un jour nous pourrons voir des agents d’IA tels que Samantha dans le film Her qui génèrent des réponses naturelles et interagissent avec nos vies.”

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.