L’IA apprend à prédire le comportement humain à partir de vidéos –

  • FrançaisFrançais



  • Prédire ce que quelqu’un est sur le point de faire ensuite en fonction de son langage corporel est naturel pour les humains, mais pas pour les ordinateurs. Lorsque nous rencontrons une autre personne, elle peut nous saluer avec un bonjour, une poignée de main ou même un coup de poing. Nous ne savons peut-être pas quel geste sera utilisé, mais nous pouvons lire la situation et réagir de manière appropriée.

    Dans une nouvelle étude, les chercheurs de Columbia Engineering dévoilent une technique de vision par ordinateur pour donner aux machines un sens plus intuitif de ce qui se passera ensuite en tirant parti des associations de niveau supérieur entre les personnes, les animaux et les objets.

    “Notre algorithme est un pas vers des machines capables de faire de meilleures prédictions sur le comportement humain, et donc de mieux coordonner leurs actions avec les nôtres”, a déclaré Carl Vondrick, professeur adjoint d’informatique à Columbia, qui a dirigé l’étude, qui a été présentée au Conférence internationale sur la vision par ordinateur et la reconnaissance de formes le 24 juin 2021. “Nos résultats ouvrent un certain nombre de possibilités pour la collaboration homme-robot, les véhicules autonomes et les technologies d’assistance.”

    C’est la méthode la plus précise à ce jour pour prédire les événements d’action vidéo jusqu’à plusieurs minutes dans le futur, selon les chercheurs. Après avoir analysé des milliers d’heures de films, de jeux de sport et d’émissions comme “The Office”, le système apprend à prédire des centaines d’activités, de la poignée de main au coup de poing. Lorsqu’il ne peut pas prédire l’action spécifique, il trouve le concept de niveau supérieur qui les relie, dans ce cas, le mot « salutation ».

    Les tentatives passées d’apprentissage automatique prédictif, y compris celles de l’équipe, se sont concentrées sur la prédiction d’une seule action à la fois. Les algorithmes décident s’il faut classer l’action comme un câlin, un high five, une poignée de main ou même une non-action comme « ignorer ». Mais lorsque l’incertitude est élevée, la plupart des modèles d’apprentissage automatique sont incapables de trouver des points communs entre les options possibles.

    Les doctorants de Columbia Engineering, Didac Suris et Ruoshi Liu, ont décidé d’examiner le problème de prédiction à plus long terme sous un angle différent. “Tout n’est pas prévisible à l’avenir”, a déclaré Suris, co-auteur principal de l’article. “Quand une personne ne peut pas prévoir exactement ce qui va se passer, elle joue la sécurité et prédit à un niveau d’abstraction plus élevé. Notre algorithme est le premier à apprendre cette capacité à raisonner de manière abstraite sur des événements futurs.”

    Suris et Liu ont dû revisiter des questions mathématiques qui remontent aux anciens Grecs. Au lycée, les élèves apprennent les règles familières et intuitives de la géométrie – que les lignes droites vont droit, que les lignes parallèles ne se croisent jamais. La plupart des systèmes d’apprentissage automatique obéissent également à ces règles. Mais d’autres géométries, cependant, ont des propriétés bizarres et contre-intuitives ; les lignes droites se plient et les triangles se gonflent. Suris et Liu ont utilisé ces géométries inhabituelles pour créer des modèles d’IA qui organisent des concepts de haut niveau et prédisent le comportement humain à l’avenir.

    “La prédiction est la base de l’intelligence humaine”, a déclaré Aude Oliva, chercheuse principale au Massachusetts Institute of Technology et codirectrice du MIT-IBM Watson AI Lab, une experte en IA et en cognition humaine qui n’a pas participé à l’étude. . “Les machines font des erreurs que les humains ne feraient jamais parce qu’elles n’ont pas notre capacité à raisonner de manière abstraite. Ce travail est une étape cruciale pour combler ce fossé technologique.”

    Le cadre mathématique développé par les chercheurs permet aux machines d’organiser des événements en fonction de leur prévisibilité future. Par exemple, nous savons que la natation et la course à pied sont deux formes d’exercice. La nouvelle technique apprend à catégoriser ces activités par elle-même. Le système est conscient de l’incertitude, fournissant des actions plus spécifiques lorsqu’il y a une certitude et des prédictions plus génériques lorsqu’il n’y en a pas.

    La technique pourrait rapprocher les ordinateurs de la capacité d’évaluer une situation et de prendre une décision nuancée, au lieu d’une action préprogrammée, selon les chercheurs. Il s’agit d’une étape critique dans l’établissement de la confiance entre les humains et les ordinateurs, a déclaré Liu, co-auteur principal de l’article. “La confiance vient du sentiment que le robot comprend vraiment les gens”, a-t-il expliqué. « Si les machines peuvent comprendre et anticiper nos comportements, les ordinateurs pourront assister les gens de manière transparente dans leurs activités quotidiennes. »

    Alors que le nouvel algorithme fait des prédictions plus précises sur les tâches de référence que les méthodes précédentes, les prochaines étapes consistent à vérifier qu’il fonctionne en dehors du laboratoire, explique Vondrick. Si le système peut fonctionner dans divers contextes, il existe de nombreuses possibilités de déployer des machines et des robots qui pourraient améliorer notre sécurité, notre santé et notre sécurité, selon les chercheurs. Le groupe prévoit de continuer à améliorer les performances de l’algorithme avec des ensembles de données et des ordinateurs plus importants, ainsi que d’autres formes de géométrie.

    “Le comportement humain est souvent surprenant”, a commenté Vondrick. “Nos algorithmes permettent aux machines de mieux anticiper ce qu’elles vont faire ensuite.”

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.