Des caméras qui peuvent apprendre ce qu’elles regardent –

Les caméras intelligentes pourraient faire un pas de plus grâce à une collaboration de recherche entre les universités de Bristol et de Manchester, qui ont développé des caméras capables d’apprendre et de comprendre ce qu’elles voient.
Les roboticiens et les chercheurs en intelligence artificielle (IA) savent qu’il y a un problème dans la façon dont les systèmes actuels perçoivent et traitent le monde. Actuellement, ils combinent encore des capteurs, tels que des appareils photo numériques conçus pour enregistrer des images, avec des dispositifs informatiques tels que des unités de traitement graphique (GPU) conçus pour accélérer les graphiques pour les jeux vidéo.
Cela signifie que les systèmes d’IA ne perçoivent le monde qu’après avoir enregistré et transmis des informations visuelles entre les capteurs et les processeurs. Mais beaucoup de choses que l’on peut voir ne sont souvent pas pertinentes pour la tâche à accomplir, comme le détail des feuilles sur les arbres au bord de la route au passage d’une voiture autonome. Cependant, pour le moment, toutes ces informations sont capturées par des capteurs avec un détail méticuleux et envoyées en colmatant le système avec des données non pertinentes, consommant de l’énergie et prenant du temps de traitement. Une approche différente est nécessaire pour permettre une vision efficace des machines intelligentes.
Deux articles de la collaboration Bristol et Manchester ont montré comment la détection et l’apprentissage peuvent être combinés pour créer de nouvelles caméras pour les systèmes d’IA.
Walterio Mayol-Cuevas, professeur en robotique, vision par ordinateur et systèmes mobiles à l’Université de Bristol et chercheur principal (PI), a commenté: «Pour créer des systèmes perceptifs efficaces, nous devons repousser les limites au-delà des voies que nous avons suivies jusqu’à présent.
«Nous pouvons nous inspirer de la manière dont les systèmes naturels traitent le monde visuel – nous ne percevons pas tout – nos yeux et notre cerveau travaillent ensemble pour donner un sens au monde et, dans certains cas, les yeux eux-mêmes effectuent un traitement pour aider le cerveau réduire ce qui n’est pas pertinent. »
Ceci est démontré par la façon dont l’œil de la grenouille a des détecteurs qui repèrent les objets ressemblant à des mouches, directement au point où les images sont captées.
Les articles, l’un dirigé par le Dr Laurie Bose et l’autre par Yanan Liu à Bristol, ont révélé deux améliorations vers cet objectif. En mettant en œuvre des réseaux de neurones à convolution (CNN), une forme d’algorithme d’IA permettant la compréhension visuelle, directement sur le plan de l’image. Les CNN que l’équipe a développés peuvent classer les images des milliers de fois par seconde, sans jamais avoir à enregistrer ces images ou à les envoyer dans le pipeline de traitement. Les chercheurs ont envisagé des démonstrations de classification des nombres manuscrits, des gestes de la main et même de la classification du plancton.
La recherche suggère un avenir avec des caméras IA intelligentes dédiées – des systèmes visuels qui peuvent simplement envoyer des informations de haut niveau au reste du système, telles que le type d’objet ou d’événement se déroulant devant la caméra. Cette approche rendrait les systèmes beaucoup plus efficaces et sécurisés car aucune image ne doit être enregistrée.
Le travail a été rendu possible grâce à l’architecture SCAMP développée par Piotr Dudek, professeur de circuits et systèmes et PI de l’Université de Manchester, et son équipe. Le SCAMP est une puce de processeur de caméra que l’équipe décrit comme un Pixel Processor Array (PPA). Un PPA a un processeur intégré dans chaque pixel qui peut communiquer entre eux pour traiter sous une forme vraiment parallèle. Ceci est idéal pour les CNN et les algorithmes de vision.
Le professeur Dudek a déclaré: «L’intégration de la détection, du traitement et de la mémoire au niveau des pixels permet non seulement des systèmes hautes performances et à faible latence, mais promet également un matériel à faible consommation et très efficace.
“Les dispositifs SCAMP peuvent être implémentés avec des empreintes similaires aux capteurs de caméra actuels, mais avec la possibilité d’avoir un processeur massivement parallèle à usage général juste au point de capture d’image.”
Le Dr Tom Richardson, maître de conférences en mécanique de vol, à l’Université de Bristol et membre du projet a intégré l’architecture SCAMP avec des drones légers.
Il a expliqué: “ Ce qui est si excitant à propos de ces caméras, ce n’est pas seulement la nouvelle capacité d’apprentissage automatique, mais la vitesse à laquelle elles fonctionnent et la configuration légère.
“Ils sont absolument parfaits pour les plates-formes aériennes à grande vitesse et très agiles qui peuvent littéralement apprendre à la volée!”
La recherche, financée par le Conseil de recherche en ingénierie et sciences physiques (EPSRC), a montré qu’il est important de remettre en question les hypothèses qui existent lors de la conception des systèmes d’IA. Et des choses qui sont souvent tenues pour acquises, telles que les caméras, peuvent et doivent être améliorées pour atteindre l’objectif de machines intelligentes plus efficaces.
Papiers
“ Intégration complète de réseaux convolutifs rapides sur des matrices de processeurs de pixels ” par Laurie Bose, Jianing Chen, Stephen J. Carey, Piotr Dudek et Walterio Mayol-Cuevas présenté à la Conférence européenne sur la vision par ordinateur (ECCV) 2020
“ Inférence CNN haute vitesse légère via des convolutions strided sur un réseau de processeurs de pixels ” par Yanan Liu, Laurie Bose, Jianing Chen, Stephen J.Carey, Piotr Dudek, Walterio Mayol-Cuevas présenté à la British Machine Vision Conference (BMVC) 2020