De nouvelles techniques extraient des données plus précises à partir d’images dégradées par des facteurs environnementaux —

  • FrançaisFrançais



  • La technologie de vision par ordinateur est de plus en plus utilisée dans des domaines tels que les systèmes de surveillance automatique, les voitures autonomes, la reconnaissance faciale, les soins de santé et les outils de distanciation sociale. Les utilisateurs ont besoin d’informations visuelles précises et fiables pour exploiter pleinement les avantages des applications d’analyse vidéo, mais la qualité des données vidéo est souvent affectée par des facteurs environnementaux tels que la pluie, les conditions nocturnes ou la foule (où plusieurs images de personnes se chevauchent autre dans une scène). À l’aide de la vision par ordinateur et de l’apprentissage en profondeur, une équipe de chercheurs dirigée par le professeur agrégé de sciences (informatique) du Yale-NUS College, Robby Tan, également de la faculté d’ingénierie de l’Université nationale de Singapour (NUS), a développé de nouvelles approches qui résolvent le problème de la vision de faible niveau dans les vidéos causée par la pluie et les conditions nocturnes, ainsi que l’amélioration de la précision de l’estimation de la pose humaine 3D dans les vidéos.

    La recherche a été présentée à la Conférence 2021 sur la vision par ordinateur et la reconnaissance de formes (CVPR).

    Lutte contre les problèmes de visibilité en cas de pluie et de nuit

    Les images de nuit sont affectées par la faible luminosité et les effets lumineux d’origine humaine tels que l’éblouissement, la lueur et les projecteurs, tandis que les images de pluie sont affectées par des traînées de pluie ou une accumulation de pluie (ou effet de voile de pluie).

    « De nombreux systèmes de vision par ordinateur, tels que la surveillance automatique et les voitures autonomes, reposent sur une visibilité claire des vidéos d’entrée pour bien fonctionner. Par exemple, les voitures autonomes ne peuvent pas fonctionner de manière robuste sous de fortes pluies et les systèmes de surveillance automatique CCTV échouent souvent la nuit, en particulier si les scènes sont sombres ou s’il y a un éblouissement important ou des projecteurs », a expliqué le professeur Assoc Tan.

    Dans deux études distinctes, Assoc Prof Tan et son équipe ont introduit des algorithmes d’apprentissage en profondeur pour améliorer la qualité des vidéos de nuit et des vidéos de pluie, respectivement. Dans la première étude, ils ont augmenté la luminosité tout en supprimant simultanément les effets de bruit et de lumière (éblouissement, lueur et projecteurs) pour produire des images nocturnes claires. Cette technique est nouvelle et relève le défi de la clarté des images et des vidéos nocturnes lorsque la présence d’éblouissements ne peut être ignorée. En comparaison, les méthodes de pointe existantes ne parviennent pas à gérer l’éblouissement.

    Dans les pays tropicaux comme Singapour où les fortes pluies sont fréquentes, l’effet de voile de pluie peut dégrader considérablement la visibilité des vidéos. Dans la deuxième étude, les chercheurs ont introduit une méthode qui utilise un alignement de trames, ce qui leur permet d’obtenir de meilleures informations visuelles sans être affectés par les traînées de pluie qui apparaissent de manière aléatoire dans différentes trames et affectent la qualité des images. Par la suite, ils ont utilisé une caméra mobile pour utiliser l’estimation de la profondeur afin d’éliminer l’effet de voile de pluie causé par les gouttelettes de pluie accumulées. Contrairement aux méthodes existantes, qui se concentrent sur la suppression des traînées de pluie, les nouvelles méthodes peuvent supprimer à la fois les traînées de pluie et l’effet de voile de pluie.

    Estimation de la pose humaine en 3D : lutte contre l’inexactitude causée par le chevauchement de plusieurs humains dans les vidéos

    Lors de la conférence CVPR, le professeur Assoc Tan a également présenté les recherches de son équipe sur l’estimation de la pose humaine en 3D, qui peut être utilisée dans des domaines tels que la vidéosurveillance, les jeux vidéo et la diffusion sportive.

    Ces dernières années, l’estimation de pose multi-personnes 3D à partir d’une vidéo monoculaire (vidéo prise à partir d’une seule caméra) est de plus en plus un domaine d’intérêt pour les chercheurs et les développeurs. Au lieu d’utiliser plusieurs caméras pour prendre des vidéos à partir de différents endroits, les vidéos monoculaires offrent plus de flexibilité car elles peuvent être prises à l’aide d’une seule caméra ordinaire, même celle d’un téléphone portable.

    Cependant, la précision de la détection humaine est affectée par une activité élevée, c’est-à-dire plusieurs individus dans la même scène, en particulier lorsque les individus interagissent étroitement ou lorsqu’ils semblent se chevaucher dans la vidéo monoculaire.

    Dans cette troisième étude, les chercheurs estiment des poses humaines en 3D à partir d’une vidéo en combinant deux méthodes existantes, à savoir une approche descendante ou une approche ascendante. En combinant les deux approches, la nouvelle méthode peut produire une estimation de pose plus fiable dans des environnements multi-personnes et gérer la distance entre les individus (ou les variations d’échelle) de manière plus robuste.

    Les chercheurs impliqués dans les trois études comprennent des membres de l’équipe du professeur Assoc Tan au département de génie électrique et informatique du NUS où il occupe un poste conjoint, et ses collaborateurs de la City University of Hong Kong, de l’ETH Zurich et du Tencent Game AI Research Center. Son laboratoire se concentre sur la recherche en vision par ordinateur et en apprentissage en profondeur, en particulier dans les domaines de la vision de bas niveau, de l’analyse de la pose et du mouvement humain et des applications de l’apprentissage en profondeur dans les soins de santé.

    “Dans la prochaine étape de notre recherche sur l’estimation de la pose humaine en 3D, qui est soutenue par la National Research Foundation, nous examinerons comment protéger les informations de confidentialité des vidéos. Pour les méthodes d’amélioration de la visibilité, nous nous efforçons de contribuer aux progrès de le domaine de la vision par ordinateur, car ils sont essentiels à de nombreuses applications qui peuvent affecter notre vie quotidienne, telles que permettre aux voitures autonomes de mieux fonctionner dans des conditions météorologiques défavorables », a déclaré Assoc Prof Tan.

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.