Les chercheurs affinent le contrôle de la génération d’images d’IA –

Des chercheurs de la North Carolina State University ont développé une nouvelle méthode de pointe pour contrôler la façon dont les systèmes d’intelligence artificielle (IA) créent des images. Le travail a des applications dans des domaines allant de la robotique autonome à la formation en IA.
Le problème est un type de tâche d’IA appelée génération d’images conditionnelle, dans laquelle les systèmes d’IA créent des images qui répondent à un ensemble spécifique de conditions. Par exemple, un système pourrait être entraîné à créer des images originales de chats ou de chiens, selon l’animal demandé par l’utilisateur. Des techniques plus récentes se sont appuyées sur cela pour incorporer des conditions concernant une mise en page d’image. Cela permet aux utilisateurs de spécifier les types d’objets qu’ils souhaitent voir apparaître à des endroits particuliers de l’écran. Par exemple, le ciel peut aller dans une boîte, un arbre peut être dans une autre boîte, un ruisseau peut être dans une boîte séparée, et ainsi de suite.
Le nouveau travail s’appuie sur ces techniques pour donner aux utilisateurs plus de contrôle sur les images résultantes et pour conserver certaines caractéristiques sur une série d’images.
“Notre approche est hautement reconfigurable”, déclare Tianfu Wu, co-auteur d’un article sur le travail et professeur adjoint d’ingénierie informatique à NC State. “Comme les approches précédentes, la nôtre permet aux utilisateurs de faire en sorte que le système génère une image en fonction d’un ensemble spécifique de conditions. Mais la nôtre vous permet également de conserver cette image et de la compléter. Par exemple, les utilisateurs pourraient demander à l’IA de créer une scène de montagne. Les utilisateurs pourraient alors demander au système d’ajouter des skieurs à cette scène.”
De plus, la nouvelle approche permet aux utilisateurs de faire en sorte que l’IA manipule des éléments spécifiques afin qu’ils soient identiques de manière identifiable, mais qu’ils aient bougé ou changé d’une manière ou d’une autre. Par exemple, l’IA peut créer une série d’images montrant des skieurs se tournant vers le spectateur lorsqu’ils se déplacent à travers le paysage.
“Une application pour cela serait d’aider les robots autonomes à” imaginer “à quoi pourrait ressembler le résultat final avant de commencer une tâche donnée”, explique Wu. “Vous pouvez également utiliser le système pour générer des images pour la formation à l’IA. Ainsi, au lieu de compiler des images à partir de sources externes, vous pouvez utiliser ce système pour créer des images pour la formation d’autres systèmes d’IA.”
Les chercheurs ont testé leur nouvelle approche en utilisant l’ensemble de données COCO-Stuff et l’ensemble de données Visual Genome. Basée sur des mesures standard de qualité d’image, la nouvelle approche a surpassé les précédentes techniques de création d’images de pointe.
“Notre prochaine étape consiste à voir si nous pouvons étendre ce travail à la vidéo et aux images en trois dimensions”, a déclaré Wu.
La formation à la nouvelle approche nécessite une bonne quantité de puissance de calcul ; les chercheurs ont utilisé une station de travail 4-GPU. Cependant, le déploiement du système est moins coûteux en calcul.
“Nous avons constaté qu’un GPU vous offre une vitesse presque en temps réel”, explique Wu.
“En plus de notre article, nous avons rendu notre code source pour cette approche disponible sur GitHub. Cela dit, nous sommes toujours ouverts à la collaboration avec des partenaires de l’industrie.”
Le travail a été soutenu par la National Science Foundation, sous les subventions 1909644, 1822477, 2024688 et 2013451; par le US Army Research Office, sous la subvention W911NF1810295; et par l’Administration pour l’intégration communautaire, dans le cadre de la subvention 90IFDV0017-01-00.
Source de l’histoire :
Matériaux fourni par Université d’État de Caroline du Nord. Remarque : Le contenu peut être modifié pour le style et la longueur.