L’outil transforme les photos historiques du monde en expériences 4D –

  • FrançaisFrançais



  • En utilisant des photos touristiques accessibles au public de monuments mondiaux tels que la fontaine de Trevi à Rome ou le sommet du rocher à New York, les chercheurs de l’Université Cornell ont développé une méthode pour créer des images 3D maniables qui montrent des changements d’apparence au fil du temps.

    La méthode, qui utilise l’apprentissage en profondeur pour ingérer et synthétiser des dizaines de milliers de photos pour la plupart non balisées et non datées, résout un problème qui échappe aux experts en vision par ordinateur depuis six décennies.

    «C’est une nouvelle façon de modéliser des scènes qui vous permet non seulement de bouger la tête et de voir, par exemple, la fontaine de différents points de vue, mais vous donne également des commandes pour changer l’heure», a déclaré Noah Snavely, professeur agrégé d’informatique à Cornell Tech et auteur principal de «Crowdsampling the Plenoptic Function», présenté à la Conférence européenne sur la vision par ordinateur, qui s’est tenue pratiquement du 23 au 28 août.

    «Si vous alliez vraiment à la fontaine de Trevi pendant vos vacances, son apparence dépendrait de l’heure à laquelle vous y alliez – la nuit, elle serait éclairée par des projecteurs du bas. L’après-midi, elle serait ensoleillée, à moins que vous n’y alliez un jour nuageux », a déclaré Snavely. “Nous avons appris toute la gamme des apparences, en fonction de l’heure et de la météo, à partir de ces collections de photos non organisées, de sorte que vous pouvez explorer toute la gamme et vous déplacer simultanément dans la scène.”

    Représenter un lieu de manière photoréaliste est un défi pour la vision par ordinateur traditionnelle, en partie à cause du grand nombre de textures à reproduire. «Le monde réel est si diversifié dans son apparence et comporte différents types de matériaux – des objets brillants, de l’eau, des structures minces», a déclaré Snavely.

    Un autre problème est l’incohérence des données disponibles. Décrire à quoi ressemble quelque chose de tous les points de vue possibles dans l’espace et dans le temps – connue sous le nom de fonction plénoptique – serait une tâche gérable avec des centaines de webcams fixées autour d’une scène, enregistrant des données jour et nuit. Mais comme ce n’est pas pratique, les chercheurs ont dû développer un moyen de compenser.

    “Il se peut qu’il n’y ait pas de photo prise à 16 heures de ce point de vue exact dans l’ensemble de données. Nous devons donc tirer les leçons d’une photo prise à 21 heures à un endroit et d’une photo prise à 16 h 03 depuis un autre endroit”, dit Snavely m’a dit. “Et nous ne connaissons pas la granularité du moment où ces photos ont été prises. Mais l’utilisation de l’apprentissage en profondeur nous permet de déduire à quoi aurait ressemblé la scène à un moment et à un endroit donnés.”

    Les chercheurs ont introduit une nouvelle représentation de scène appelée Deep Multiplane Images pour interpoler l’apparence en quatre dimensions – 3D, plus les changements au fil du temps. Leur méthode s’inspire en partie d’une technique d’animation classique développée par la Walt Disney Company dans les années 1930, qui utilise des couches de transparents pour créer un effet 3D sans redessiner tous les aspects d’une scène.

    “Nous utilisons la même idée inventée pour créer des effets 3D dans l’animation 2D pour créer des effets 3D dans des scènes du monde réel, pour créer cette image multicouche profonde en l’adaptant à toutes ces mesures disparates des photos des touristes”, a déclaré Snavely. “Il est intéressant que cela découle de cette technique très ancienne et classique utilisée en animation.”

    Dans l’étude, ils ont montré que ce modèle pouvait être formé pour créer une scène en utilisant environ 50000 images accessibles au public trouvées sur des sites comme Flickr et Instagram. La méthode a des implications pour la recherche sur la vision par ordinateur, ainsi que pour le tourisme virtuel – particulièrement utile à une époque où peu de gens peuvent voyager en personne.

    “Vous pouvez avoir le sentiment d’être vraiment là,” dit Snavely. “Cela fonctionne étonnamment bien pour une gamme de scènes.”

    Le premier auteur de l’article est Zhengqi Li, étudiant au doctorat de Cornell Tech. Abe Davis, professeur adjoint d’informatique à la Faculté d’informatique et des sciences de l’information, et Wenqi Xian, doctorant de Cornell Tech, ont également contribué.

    La recherche a été en partie soutenue par le philanthrope Eric Schmidt, ancien PDG de Google, et Wendy Schmidt, sur recommandation du Schmidt Futures Program.

    Source de l’histoire:

    Matériaux fourni par L’Université de Cornell. Original écrit par Melanie Lefkowitz. Remarque: le contenu peut être modifié pour le style et la longueur.

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.