Avec son projet Infinite Nature, Google génère des vidéos de survols de paysages à partir d'une seule photo

Nature infinie — Une intelligence artificielle sur laquelle travaille un groupe de chercheurs Google depuis plusieurs mois est capable de générer des vidéos de parcours 3D de paysages en s'appuyant sur une unique photo.
Après avoir initié des travaux sur la génération de vidéos de paysages grâce au Machine Learning, Google a partagé hier son dernier projet en date sur ce sujet : InfiniteNature-Zero.
Dans le cadre de leur précédente démarche, les ingénieurs de la firme de Mountain View expliquent avoir été confrontés à la difficulté de s'appuyer sur des vidéos comme données d'entraînement : celles-ci sont en effet difficiles à trouver en haute qualité et avec le bon type de mouvement de caméra.
De même, la qualité esthétique d’une image issue d’une vidéo n’est pas comparable à celle d’une photographie de paysage.
Les chercheurs ont repris la même méthode que dans leur première version du projet Infinite Nature, en se basant sur une stratégie de rendu-affinement-répétition. Afin de fournir un résultat en haute définition, ils utilisent désormais uniquement des photos pour entraîner leur réseau neuronal d'affinement d'images.
Pour réussir ce travail, les ingénieurs ont entrainé leur IA grâce à des trajectoires de caméras en boucle. Ainsi la première image étant identique à la dernière, ils peuvent plus aisément contrôler la qualité du rendu obtenu.
Pour générer des séquences longues et stables, les chercheurs ont inclus des trajectoires non cycliques de caméras. Ainsi un réseau discriminateur ne serait pas en mesure de différencier l'image originale de l'image finale synthétisée. Un composant permettant la génération de portions de ciel en haute qualité a également été intégré pour améliorer le réalisme du rendu final.
InfiniteNature-Zero a été entrainé avec ces méthodes sur des photos de paysage, beaucoup plus facilement trouvables en ligne. Les chercheurs indiquent avoir obtenu des améliorations importantes en terme de qualité et de diversité de contenu.
Six vidéos de démo sont exposées dans le billet d'annonce publié sur le blog Google AI, et ont également été partagées par le CEO Sundar Pichai sur les réseaux sociaux :
Comme pour son précédent projet, l'équipe a partagé ses travaux dans un repository GitHub public.
À lire aussi sur Les Joies du Code :
- 🖼 OpenAI rend son IA DALL-E accessible aux développeurs avec le lancement d'une API
- 🏔 Des chercheurs de Google créent une solution capable de générer des images de paysages sans fin (2021)
- 🚨 GitHub Copilot de nouveau dans la tourmente après avoir reproduit du code sous copyright
À propos de l'auteur
Fabien Schlegel
Lead Développeur. Fan de Border Collie. J'aime le code de qualité et les balades en forêt. Quand je suis fatigué par la vie, je fais des crêpes et ça va mieux.
À lire également

Passbolt : le gestionnaire de mots de passe open source que votre équipe mérite vraiment
Je connais l’histoire, vous la connaissez, on la connaît tous. Le stagiaire qui est resté six mois, qui a fini par avoir accès à un peu (beaucoup) plus de choses...
Articles similaires

Microsoft étend son partenariat avec OpenAI, le labo derrière ChatGPT, avec un deal à 10 milliards de dollars

Disney a créé une IA capable de changer l'âge de ses acteurs en seulement quelques secondes

Google dévoile Bard, son IA conversationnelle pour contrer ChatGPT

Les API de ChatGPT et Whisper sont désormais disponibles pour les développeurs

Microsoft étend son partenariat avec OpenAI, le labo derrière ChatGPT, avec un deal à 10 milliards de dollars

Disney a créé une IA capable de changer l'âge de ses acteurs en seulement quelques secondes

Google dévoile Bard, son IA conversationnelle pour contrer ChatGPT

Les API de ChatGPT et Whisper sont désormais disponibles pour les développeurs
Plus de contenu

Quand je vois dans les logs que le client ne s'est jamais connnecté à son appli livrée il y a 2 ans
Quand j'attends ma revue de code depuis 2 semaines

Quand j'entends la voix d'un client compliqué dans l'open space

Quand je commence ma revue de code

Quand on doit estimer le poids d'une story au planning poker

Quand je corrige le bug bloquant du binôme
Quand je cherche la lib idéale pour mon projet

Quand le chef nous surprend à glander

Quand je vois dans les logs que le client ne s'est jamais connnecté à son appli livrée il y a 2 ans
Quand j'attends ma revue de code depuis 2 semaines

Quand j'entends la voix d'un client compliqué dans l'open space

Quand je commence ma revue de code

Quand on doit estimer le poids d'une story au planning poker


