Des chercheurs de Google créent une solution capable de générer des images de paysages sans fin
Une équipe de chercheurs chez Google est parvenue à mettre au point une solution capable de générer des animations sans fin sur base d'images fixes de paysages.
Infinite Nature, c'est le nom du projet sur lequel a travaillé une équipe de six chercheurs en Machine Learning de Google Research, une entité du géant de Moutain View comptant parmi ses effectifs de nombreux docteurs spécialisés en recherche informatique.
Sur la page GitHub de leur projet, les chercheurs expliquent avoir travaillé sur la génération d'animations de longue durée par une IA, capable de suivre une trajectoire arbitraire sur base d'une seule et unique photo en entrée.
Les chercheurs expliquent que cette problématique complexe dépasse les capacités des méthodes de synthèse actuelles, qui nécessitent de leur côté plusieurs images d'une même scène sous différents angles pour pouvoir produire ce genre d'effet. Les techniques propres à la génération de vidéos à partir d'images fixes sont également limitées par le fait qu'elles ne tiennent pas compte de la géométrie de la scène.
Dans son approche, l'équipe de Google Research a justement travaillé sur la géométrie combinée à la génération d'images de synthèse, le tout dans un process de rendu itératif, qui permet de parcourir une large distance dans l'image.
Pour mettre à l'épreuve leur solution, basée sur du Machine Learning, les chercheurs l'ont fait travailler sur un jeu de données comportant des photos aériennes de paysages côtiers, plutôt bien adaptées à ce genre d'exercice. Il en résulte des séquences vidéo plus longues et plausibles que celles fournies par les techniques de traitement habituelles.
En plus de leur publication scientifique, les chercheurs partagent librement le code de Infinite Nature pour celles et ceux qui souhaiteraient tenter l'expérience avec la solution et leurs propres images.
Ils ont également intégré leur projet dans un Google Colab, une solution web de Google permettant d'éditer et d'exécuter du code Python directement depuis le navigateur. Accessible en ligne, il vous est possible d'uploader vos propres photos et de constater le rendu image par image.
Vous aurez ainsi l'impression d'évoluer dans le décor à la manière d'un drone, tout en étant en mesure de définir le point de fuite vers lequel vous souhaitez orienter l'IA pour la génération de chacune des images de l'animation.
J'ai moi-même testé le truc, et je vous avoue que c'est assez impressionnant (mais aussi prenant 😁). Je ne vais pas vous le cacher, en fonction de la qualité de votre photo, de la scène (privilégier les photos avec une grande profondeur de champ), et de l'orientation que vous donnez à votre animation, le rendu peut assez vite être dégradé, tout dépend de l'approche que vous donnez à votre parcours dans l'image. 😉
S'abonner aux Joies du Code sur Facebook
Suivre Les Joies du Code sur Twitter
Image d'illustration : Unsplash
À propos de l'auteur
Nicolas Lecointre
Chief Happiness Officer des développeurs, ceinture noire de sudo. Pour rire, j'ai créé Les Joies du Code. J'utilise Vim depuis 10 ans parce que je sais pas comment le quitter.
Articles similaires
Claude Opus 4.7 vient de sortir : ce que le modèle change pour les développeurs
OpenAI lance ChatGPT Pro à 100$/mois pour les devs qui abusent de Codex
Arm fabrique sa première puce en 35 ans d'existence et la baptise sobrement "AGI CPU"
Meta lance Muse Spark et fait ses adieux à Llama (et à l'open source)
Claude Opus 4.7 vient de sortir : ce que le modèle change pour les développeurs
OpenAI lance ChatGPT Pro à 100$/mois pour les devs qui abusent de Codex
Arm fabrique sa première puce en 35 ans d'existence et la baptise sobrement "AGI CPU"
Meta lance Muse Spark et fait ses adieux à Llama (et à l'open source)
Plus de contenu
Quand je fais une revue de code et que rien n'est commenté
Quand un collègue nous annonce qu'il vient de redémarrer notre plus gros serveur de prod par automatisme
Quand notre intégrateur un peu fainéant sur les bords nous montre son idée de design minimaliste pour le site
Quand je dois faire évoluer une regex
Transfert de connaissances entre devs
Quand je sais que ma pull request va générer plein de conflits mais que je balance quand même
Quand je me lance sur un nouveau framework sans lire sa doc
Comment le commercial vend notre équipe "d'experts" au client
Quand je fais une revue de code et que rien n'est commenté
Quand un collègue nous annonce qu'il vient de redémarrer notre plus gros serveur de prod par automatisme
Quand notre intégrateur un peu fainéant sur les bords nous montre son idée de design minimaliste pour le site
Quand je dois faire évoluer une regex
Transfert de connaissances entre devs