La génération de vidéos par IA, domaine en constante évolution, connaît aujourd’hui un tournant avec l’émergence de Lumiere, le nouveau modèle de génération vidéo de Google. Utilisant un modèle de diffusion novateur intitulé Space-Time-U-Net (STUNet), Lumiere repense la manière dont les éléments sont perçus dans l’espace et dans le temps au sein d’une vidéo, posant ainsi un nouveau jalon dans le secteur de l’IA. Ce modèle unique opère différemment des plateformes existantes, en permettant la création d’une vidéo en un seul processus, contrairement aux méthodes antérieures qui, elles, assemblaient des images fixes pour produire une séquence animée.

L’émergence de lumiere et ses prouesses technologiques

Dès son initiation, Lumiere génère un cadre de base de la scène vidéo à partir d’une invite. Elle utilise ensuite le cadre STUNet pour approximer avec précision les déplacements des objets, générant ainsi des images successives qui s’imbriquent les unes dans les autres pour donner naissance à une motion d’une fluidité remarquable. À titre comparatif, Lumiere produit 80 images par seconde, dépassant largement les 25 images générées par d’autres modèles comme la Stable Video Diffusion, dévoilant ainsi une fluidité et un réalisme sans précédent.

L’expertise derrière Google Lumiere, au-delà du simple montage vidéo, s’éloigne ainsi considérablement de l’approche classique de la génération de vidéos par IA. En effet, alors que la plupart des modèles s’appuient sur l’assemblage d’images clés dont les mouvements sont déjà prédéfinis, le modèle STUNet se concentre sur la dynamique elle-même, en s’attachant à la position prévue du contenu à un instant T au sein de la vidéo.

Une percée dans la génération de vidéos réalistes

C’est un fait indéniable, les outils de génération et d’édition vidéo basés sur l’IA ont franchi un cap significatif, passant de l’vallée de l’étrange à une qualité proche du réalisme pur au cours des dernières années. Google, le géant de la technologie, a su s’imposer dans un domaine déjà occupé par d’autres grandes entités telles que Runway, Stable Video Diffusion ou encore Meta avec son projet Emu.

Le sizzle reel publié par Google, accompagné d’un préprint scientifique, démontre que les progrès de la vidéo IA sont à la fois stupéfiants et prometteurs. Un exemple saisissant est celui d’une turtle, dont les mouvements sont si bien capturés et retranscrits que l’on pourrait les confondre avec ceux d’une véritable tortue évoluant dans l’eau. Ceci montre non seulement les avancées substantielles en matière d’imitation de la réalité, mais soulève également la question de la distinction entre images générées par AI et CGI (images générées par ordinateur).

L’avènement d’une nouvelle ère pour les créateurs de contenu

Dans une ère où la création de contenu devient toujours plus technologique, la réaction des professionnels du secteur ne se fait pas attendre. Une éditrice de vidéos professionnelle, après avoir visualisé la vidéo d’introduction de Lumiere, a admis que tout en percevant qu’il ne s’agissait pas d’images totalement réelles, elle aurait pu les confondre avec du CGI si elle n’avait pas été mise au courant de leur origine IA. La prouesse technique est telle que la crainte de voir ces technologies remplacer les métiers traditionnels se fait de plus en plus sentir.

Google, jusqu’alors discret joueur dans la catégorie texte-vidéo, a progressivement dévoilé des modèles d’IA plus avancés, tout en se dirigeant vers une approche multimodale de l’intelligence artificielle. Le modèle de langage de grande envergure Gemini de Google prévoit, à terme, d’intégrer la génération d’images à Bard. Si Lumiere n’est pas encore ouverte aux tests publics, elle illustre clairement la capacité de Google à développer une plateforme de vidéos IA qui pourrait d’ores et déjà surpasser les générateurs de vidéo IA généralement accessibles tels que Runway et Pika.

Extension fonctionnelle et responsabilité éthique

Allant au-delà de la simple génération texte-vidéo, Lumiere promet aussi de permettre la création d’images-vidéos, la génération stylisée, offrant la possibilité aux utilisateurs de créer des vidéos dans un style spécifique, et même les cinémagraphes qui animent uniquement une portion d’une vidéo. Elle prévoit également une fonction d’inpainting pour masquer une zone de la vidéo en vue de modifier la couleur ou le motif.

Toutefois, le papier de recherche de Google’s Lumiere avertit des risques potentiels d’utilisation malveillante, affirmant l’importance cruciale de développer et d’appliquer des outils de détection pour prévenir les biais et les usages malintentionnés. Cela démontre une préoccupation notable pour une utilisation sûre et équitable de ces technologies avancées. Les auteurs du papier ne précisent pas les mécanismes concrets à mettre en œuvre, mais soulignent l’impératif éthique de ce nouveau front technologique.

Fonctionnalité Description
Génération vidéo Création de vidéos à partir de promps textuels ou visuels.
Fluidité du mouvement 80 images/s pour une fluidité de mouvement naturelle.
Stylisation Production de vidéos dans un style artistique déterminé.
Cinemagraphes Animation d’une partie de la vidéo pour un effet visuel captivant.
Inpainting Modification de zones spécifiques d’une vidéo pour changer couleur ou motif.
  • Auteur/autrice de la publication :
  • Post category:Big Data

Maxime

Maxime a en charge les relations partenaires et est chargé de s’assurer que le reste de l’équipe travaille efficacement et en bonne intelligence