Cela fait presque 2 ans que David Holz (le fondateur de midjourney) nous parle du développement d’un modèle de génération de vidéo. C’est simple, j’ai commencé à publier les récapitulatifs hebdomadaires des fameuses “Office Hours” en Août 2023, et il en était déjà question. Alors même si Midjourney reste encore aujourd’hui, malgré la concurrence, une référence pour la génération d’images, son modèle vidéo publié le 18 juin 2025 marque un tournant majeur dans le monde des IA génératives.
Depuis sa sortie, des mises à jour se succèdent amenant de nouvelles fonctionnalités qui enrichissent les possibilités offertes par ce modèle, que la communauté, de manière générale, n’attendait clairement pas à un tel niveau.
Midjourney video v1, que peut-on vraiment faire ?
Cette V1 offre la possibilité de faire de l’”image-to-video”, c’est à dire d’animer une image qu’on lui fourni en une séquence de 5 secondes. Premier avantage: on peut aussi bien animer une image générée sur midjourney qu’une image externe (si tant est que la modération le permette) ➀.
À partir de là plusieurs choix sont possibles:
- Animation “Low” ou “High” ➁ :
- “Low Motion” est recommandé pour des résultats plus stables et prévisibles, avec des mouvements de caméra légers, des scènes immobiles, des mouvements lents ou subtils.
- “High Motion” prend plus de risque avec des animations beaucoup plus dynamiques et des mouvements de caméra plus importants, mais peut aussi entraîner des erreurs ou des mouvements saccadés et irréalistes.
- Automatique ou Manuel ➂ :
- En mode automatique midjourney s’occupe de tout, il va analyser l’image et faire en fonction de cela l’animation la plus cohérente. Attention si vous animez une image issu de midjourney le prompt relatif à celle-ci peut aussi avoir une influence importante sur le résultat.
- En mode manuel c’est à vous de prompter l’animation et le mouvement de caméra que vous souhaitez obtenir, avec donc un meilleur contrôle.
- Le mode Raw ➃ : L’adhérence au prompt n’étant pas toujours au rendez vous, le mode brut va laisser moins de place aux interprétations, et permettre un contrôle plus précis (en théorie).
- End frame ➄: en plus de pouvoir définir votre image de départ, vous pouvez définir votre image de fin, midjourney va générer l’interpolation entre les deux images clés. C’est une des fonctionnalités phare sur laquelle nous reviendrons dans la suite de l’article avec quelques cas d’usage concrets.
- Extend ➂ : la possibilité de rallonger une vidéo de 4 secondes (4 fois, jusqu’à 21 secondes), je vous recommande d’éviter de faire plus de 2 extends, au delà la qualité a tendance à se dégrader. À savoir qu’on peut définir une nouvelle End Frame pour chaque extend, ce qui en fait un outil très puissant.
- Le mode Loop ➅ qui permet de revenir à la première image de la vidéo et ainsi faire une vidéo qui tourne en boucle, réalisable aussi après plusieurs extends.
- Le mode HD ➆ qui permet de générer des vidéos en 720p. Il était question à la base de développer un upscaler pour limiter les coûts de génération, mais les problèmes rencontrés sur sa mise en place mettent pour l’instant cette option sur la touche.
Midjourney vidéo: les caractéristiques techniques
-
Le coût ?
C’est sur ce point que midjourney vient bousculer le marché, car en mode relax ➇ à partir de l’abonnement pro annuel qui revient à 48$ par mois, il est possible de générer des vidéos en 480p de façon illimité. En dehors de cela une génération de 4 vidéos coute 8x la génération de 4 images, et il faut compter 3,2x plus pour une génération en HD.
David Holz a voulu faire un modèle accessible à bas coût en essayant de trouver le meilleur compromis entre qualité et prix. Il faut savoir qu’ils avaient plus d’une 20aines de modèles en préparation.
La bonne nouvelle derrière tout ça, c’est que cela pourrait inciter la concurrence à faire baisser leur prix pour rester compétitif.
Je vous ai fait un tableau récapitulatif pour savoir combien de vidéos vous pouvez faire en fonction de votre abonnement midjourney et le coût réel de chacune des générations.
| Plan | Prix mensuel (Temps GPU) |
Génération* en 480p /mois (relax) |
Génération* en 720p /mois |
Temps GPU** 480p / 720p |
4 vidéos en 480p / 720p |
Prix annuel mensualisé |
4 vidéos en 480p / 720p |
|---|---|---|---|---|---|---|---|
| Basic | 10 $ (200mn) | 25 | 0.13 (8min) / |
0.40 $ / |
8 $ | 0.32 $ / |
|
| Standard | 30 $ (15h) | 115 | 35 | 0.13 (8min) / 0.42 (25min) | 0.26 $ / 0.86 $ | 24 $ | 0.21 $ / 0.69 $ |
| Pro | 60 $ (30h) | 230 (~ illimité) | 70 | 0.13 (8min) / 0.42 (25min) | 0.26 $ / 0.86 $ | 48 $ | 0.21 $ / 0.69 $ |
| Mega | 120 $ (60h) | 460 (~ illimité) | 140 | 0.13 (8min) / 0.42 (25min) | 0.26 $ / 0.86 $ | 96 $ | 0.21 $ / 0.69 $ |
Une génération (*) fait 4 rendus par défaut, c’est un choix des équipes de midjourney pour être sur d’avoir toujours au moins un bon résultats sur les 4. Il est désormais possible de générer 1 ou 2 vidéos avec les commandes --bs 1 et --bs 2 ce qui permet de diviser le prix en conséquences.
Petit détail sur le temps GPU (**), midjourney décompte sur discord (avec /info) les minutes en centième d’heure donc 0.42 GPU hours = 42% de 60 minutes = 25 minutes. Sur le site on a bien le décompte heures / minutes.
-
La résolution
Il se peut que Midjourney ajuste légèrement le format de l’image, ce qui entraîne une légère différence de ratio entre la vidéo et l’image initiale.
| Format d’image de départ |
Format vidéo correspondant |
Résolutions en 480p (SD) |
Résolutions en 720p (HD) |
Résolutions pour les réseaux |
|---|---|---|---|---|
| 1:1 | 1:1 | 624 x 624 px | 960 x 960 px | 1080 x 1080 px |
| 4:3 | 45:34 | 720 x 544 px | 1104 x 832 px | 1430 x 1080 px |
| 3:2 | 3:2 | 768 x 512 px | 1168 x 784 px | 1620 x 1080 px |
| 16:9 | 52:29 | 832 x 464 px | 1280 x 720 px | 1920 x 1080 px |
| 2:1 | 2:1 | 864 x 432 px | 1360 x 672 px | 2160 x 1080 px |
L’upscaleur qui est pour l’instant repoussé (voir abandonné), permettrait de réduire considérablement les coûts côté utilisateur: le process en lui même est moins onéreux et on upscale qu’une seule vidéo choisie en HD, plutôt que d’en générer 4 aléatoires.
Étant donné le coût actuel de la génération en HD je vous recommande de passer par un upscaler vidéo externe, il existe pas mal de solutions qui permettront d’obtenir de meilleurs résultats à moindre coût. Le meilleur étant Topaz Video AI ou encore mieux leur nouvel upscaleur créatif ASTRA. Vous avez aussi des solutions moins onéreuses, mais évidement de moindre qualité, en passant par freepik par exemple ou encore winXvideo AI et Unifab.
La force du End frame
La fonctionnalité d’end frame permet un maximum de contrôle surtout si vous combinez cela avec l’édition de vos images via l’éditeur. D’autant plus qu’il est possible d’ajouter une nouvelle image clé de fin pour chacune des « extends » que l’on fait.
Dans l’exemple que je vous présente, je commence par générer mon image de fin, j’efface ensuite mon sujet principal pour obtenir mon image de départ. Je génère ensuite l’animation entre les deux frames.
Dans ce deuxième exemple on va faire évoluer le style grâce à l’outil retexture de l’éditeur. pour obtenir 3 images différentes en ensuite générer l’animation entre chacune d’entre elle grâce à l’extend et le changement d’image clé de fin pour chacune des itérations.
Conclusion et conseils d’utilisation
Un modèle vidéo qui surprend souvent sur ses capacités à gérer les émotions, la consistance des éléments de la scène, à être efficace quelque soit le style, et à proposer des animations dynamiques voir audacieuses.
Cependant:
- C’est un modèle qui ne serra pas nécessairement efficace dans toutes les conditions, et il faudra avoir recourt à un autre modèle vidéo pour débloquer certaines situations.
- La génération en HD étant relativement chère (puisqu’elle génère 4 vidéos là où nous n’en avons souvent besoin que d’une), il peut être judicieux de cancel la génération à 92%, cela permet d’avoir un aperçu du résultat sans que cela ne coûte de crédit. Astuce partagée sur notre serveur discord par Tiphaine de synthographie.fr et Thibault de la chaine Les Tutos Midjourney, qu’on remercie. Cela marche aussi bien évidement pour les générations en 480p, mais attention de ne pas trop en abuser, la vidéo étant générée côté serveur, elle représente un coût pour midjourney, et ce « hack » pourrait ne pas durer.
- Inutile d’utiliser la même seed pour générer une vidéo SD en HD cela ne fonctionne pas, la génération n’aura rien à voir.
- Le modèle a tendance à être fort sur la consistance, c’est un avantage mais cela peut aussi être un inconvénient lorsque vous prolongez une vidéo (extend), car le modèle a du mal à se défaire des premières images/séquences, il peut être préférable de repartir sur une nouvelle vidéo et d’assembler ensuite le tout sur votre logiciel de montage préféré (si tenté que cela se prête à la situation).
- Il est souvent difficile d’obtenir les mouvements de caméra souhaités, il peut être préférable de décrire ce que l’on souhaite voir après le mouvement que d’utiliser des mots clés décrivant le mouvement lui même.
- À noter que vous avez désormais sur le site une page d’exploration “for you” personnalisée selon vos goûts (définis d’après les votes de vos personnalisations de modèle) et une web TV sur laquelle sont diffusées des vidéos issues de la communauté en continue (le format des vidéos est déterminé par la taille de votre fenêtre: portrait, paysage, etc).
Les points forts
Les points faibles
Les équipes de midjourney sont maintenant concentrées sur la future V8 qui devrait arriver dans quelques mois (on espère d’ici la fin de l’année). La V2 de ce modèle vidéo devrait par la même occasion voir le jour. D’ici là il y aura très peu de mises à jour sur les modèles actuels, à part peut-être la possibilité de faire des séquences de 2,5 secondes et éventuellement le tant espéré upscaleur, croisons les doigts.
Cet article a été publié dans l’édition du mois d’août 2025 de l’excellent magazine LHC que je vous invite vivement à aller découvrir.
Ressources complémentaires
Comme d’habitude je vous invite à aller visionner les excellentes vidéos de Thibault sur sa chaine Les Tutos Midjourney.
Vous pouvez aussi aller consulter le guide spécial v7 qui a été partagé par Clarinet, qui est la personne en charge de la FAQ sur le serveur discord officiel de Midjourney. Elle l’a mis à jour pour prendre en compte les subtilités à connaitre pour bien prendre en main ce modèle vidéo.
Vous pouvez aussi bien sur nous rejoindre sur discord où nous expérimentons beaucoup de choses puisque nous avons créé un salon dédié à la génération de vidéo avec midjourney. J’en profite pour remercier chaleureusement Stachmou, Tiphaine, Thibault, Papy, Aeris, Ludo, Sjeje, Monseigneur_ia qui participent activement à la vie de ce salon en partageant leurs créations et expériences!















Superbe article, merci !
merci Jeje :)
C’est l’article le plus complet que j’ai lu sur le sujet, bravo et merci !!!
Merci, très content qu’il t’ait plu :)
Magnifique article très complet et très bien détaillé, superbe boulot merci beaucoup 🙏
merci beaucoup Papy !
Merci Nico pour cet article complet sur la vidéo Midjourney, c’est plus clair en terme de crédits ou GPU
merci Stéphane!