J’étais déjà agréablement surpris après un premier tour d’évaluation samedi et les prémisses d’un aperçu de ce que pourrait être les rendus de la v7 tant attendue.

Mes premières impressions sont plutôt positives:

  • on a corrigé les problèmes de visages déformés et mal définis en arrière plan
  • on voit qu’il y a moins d’artefact parasites et d’incohérence dans les images, beaucoup moins
  • des meilleures textures de peau
  • et un réalisme assez saisissant

Mais dimanche soir un deuxième tour d’évaluation est proposé en nous expliquant qu’on avait évalué les mauvais rendus et que maintenant nous allions évalué les bons…

Et là le niveau monte clairement d’un cran et c’est la claque.

Très franchement je ne m’y attendais pas: on est sur un vieux dataset (quasiment celui de la v4), y aura pas encore d’amélioration sur la génération de texte, plusieurs fonctionnalités ne seront pas intégrées de suite.

Le dataset de cette v7 alpha repose sur l’ancien dataset (qui n’a quasiment pas bougé depuis la v4). La v7 n’aura donc pas plus de connaissance mais une meilleure connaissance. (exemple: on demande un labrador sur la v6 on a un chien et parfois un labrador, sur la v7 on aura un labrador)

Un dataset est prévu pour la v7 mais il demande encore pas mal de nettoyage avant de pouvoir être implémenté

Une meilleure génération de texte serra introduite plus tard mais elle repose sur un dataset annexe qui pour l’instant peut poser un problème de cohérence générale lorsqu’il est associé avec le dataset d’image, donc il viendra plus tard lui aussi.

À savoir que la nouvelle architecture du modèle v7 est plus simple et permettra d’apporter plus facilement les mises à jour futures, et elles devraient être nombreuses dans les premières semaines.

La première étape d’évaluation qui présentait les mauvais résultats (on ne le savait pas) me laisser déjà présager de quelque chose de bon, mais là cette deuxième étape est scotchante, d’un niveau jamais vu en terme d’image pure.

Les propositions sont vraiment impressionnantes et les choix parfois très difficiles (il faut voter pour la meilleure des deux images qui sont proposées).

Je ne m’attendais pas à un aussi gros gap, je suis époustouflé.

Initialement prévue pour lundi la v7 va sortir dans la semaine et elle va mettre une grosse claque à tout le monde.

On attendra tout de même de voir l’adhérence au prompt mais David Holz s’est montré très optimiste la dessus, donc je suis confiant.

Venez partager vos impressions sur discord ou en commentaire. On décortique tout ça jeudi sur twitch et peut-être un live exceptionnel mardi matin.

PS: ces images ne sont pas à proprement dit des images de la v7 puisqu’il s’agit d’évaluations préalables qui vont permettre d’affiner le modèle, ou pourrait parler de version pré-alpha, mais cela donne déjà une idée de ce que va donner cette nouvelle version.

PS2: pour l’instant il n’est pas prévu de sortir une nouvelle version du modèle NiJi.

[EDIT] La 3ème étape des évaluations est lancée ce lundi, toutes les infos ici : https://geniart.fr/mise-a-jour-midjourney/