En bref: Une semaine de retard dans la sortie de la v7 avec 2 modèles possibles, l’un reposant sur le dataset v6 et l’autre sur le datasetv7. Avancement coté 3D, reflexion sur les différentes possibilités de modèles vidéo (rapide/lent, cher/abordable). Calques et outils de selection en cours de développement sur l’éditeur.

🔶Modèle V7

  • Le calendrier d’entraînement a été retardé d’environ une semaine en raison de problèmes récemment découverts.
  • L’équipe explore des optimisations de codage pour potentiellement accélérer la phase finale d’entraînement.
  • Le plan actuel inclut deux entraînements parallèles du modèle V7 :
    • Un avec le nouveau jeu de données V7.
    • Un sans le jeu de données V6.
  • L’objectif est de publier le modèle offrant les meilleures performances; une version ultérieure avec un jeu de données plus large est également probable.
  • Améliorations attendues :
    • Qualité d’image améliorée et modèle plus “intelligent”.
    • Meilleure prise en charge des références d’objets et de personnages (ex. : logos, tasses, visages, chiens, monstres).
    • Transfert de la personnalisation à partir des versions précédentes (moodboard, Srefs).
  • L’équipe reste concentrée sur l’optimisation des références et des fonctionnalités en vue du lancement final.

🔶Développements du modèle 3D

  • Le nouveau modèle 3D vise à gérer une grande variété de types de scènes, et pas seulement des objets isolés.
  • L’un des principaux objectifs est d’ajouter la possibilité de modifier les angles de caméra et de recadrer les images.
  • Bénéfice attendu : récupérer des images autrement mieux optimisées en ajustant la composition.
  • Les délais restent incertains en raison des besoins supplémentaires en entraînement et des contraintes de ressources.
  • Forte confiance dans le fait qu’une fonctionnalité 3D solide sera publiée cette année.

🔶Progrès sur la fonctionnalité vidéo

  • Le scepticisme initial concernant la qualité vidéo diminue à mesure que les nouveaux modèles montrent des résultats prometteurs.
  • Une sortie de haute qualité est observée environ une fois sur quatre, indiquant un potentiel important.
  • Préoccupations liées au coût :
    • Le rendu vidéo est coûteux, en particulier pour les utilisateurs des abonnements les plus bas.
    • L’équipe étudie des modèles vidéo plus rapides et moins chers pour élargir l’accessibilité.
  • Des partenariats pourraient accélérer le lancement vidéo, bien que les dates dépendent en partie de collaborateurs externes.
  • Si les solutions dirigées par des partenaires ne sont pas satisfaisantes, l’entraînement interne reprendra.
  • L’équipe est de plus en plus convaincue que la vidéo deviendra une offre clé de Midjourney cette année.

🔶Sortie du Big Batch (« Batch 8 »)

  • Une fonctionnalité “batch 8” (grille de 8 images) est en cours de développement, avec un déploiement potentiel avant ou après V7.
  • Les détails de l’interface utilisateur et du design restent en cours d’élaboration.
  • La priorité pourrait se déplacer vers l’achèvement de V7 et l’exploration de la vidéo, rendant le calendrier exact du batch 8 incertain.

🔶Compromis entre vitesse et qualité

  • La communauté privilégie souvent les modes de meilleure qualité (plus lents) comme Q2 ou Q4 par rapport aux modes plus rapides comme Q 0,5.
  • Dilemme constant : équilibrer la demande de rapidité et celle d’une fidélité accrue.
  • Solution potentielle :
    • Un mode de génération rapide pour l’itération.
    • Un mode final plus lent pour des résultats de haute qualité.
  • L’équipe continue d’expérimenter des moyens d’offrir les deux options sans compromettre l’expérience utilisateur.

🔶Mises à jour de l’éditeur et du site web

  • Améliorations en cours des capacités de l’éditeur, notamment :
    • Meilleurs outils de sélection.
    • Fonctions de calques.
  • La fonctionnalité “Describe” est désormais intégrée au site web :
    • Permet aux utilisateurs de faire glisser une image dans l’interface de création pour générer automatiquement une description de prompt.
  • D’autres améliorations du site et de l’interface utilisateur sont en cours, bien que les dates de sortie restent variables.

🔶R&D supplémentaire et projets secrets

  • Expansion de l’espace de laboratoire physique pour soutenir la recherche matérielle et le prototypage.
  • L’entreprise investit massivement dans la recherche en IA, maintenant des avancées propriétaires au-delà des normes open source.
  • Plusieurs nouvelles initiatives pourraient égaler ou surpasser l’impact des fonctionnalités existantes de Midjourney.
  • Environ 90 % de ces projets sont liés à la communauté et à l’écosystème du produit.
  • Environ 10 % sont plus expérimentaux ou “étranges”, avec un potentiel d’innovations inattendues.
  • Objectif global : chaque nouveau projet vise un impact majeur en exploitant à la fois l’expertise logicielle et matérielle.

Merci à James Griffing pour son aide.

Debriefing des Office Hours Midjourney

Venez partager vos impressions sur notre serveur Discord ou en commentaire, et à la semaine prochaine pour des nouvelles infos!