OpenAI poursuit sa stratégie de « code rouge » avec un nouveau modèle de génération d’images

TechCrunch2025/12/16 18:29

Afficher le texte d'origine

Par:TechCrunch

OpenAI déploie une nouvelle version de ChatGPT Images qui promet un meilleur respect des instructions, une édition plus précise et des vitesses de génération d’images jusqu’à 4 fois plus rapides.

Le nouveau modèle, baptisé GPT-Image-1.5, est disponible à partir de mardi pour tous les utilisateurs de ChatGPT ainsi que via l’API. Il s’agit de la dernière escalade dans la compétition avec Gemini de Google, après que le CEO d’OpenAI, Sam Altman, a déclaré le mois dernier un « code rouge » dans une note interne ayant fuité. Cette note détaillait les plans d’OpenAI pour retrouver sa position de leader de l’IA après que Google ait commencé à gagner des parts de marché suite à la sortie de Gemini 3, son dernier modèle phare, et de Nano Banana Pro, la toute nouvelle version du générateur d’images viral de Google — tous deux ayant dominé le classement LMArena sur de nombreux benchmarks.

Google conserve son avance même après la réponse d’OpenAI à son succès la semaine dernière avec le lancement de GPT-5.2, présenté comme son modèle le plus avancé à ce jour pour les développeurs et les professionnels au quotidien. OpenAI aurait prévu de lancer un nouveau générateur d’images début janvier, accélérant ces plans avec l’annonce de cette semaine. Sa dernière sortie de modèle d’image était GPT-Image-1 en avril.

GPT-Image-1.5 arrive alors que les générateurs d’images et de vidéos dépassent le stade du prototype et acquièrent des capacités prêtes pour la production. À l’instar de Nano Banana Pro, ChatGPT Images propose des fonctionnalités de post-production, offrant des contrôles d’édition plus granulaires pour maintenir la cohérence visuelle, comme la ressemblance faciale, l’éclairage, la composition et la tonalité des couleurs lors des modifications.

OpenAI poursuit sa stratégie de « code rouge » avec un nouveau modèle de génération d’images image 0

La même image illustrée ci-dessus avec différentes modifications pour mettre en avant la meilleure capacité de suivi des instructions de GPT-Image-1.5. Crédits image :OpenAI

La plupart des outils d’image GenAI sont mauvais pour l’itération, donc cela représenterait une avancée majeure. Lorsqu’on demande un changement spécifique, comme « ajuster l’expression faciale » ou « rendre l’éclairage plus froid », les modèles réinterprètent souvent l’image entière, ce qui entraîne un manque de cohérence.

La mise à jour ne concerne pas seulement de nouvelles fonctionnalités. ChatGPT Images sera désormais accessible via un point d’entrée dédié dans la barre latérale de ChatGPT qui fonctionne « davantage comme un studio créatif », a écrit Fidji Simo, CEO des applications d’OpenAI, dans un billet de blog mardi.

« Les nouveaux écrans de visualisation et d’édition d’images facilitent la création d’images correspondant à votre vision ou l’inspiration à partir de suggestions tendances et de filtres prédéfinis », a écrit Simo.

Techcrunch event

Ajoutez-vous à la liste d’attente Disrupt 2026 pour être le premier à obtenir un billet Early Bird. Les éditions précédentes de Disrupt ont accueilli Google Cloud, Netflix, Microsoft, Box, Phia, a16z, ElevenLabs, Wayve, Hugging Face, Elad Gil et Vinod Khosla sur scène — parmi plus de 250 leaders du secteur animant plus de 200 sessions conçues pour stimuler votre croissance et affûter votre avantage. De plus, rencontrez des centaines de startups innovant dans tous les secteurs.

San Francisco | 13-15 octobre 2026

WAITLIST NOW

En plus du nouveau générateur d’images, OpenAI introduit de nouvelles façons d’améliorer l’expérience ChatGPT avec davantage d’éléments visuels. Le plan est de faire en sorte que les requêtes de recherche affichent plus de visuels avec des sources claires, ce qui pourrait être utile pour des tâches telles que la conversion de mesures ou la vérification des scores sportifs, selon Simo.

« Lorsque vous créez, vous devriez pouvoir voir et façonner ce que vous réalisez. Lorsque les visuels racontent une histoire mieux que les mots seuls, ChatGPT devrait les inclure », a écrit Simo. « Lorsque vous avez besoin d’une réponse rapide ou que l’étape suivante se trouve dans un autre outil, cela devrait être là. En faisant cela, nous pouvons continuer à réduire la distance entre ce qui est dans votre esprit et votre capacité à le concrétiser. »

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens

Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.

Bloquez maintenant !