Alibaba lance Qwen-Image-Edit : un modèle open source de 20 milliards de dollars pour l'édition avancée d'images et de textes
En bref L'équipe Qwen d'Alibaba Cloud a lancé Qwen-Image-Edit, un modèle d'édition d'images de pointe qui combine l'édition sémantique et d'apparence avec une modification précise du texte bilingue, offrant des capacités avancées pour des applications créatives et pratiques.
Alibaba Cloud's Qwen L'équipe a présenté Qwen-Image-Edit, un modèle avancé d'édition d'images dérivé du framework Qwen-Image 20B. Ce nouveau système étend les capacités de rendu de texte de Qwen-Image en les appliquant à l'édition d'images, avec une attention particulière portée à la précision des modifications textuelles. Qwen-Image-Edit traite les images d'entrée via deux composants parallèles : Qwen2.5-VL, qui gère le contrôle sémantique visuel, et l'encodeur VAE, qui contrôle l'apparence visuelle. Cette double approche permet au modèle de gérer efficacement les tâches d'édition sémantique et visuelle. L'outil est accessible via le chat Qwen, dans la section « Édition d'images ».
Qwen-Image-Edit est conçu pour s'adapter à de multiples dimensions d'édition. Il prend en charge à la fois les ajustements d'apparence, tels que l'ajout, la suppression ou la modification d'éléments visuels, tout en préservant l'intégrité des autres zones de l'image, et les modifications sémantiques, telles que la création de propriété intellectuelle, la rotation d'objets ou les transferts de style, où des modifications plus importantes des pixels sont autorisées tout en préservant l'intégrité sémantique. Il offre également des fonctionnalités d'édition de texte avancées en chinois et en anglais, permettant aux utilisateurs d'ajouter, de supprimer ou d'ajuster du texte dans les images tout en préservant la cohérence de la police, de la taille et du style. Des tests comparatifs sur plusieurs ensembles de données largement reconnus indiquent que Qwen-Image-Edit atteint des performances de pointe en matière d'édition d'images, ce qui en fait un modèle solide pour les futures applications dans ce domaine.
Édition sémantique et esthétique de Qwen-Image-Edit pour des applications créatives et pratiques
Un de defiL'un des aspects les plus marquants de Qwen-Image-Edit réside dans ses fonctionnalités avancées d'édition sémantique et d'apparence. L'édition sémantique consiste à modifier le contenu d'une image tout en préservant son sens visuel sous-jacent. Pour illustrer clairement cette fonction, l'équipe de développement met en évidence son utilisation avec Qwen La mascotte officielle de , le Capybara, comme exemple pratique.
L'observation montre que, bien que la majorité des pixels de l'image modifiée diffèrent de ceux de l'image d'origine (à gauche), la cohérence globale du personnage Capybara reste intacte. Ceci démontre la forte capacité d'édition sémantique de Qwen-Image-Edit, qui permet un développement flexible et varié de contenu de propriété intellectuelle original. De plus, dans Qwen Chat, un ensemble dédié d'invites d'édition a été créé autour des 16 types de personnalité MBTI. Grâce à ces invites, une collection complète de packs d'emojis MBTI mettant en vedette la mascotte Capybara a été produite avec succès, améliorant ainsi la représentation et la visibilité du personnage.
De plus, la synthèse de vues innovantes représente un autre cas d'utilisation important en édition sémantique. Qwen-Image-Edit est capable de faire pivoter des objets de 90 degrés ou d'effectuer une rotation complète de 180 degrés, permettant ainsi une visualisation directe de leur face arrière. Un autre exemple d'édition sémantique réside dans le transfert de style, où, par exemple, un portrait standard peut être réinterprété selon de multiples esthétiques artistiques, y compris des styles rappelant ceux du Studio Ghibli.
Outre l'édition sémantique, l'édition d'apparence constitue une fonction fréquemment utilisée dans la modification d'images. Cette approche vise à préserver l'intégrité de certaines zones d'une image tout en introduisant, supprimant ou modifiant des éléments spécifiques. Comme le montre l'exemple d'une enseigne parfaitement intégrée à une scène, l'édition d'apparence se prête à un large éventail d'applications, telles que l'ajustement de l'arrière-plan d'une personne ou la modification de vêtements. defiLa principale capacité de Qwen-Image-Edit est sa précision dans l'édition de texte, une fonctionnalité dérivée de l'expertise avancée de Qwen-Image dans les technologies de rendu de texte.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
Bitget CandyBomb x SAPIEN – Tradez des Futures pour partager 150 000 SAPIEN !
Bitget Trading Club Championship (Phase 5) – Venez remporter 800 BGB d'un pool de 80 000 BGB !
Fiesta Bitget x DGC – Gagnez une part de 6 480 000 000 DGC
Bitget va prendre en charge les fonctionnalités de prêt et de marge pour certains actifs dans le compte unifié
En vogue
PlusPrix des cryptos
Plus








