El nuevo modelo de imágenes AI "Banana" de Google enloquece a los usuarios con "Vibe Photoshoping"

Bitget App

Trading Inteligente

Bitget

Novedades

MarsBit2025/08/30 06:53

Mostrar el original

Por:TechFlow

Google AI Studio lanzó Gemini 2.5 Flash Image (nombre en clave nano-banana), el modelo más avanzado de Google para generación y edición de imágenes, que se destaca por su rapidez y su excelente desempeño en múltiples rankings. Resumen generado por Mars AI Este resumen fue producido por el modelo Mars AI; la precisión y completitud del contenido generado todavía se encuentra en etapa de mejoras iterativas.

¿Te acordás del misterioso modelo de edición de imágenes con IA "nano-banana" que fue tema de debate hace un tiempo? En ese entonces, en la arena de grandes modelos de lenguaje LMArena, se habló muchísimo de él por su rendimiento sobresaliente. Los cracks técnicos de Google Gemini también se sumaron a la movida, generando mucha expectativa en redes sociales, e incluso llegó a rumorearse que era el supuesto Gemini 3.0 Pro.

Ahora, Google finalmente levantó el velo de misterio.

En la madrugada del 27 de agosto (zona horaria GMT+8), Google AI Studio lanzó oficialmente Gemini 2.5 Flash Image (nombre en clave nano banana) 🍌.

Gemini 2.5 Flash Image, tan esperado, finalmente hace su aparición ｜ Fuente de la imagen: GeekPark

Es el modelo de generación y edición de imágenes más avanzado de Google hasta la fecha. No solo es increíblemente rápido, casi una experiencia "relámpago", sino que también ha logrado resultados SOTA en varios rankings, y en LMArena está muy por delante de los demás.

Gemini 2.5 Flash Image alcanza el nivel SOTA apenas sale al mercado ｜ Fuente de la imagen: LMarena.ai

En su blog técnico, Google menciona que Gemini 2.0 Flash ya había conquistado a los desarrolladores por su baja latencia y alta relación costo-beneficio, pero los usuarios siempre esperaron imágenes de mayor calidad y un control creativo más potente. Gemini 2.5 Flash Image llega con estas mejoras clave: la consistencia de los personajes finalmente se mantiene plenamente, la edición de imágenes basada en prompts es más precisa, la fusión de múltiples imágenes es natural y fluida, y su comprensión del conocimiento del mundo real lo convierte no solo en un modelo, sino en el "punto de partida" para la próxima generación de aplicaciones exitosas.

En GeekPark también lo probamos de inmediato. Para sorpresa nuestra, no es solo una actualización de modelo: por primera vez, realmente sentís que el futuro de la edición de fotos con IA está a la vuelta de la esquina.

Ya se puede probar en Google AI Studio ｜ Fuente de la imagen: GeekPark

Al principio, solo quería probarlo como de costumbre, "a ver qué tan rápido es el nuevo modelo". Pero no esperaba que, en solo unas horas de uso, ya pudiera vislumbrar cómo serán las próximas aplicaciones exitosas.

Antes estábamos acostumbrados a herramientas como Meitu, donde con unos clics y un filtro la foto mejoraba al instante. Pero la sensación con Gemini 2.5 Flash Image es completamente diferente. Es increíblemente rápido, inteligente como un diseñador que te entiende: solo tenés que decirle el efecto que querés y en segundos te lo muestra en pantalla.

Además del resultado, la velocidad es otra gran diferencia de Gemini 2.5 Flash Image respecto a modelos anteriores ｜ Fuente de la imagen: GeekPark

01 Generación ultra rápida, resultados en segundos

Lo más evidente al probar nano banana es la velocidad. Antes, usando algunos modelos open source, aunque tuvieras una buena PC, desde que ingresabas el prompt hasta que generaba una imagen decente podían pasar decenas de segundos o más. Para usuarios de móvil, la espera era aún más tediosa.

Pero Gemini 2.5 Flash Image baja esa barrera a solo unos segundos. Es el modelo multimodal nativo "más nuevo, rápido y eficiente" según Google, y se nota que le pusieron mucho trabajo a la optimización. En mis pruebas, con solo un prompt, en tres o cuatro segundos ya tenía el resultado, con buena resolución y detalles nítidos. (UTC+8)

La experiencia es muy parecida a usar Meitu para editar fotos: tocás el botón de "embellecer" y el efecto es casi instantáneo. La diferencia es que Meitu aplica un filtro predefinido, mientras que Gemini 2.5 Flash Image construye una imagen desde cero o transforma una foto según tus indicaciones. Esa sensación de "decís y se hace" es algo que los procesos manuales de edición nunca pudieron lograr.

Pedidos como "eliminar personas del fondo" se resuelven con un solo prompt ｜ Fuente de la imagen: GeekPark

Si la velocidad resuelve el problema de experiencia de los usuarios tradicionales de edición, la "multimodalidad nativa" redefine los límites de la IA en imágenes.

Gemini 2.5 Flash Image no solo genera imágenes, sino que entiende entradas de texto e imagen al mismo tiempo. Esto significa que puedo darle una foto y un prompt textual, y el modelo combinará ambas fuentes de información para entender lo que realmente quiero.

Por ejemplo, subí una foto tomada en la calle y le pedí "cambiá el fondo por el paisaje nocturno de Shinjuku, Tokio". No solo identificó el sujeto principal, sino que lo recortó perfectamente y reemplazó el fondo por las luces de neón de Shinjuku. Lo más impresionante es que mantuvo la coherencia de luces y sombras en la persona, evitando ese efecto artificial típico de los recortes manuales.

Esta capacidad me recuerda a la función de "cambiar fondo con un clic" que los fabricantes de móviles promocionan en sus galerías. Pero antes, esos cambios de fondo solían tener bordes borrosos y luces mal ajustadas, quedando muy artificiales. Ahora, Gemini 2.5 Flash Image usa conocimiento del mundo y comprensión visual para mejorar esos detalles, logrando resultados mucho más naturales y conservando detalles que los modelos tradicionales no podían.

Imagen original & resultado generado por Gemini 2.5 Flash Image ｜ Fuente de la imagen: GeekPark

Por eso creo que va a redefinir la experiencia de edición: ya no dependés de muchos ajustes manuales, sino que el modelo entiende el significado de tu pedido y lo ejecuta, especialmente en escenarios donde los detalles importan mucho, como el retoque de retratos.

Para este tipo de retoque de retratos, la consistencia de personajes de Gemini 2.5 Flash Image ofrece una experiencia de "Vibe Photoshoping" nunca antes vista.

Un segundo para "salvar" la dignidad de un programador ｜ Fuente de la imagen: GeekPark

Esta experiencia rompe con la vieja percepción de la generación de imágenes con IA — "esoterismo": si el prompt es bueno, el resultado es sorprendente; si es normal, el resultado puede ser cualquier cosa.

Pero en Gemini 2.5 Flash Image, noté que esa "sensación esotérica" se redujo mucho. Entiende los prompts con mayor precisión y de forma más intuitiva para el usuario— por eso muchos sienten que es mucho más útil.

Por ejemplo, le digo "desenfocá el fondo y destacá la persona en primer plano", y en segundos el resultado es exactamente lo que quería; le pido "cambiá la expresión de la persona por una sonrisa", y no solo ajusta la boca, sino también la mirada, con gran detalle; incluso probé "coloreá una foto en blanco y negro", y el resultado no fue un manchón de colores, sino una imagen que respeta la atmósfera histórica.

Esta capacidad de "decir y hacer" me recuerda a cuando usaba Meitu y solo quería suavizar la piel, pero terminaba con una cara artificial de "belleza nivel 10". Ahora, Gemini 2.5 Flash Image es preciso y moderado: realmente entiende lo que querés y lo reproduce lo mejor posible.

02 Capacidades mejoradas, después no hay vuelta atrás

Para ser más claro, lo comparé con mis herramientas móviles de edición habituales.

En Snapseed, si quiero desenfocar el fondo, tengo que seleccionar manualmente el área principal y ajustar el nivel de desenfoque, lo que lleva uno o dos minutos y varias correcciones.

En Meitu, aunque hay una función de desenfoque automático, muchas veces desenfoca también los bordes de la persona y el resultado no es natural.

En cambio, en Gemini 2.5 Flash Image, solo tengo que decirlo: reconoce automáticamente los límites entre persona y fondo, y el desenfoque es natural, sin necesidad de retoques.

Esta comparación demuestra algo: Gemini 2.5 Flash Image libera al usuario de operaciones complejas y le delega más trabajo al modelo. Para la gente común, baja la barrera de entrada; para los profesionales, ahorra mucho tiempo.

Después de probarlo, mi mayor sensación es que Gemini 2.5 Flash Image ya no es solo una herramienta de edición, sino más bien un "asistente inteligente".

Antes, con Meitu, usábamos un conjunto de funciones predefinidas: filtros, embellecimiento, mosaico, cada botón tenía su función. Había que ir eligiendo y ajustando paso a paso hasta quedar conforme.

Ahora, la lógica de Gemini 2.5 Flash Image es completamente distinta. Ya no tenés que aprender cómo funciona la herramienta: entiende directamente lo que necesitás. Solo tenés que decirlo y lo hace por vos.

Este cambio parece sutil, pero en realidad transforma la relación con el proceso de edición. Antes nos adaptábamos a la herramienta; ahora la herramienta se adapta a nosotros. Esta forma de interacción es el germen de la próxima generación de aplicaciones.

Por ahora, Gemini 2.5 Flash Image sigue en una etapa temprana y puede tener limitaciones. Pero su velocidad, comprensión y fidelidad ya permiten imaginar un futuro prometedor.

¿Qué pasaría si se combinara con Meitu? Tal vez podrías abrir la app, decirle al teléfono "mejorá esta foto, que la piel se vea natural", y en segundos tendrías el resultado (UTC+8); o cuando saques fotos de viaje, pedirle "cambiá el clima a soleado" y la foto se transforma al instante; o incluso en edición de video, cambiar la atmósfera de un clip con una sola frase.

Este método podría convertirse rápidamente en la función principal de edición de imágenes en los sistemas operativos móviles ｜ Fuente de la imagen: Twitter

Por eso creo que va a revolucionar rápidamente los flujos de trabajo actuales en edición de fotos y definir la próxima generación de "Meitu": no solo edición, sino una nueva forma de interactuar con la imagen, haciendo que la IA sea tu compañera en la postproducción fotográfica.

Pero por ahora, Gemini 2.5 Flash Image todavía no puede ser una app de edición masiva lista para usar: no solo porque su objetivo principal sigue siendo la generación de imágenes y no el retoque sobre fotos existentes, sino porque todas las imágenes creadas o editadas con Gemini 2.5 Flash Image llevan una marca de agua digital SynthID, para que las plataformas sociales puedan identificar contenido generado por IA.

03 El punto de explosión de un éxito

Pensándolo bien, Meitu se convirtió en una app masiva porque resolvió de la forma más simple el problema que todos querían solucionar: hacer que las fotos se vean mejor.

Gemini 2.5 Flash Image lleva esto un paso más allá, puliendo la complejidad de la IA para que cualquiera pueda tener una experiencia de "imagen en segundos".

La primera vez que le pedí "desenfocá el fondo" y en segundos la imagen quedó perfecta, supe que ese era el punto de partida de una app exitosa. No es solo un modelo, sino la base de innumerables productos nuevos en el futuro.

La función de cambiar el cielo con IA, que fue furor entre usuarios de móviles hace unos años ｜ Fuente de la imagen: comunidad vivo

Quizás en unos años olvidemos el nombre Banana, pero veremos cada vez más herramientas de edición que te permiten "decir lo que querés y tenerlo al instante", y tal vez, como Meitu en su momento, se conviertan en un recuerdo compartido de toda una generación.

Solo que esta vez, la IA llevará la imaginación mucho más lejos.

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Haz staking y gana nuevos tokens.

APR de hasta 12%. Gana más airdrop bloqueando más.

¡Bloquea ahora!