Alibaba lanza el modelo de inteligencia artificial Qwen3-Next, más eficiente
Jinse Finance informó que Tongyi Qianwen, una subsidiaria de Alibaba, lanzó la arquitectura de modelo base de próxima generación Qwen3-Next y liberó como código abierto la serie de modelos Qwen3-Next-80B-A3B basada en esta arquitectura. En comparación con la estructura MoE del Qwen3, esta nueva estructura presenta las siguientes mejoras clave: mecanismo de atención híbrida, estructura MoE de alta dispersión, una serie de optimizaciones amigables para la estabilidad del entrenamiento y un mecanismo de predicción de múltiples tokens que mejora la eficiencia de inferencia. Basado en la estructura del modelo Qwen3-Next, Alibaba entrenó el modelo Qwen3-Next-80B-A3B-Base, que cuenta con 80 mil millones de parámetros, pero solo activa 3 mil millones de ellos. Este modelo Base logra un rendimiento similar o incluso ligeramente superior al modelo denso Qwen3-32B, mientras que su costo de entrenamiento (horas de GPU) es menos de una décima parte del Qwen3-32B, y su rendimiento de inferencia en contextos superiores a 32k es más de diez veces mayor que el del Qwen3-32B, logrando así una relación costo-beneficio extrema tanto en entrenamiento como en inferencia.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar
El índice de miedo y avaricia de hoy subió a 57, cambiando de neutral a avaricia.
CleanCore Solutions amplía su tenencia de DOGE a 500 millones de unidades
Elon Musk vuelve a advertir sobre la deuda pública de 37 billones de dólares
DTCC incluye tres ETF de criptomonedas, que abarcan Solana, HBAR y XRP
En tendencia
MásPrecios de las criptos
Más








