Alibaba lança modelo de inteligência artificial Qwen3-Next mais eficiente
De acordo com reportagem da Jinse Finance, a Tongyi Qianwen, subsidiária da Alibaba, lançou a próxima geração de arquitetura de modelo fundamental, Qwen3-Next, e abriu o código da série de modelos Qwen3-Next-80B-A3B baseada nessa arquitetura. Em comparação com a estrutura MoE do Qwen3, esta nova arquitetura apresenta as seguintes melhorias principais: mecanismo de atenção híbrida, estrutura MoE de alta esparsidade, uma série de otimizações que favorecem a estabilidade do treinamento e um mecanismo de previsão multi-token que aumenta a eficiência da inferência. Com base na estrutura do modelo Qwen3-Next, a Alibaba treinou o modelo Qwen3-Next-80B-A3B-Base, que possui 80 bilhões de parâmetros, mas ativa apenas 3 bilhões deles. Este modelo Base alcança desempenho semelhante ou até ligeiramente superior ao modelo denso Qwen3-32B, enquanto o custo de treinamento (horas de GPU) é inferior a um décimo do Qwen3-32B, e a taxa de throughput de inferência em contextos acima de 32k é mais de dez vezes maior que a do Qwen3-32B, alcançando uma relação custo-benefício extrema tanto no treinamento quanto na inferência.
Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.
Talvez também goste
Galaxy Digital compra novamente 706.790 SOL, no valor de 160 milhões de dólares
O fundador da POAP vendeu 2.000 ETH há 5 horas, ainda possui 41.000 ETH.
Populares
MaisPreços de criptomoedas
Mais








