Alibaba lança modelo de inteligência artificial Qwen3-Next mais eficiente
De acordo com reportagem da Jinse Finance, a Tongyi Qianwen, subsidiária da Alibaba, lançou a próxima geração de arquitetura de modelo fundamental, Qwen3-Next, e abriu o código da série de modelos Qwen3-Next-80B-A3B baseada nessa arquitetura. Em comparação com a estrutura MoE do Qwen3, esta nova arquitetura apresenta as seguintes melhorias principais: mecanismo de atenção híbrida, estrutura MoE de alta esparsidade, uma série de otimizações que favorecem a estabilidade do treinamento e um mecanismo de previsão multi-token que aumenta a eficiência da inferência. Com base na estrutura do modelo Qwen3-Next, a Alibaba treinou o modelo Qwen3-Next-80B-A3B-Base, que possui 80 bilhões de parâmetros, mas ativa apenas 3 bilhões deles. Este modelo Base alcança desempenho semelhante ou até ligeiramente superior ao modelo denso Qwen3-32B, enquanto o custo de treinamento (horas de GPU) é inferior a um décimo do Qwen3-32B, e a taxa de throughput de inferência em contextos acima de 32k é mais de dez vezes maior que a do Qwen3-32B, alcançando uma relação custo-benefício extrema tanto no treinamento quanto na inferência.
Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.
Talvez também goste
Uma baleia acumulou US$ 2,55 milhões em PENGU nas últimas duas semanas
Klarna fecha parceria com uma exchange, permitindo que instituições realizem pagamentos com stablecoins
Uma baleia retirou 272 milhões de PENGU da exchange, no valor de 2,52 milhões de dólares.
