Alibaba wprowadza bardziej wydajny model sztucznej inteligencji Qwen3-Next
Jinse Finance poinformowało, że Tongyi Qianwen, należący do Alibaba, opublikował nową generację architektury modelu bazowego Qwen3-Next oraz udostępnił open source serię modeli Qwen3-Next-80B-A3B opartych na tej architekturze. W porównaniu do architektury MoE modelu Qwen3, wprowadzono następujące kluczowe ulepszenia: hybrydowy mechanizm uwagi, wysoko rzadką strukturę MoE, szereg optymalizacji przyjaznych dla stabilności treningu oraz mechanizm przewidywania wielu tokenów zwiększający wydajność wnioskowania. Na bazie architektury Qwen3-Next, Alibaba wytrenowała model Qwen3-Next-80B-A3B-Base, który posiada 80 miliardów parametrów, z czego aktywowanych jest jedynie 3 miliardy. Model bazowy osiąga wydajność zbliżoną lub nawet nieco lepszą niż gęsty model Qwen3-32B, przy czym koszt treningu (GPU hours) stanowi mniej niż jedną dziesiątą kosztu Qwen3-32B, a przepustowość wnioskowania przy kontekście powyżej 32k jest ponad dziesięciokrotnie wyższa niż w przypadku Qwen3-32B, osiągając wyjątkową efektywność kosztową zarówno w treningu, jak i wnioskowaniu.
Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.
Może Ci się również spodobać
Patricio Worthalter sprzedał 2 000 ETH za 8,85 milionów USDC
CleanCore Solutions zwiększa swoje zasoby DOGE do 500 milionów
Popularne
WięcejCeny krypto
Więcej








