Alibaba wprowadza bardziej wydajny model sztucznej inteligencji Qwen3-Next
Jinse Finance poinformowało, że Tongyi Qianwen, należący do Alibaba, opublikował nową generację architektury modelu bazowego Qwen3-Next oraz udostępnił open source serię modeli Qwen3-Next-80B-A3B opartych na tej architekturze. W porównaniu do architektury MoE modelu Qwen3, wprowadzono następujące kluczowe ulepszenia: hybrydowy mechanizm uwagi, wysoko rzadką strukturę MoE, szereg optymalizacji przyjaznych dla stabilności treningu oraz mechanizm przewidywania wielu tokenów zwiększający wydajność wnioskowania. Na bazie architektury Qwen3-Next, Alibaba wytrenowała model Qwen3-Next-80B-A3B-Base, który posiada 80 miliardów parametrów, z czego aktywowanych jest jedynie 3 miliardy. Model bazowy osiąga wydajność zbliżoną lub nawet nieco lepszą niż gęsty model Qwen3-32B, przy czym koszt treningu (GPU hours) stanowi mniej niż jedną dziesiątą kosztu Qwen3-32B, a przepustowość wnioskowania przy kontekście powyżej 32k jest ponad dziesięciokrotnie wyższa niż w przypadku Qwen3-32B, osiągając wyjątkową efektywność kosztową zarówno w treningu, jak i wnioskowaniu.
Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.
Może Ci się również spodobać
Podaż USDe spadła do 6,526 miliarda.
SEC USA wyda wytyczne dotyczące usług powierniczych dla kryptowalut
