阿里巴巴于近日正式推出了其通義千問系列的最新成員——Qwen3模型,這一創(chuàng)新成果在凌晨時分悄然亮相,引起了業(yè)界的廣泛關(guān)注。據(jù)悉,Qwen3的參數(shù)量僅為DeepSeek-R1的三分之一,這一顯著的成本降低無疑為其廣泛應(yīng)用鋪平了道路。
Qwen3被定位為“混合推理模型”,這一獨特定位意味著它融合了“快思考”與“慢思考”的雙重能力。對于簡單直接的查詢,Qwen3能夠迅速響應(yīng),以低算力提供即時答案;而面對復(fù)雜問題,它則能進行多步驟的深入推理,有效節(jié)省了算力資源。
作為Qwen系列的新一代代表,Qwen3在多個權(quán)威評測中展現(xiàn)出了卓越的性能。無論是GPQA、AIME24/25還是LiveCodeBench,Qwen3都取得了極具競爭力的成績,充分證明了其強大的推理能力。
尤為在相同的計算資源條件下,Qwen3憑借其較小的規(guī)模成功超越了上一代更大體量的模型,真正實現(xiàn)了“小而強大”的目標(biāo)。這一成就不僅彰顯了阿里巴巴在人工智能領(lǐng)域的深厚積累,也為未來模型的小型化、高效化提供了有益的參考。
Qwen3的總參數(shù)量達到了235B,這一數(shù)字刷新了開源模型的智能水平新高。阿里巴巴方面表示,僅需4張H20顯卡即可部署Qwen3的滿血版,而且其顯存占用僅為性能相近模型的三分之一。這一優(yōu)勢無疑將大大降低模型的部署門檻,推動其在更多場景下的應(yīng)用。
為了滿足不同用戶的需求,Qwen3模型版本涵蓋了多款不同規(guī)模的模型。其中包括2款30B和235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。這些多樣化的選擇將使得Qwen3能夠更靈活地適應(yīng)各種應(yīng)用場景,滿足不同用戶的實際需求。