IBM近期揭曉了其Granite 4.0系列中的一款迷你版模型——Granite 4.0 Tiny預覽版的細節。這款模型在5月2日進行了介紹,是Granite系列中的小型版本之一。
Granite 4.0 Tiny Preview以其卓越的計算效率和極低的內存需求脫穎而出。在FP8精度下,它僅需12GB顯存便能同時運行5個128KB上下文窗口的對話。這樣強大的性能只需一張英偉達GeForce RTX 3060 12GB顯卡便能實現,該顯卡的建議零售價為329美元(約2383元人民幣)。
盡管目前預覽版僅訓練了2.5T的Token數,但其性能已能與訓練了12T Token的Granite 3.3 2B Instruct相媲美。更令人驚訝的是,在128KB上下文窗口下支持16個并發會話時,其內存需求降低了約72%。據IBM透露,最終版本的Granite 4.0 Tiny預計性能將達到甚至超越Granite 3.3 8B Instruct的水平。
Granite 4.0 Tiny Preview的總參數規模為70億,但實際參與計算的活躍參數僅為10億。它基于Granite 4.0系列全線采用的混合Mamba-2/Transformer架構,這種架構結合了速度與精度,有效降低了內存消耗,同時保持了出色的性能。
目前,Granite 4.0 Tiny預覽版已在Hugging Face平臺上以標準的Apache 2.0許可證開放獲取。IBM計劃在今年夏天正式發布Granite 4.0系列的Tiny、Small和Medium版本,為用戶帶來更多選擇。