阿里巴巴在GitHub上最新開源了一款名為ZeroSearch的大模型搜索引擎,這款引擎的推出標志著信息檢索領域的一次重大革新。這款搜索引擎采用了強化學習框架,使得大型語言模型無需依賴真實的搜索引擎便能擁有強大的搜索能力。
ZeroSearch充分利用了大型語言模型在預訓練階段所積累的海量知識,并將其轉化為高效的檢索模塊。不同于傳統的搜索引擎,ZeroSearch無需與真實搜索引擎進行交互,而是依靠一種獨特的強化學習機制,通過模型自身的能力直接完成信息檢索任務。這一獨特的設計使得ZeroSearch能夠獨立于現有的搜索引擎生態系統之外,為信息檢索帶來了全新的視角和可能性。
除了無需依賴真實搜索引擎外,ZeroSearch還具備動態調整生成內容質量的能力。它能夠根據用戶的查詢需求,實時優化搜索結果的準確性和相關性,從而提供更加精確和個性化的搜索體驗。這一動態控制能力,是傳統搜索引擎所無法比擬的,也是ZeroSearch的核心技術優勢之一。
為了驗證ZeroSearch的性能,研究人員在多個問答數據集上進行了全面的評測,包括NQ、TriviaQA、PopQA和HotpotQA等。評測結果顯示,一個擁有70億參數的監督微調模型,在使用ZeroSearch后,其搜索能力評分達到了33.06;而一個140億參數的模型更是取得了33.97的高分,成功超越了谷歌搜索的32.47分。這一結果充分證明了ZeroSearch在搜索性能上的卓越表現。
在成本控制方面,ZeroSearch同樣展現出了巨大的優勢。研究人員通過SerpAPI使用谷歌搜索進行了約64,000次搜索查詢的訓練,成本高達586.70美元(約合人民幣4238元)。然而,在使用四個A100 GPU對140億參數的大模型進行模擬時,成本僅為70.80美元(約合人民幣511元),成本降低了87.93%以上。這一顯著的成本節約,使得ZeroSearch在實際應用中具有更高的性價比和可行性。