導(dǎo)語:小羊駝的邏輯叫“知識蒸餾”,即通過將大型模型的知識轉(zhuǎn)移到小型模型中,從而快速達到想要的模型質(zhì)量,同時減少計算成本。
不久前,斯坦福公開了一個名為 Alpaca 的新模型。(俗稱“羊駝”)它使用了 GPT3.5 生成的 52k 個指令訓(xùn)練,訓(xùn)練費用只花了 500 美元,但是性能可以與 GPT-3.5 相媲美。
然而由于使用了 GPT3.5 的指令數(shù)據(jù),使用條款禁止開發(fā)與 OpenAI 競爭的模型,因此 AIpaca 禁止了商用。
【資料圖】
其實 Vicuna 說白了就是一款新的“ChatGPT”,它和 Google Bard、ChatGPT 還有 New Bing 都一樣,都是聊天機器人(Chatbots)。
初步評估上,Vicuna-13B 達到了 ChatGPT 能力的 92%;幾乎要比 Google Bard 更強;同時遠遠甩開其他模型,如 LLaMA 和它的前輩——斯坦福的 Alpaca。
而訓(xùn)練 Vicuna-13B 的成本是僅僅 300 美元??赡苓€沒有屏幕前的你游戲顯卡的價格高。
Vicuna 在推出后面臨的一個問題是,自己的模型質(zhì)量究竟如何。顯然作為學(xué)術(shù)機構(gòu)沒辦法像大公司養(yǎng)著幾百上千的測試團隊進行大量測試,于是他們另辟蹊徑——既然人力太貴,那就用剛剛推出的 GPT-4 來評測嘛。
具體操作上,他們提出了一個評估框架。設(shè)計了九大主題下共計八十條測試問題,然后把由其他模型和自家 Vicuna 的回答交給 GPT-4 進行評估(“哪個虛擬助理的回答更好”)。
驚人的是在這八十個問題的評估上,Vicuna 已經(jīng)能微微贏下 Google 重注的 Bard,更是把自己的“祖父模型”LLaMA-13B、AIpaca-13B 殺得片甲不留。
盡管問題的勝出數(shù)量上比不過 ChatGPT,但以 10 分制的角度切入,Vicuna 也已經(jīng)實現(xiàn)了 ChatGPT 超過 90%的質(zhì)量。
不得不說,“羊駝”AIpaca用 GPT-3.5 生成的指令訓(xùn)練模型,而“小羊駝”Vicuna在此基礎(chǔ)上又用 GPT-4 評估模型,斯坦福他們是懂人工智能的。
進入Vicuna主頁,不必注冊登錄;直接輸入想要的內(nèi)容,然后等待Vicuna為你生成。全程一分鐘,行云流水絲毫不卡頓。
作為大語言模型,中英文自然是通吃。
“知識蒸餾”ChatGPT 訓(xùn)練費用高企甚至一次訓(xùn)練就要接近上億美金,然而 Vicuna 只花了 300 美元。從效果上看就達到了 GPT3.5 質(zhì)量的 90%。這是怎么做到的?
其實Vicuna的邏輯在人工智能領(lǐng)域叫做“知識蒸餾”(knowledge distillation),即通過將大型模型的知識轉(zhuǎn)移到小型模型中,從而快速達到想要的模型質(zhì)量,同時減少計算成本。
通常,大型模型(即“Teacher”)會生成訓(xùn)練數(shù)據(jù),小型模型(即“Student”)則使用這些數(shù)據(jù)來學(xué)習(xí)大型模型的知識和能力。
通過這種方式,小型模型可以在自己的場景下獲得大型模型90%甚至99%的能力,這意味著,可用于生成模型的領(lǐng)域?qū)⒊手笖?shù)級增長。
在Vicuna公布的訓(xùn)練過程里,一開始,開發(fā)團隊是從 ShareGPT (與 ChatGPT 對話內(nèi)容的UGC網(wǎng)站)上收集了七萬條對話。這恰恰是“知識蒸餾”里最重要的“訓(xùn)練數(shù)據(jù)”。
而訓(xùn)練方法上則是選擇了在“羊駝”AIpaca(成本已降低至500美元)上優(yōu)化。
這兩個最重要的環(huán)節(jié)就使得Vicuna同時在訓(xùn)練成本和訓(xùn)練質(zhì)量上均有突出優(yōu)勢。
而理論上你也可以花300美元租云計算資源然后訓(xùn)練出你的“小羊駝”。 全華人團隊一個小插曲是,作者在撰寫稿件搜集資料時,看到小羊駝的開發(fā)團隊不禁虎軀一震。
包括 Wei-Lin Chiang、Zhuohan Li、Zi Lin、Ying Sheng、Zhanghao Wu、Hao Zhang、Lianmin Zheng、Siyuan Zhuang 和 Yonghao Zhuang,這學(xué)生團隊是清一色的全員華人,不免讓人感慨。
總結(jié):遍地AI的世界就在眼前從本質(zhì)上來說,ChatGPT這種大語言模型就是通過燒錢燒算力燒數(shù)據(jù)達到"大力出奇跡"的效果。
而這也帶來了一個問題,即這樣的大語言模型燒錢的程度會讓很多小公司望而卻步,只能加入霸權(quán)壟斷的圈子。
而對于像小紅書/B站這樣不上不下的公司,既承擔不起自己訓(xùn)練大模型的成本,也不愿意將自己內(nèi)容池的數(shù)據(jù)拱手讓人,其實是陷入蠻尷尬的境地。
Vicuna展現(xiàn)了另一種可能性,即通過“知識蒸餾”的方式,以極低的價格復(fù)刻大語言模型90%甚至99%的能力。
而這就意味著哪怕是剛剛創(chuàng)業(yè)的小公司也完全負擔得起一個獨屬于自己體系的AI的訓(xùn)練成本。
換句話說,ChatGPT拉開了AI落地的序幕,而Vicuna告訴我們,遍地AI的世界也許就在眼前。