晴數(shù)智慧推出MagicData-CLAM高質(zhì)量SFT數(shù)據(jù)集,助力大模型提效

晴數(shù)智慧推出MagicData-CLAM高質(zhì)量SFT數(shù)據(jù)集,助力大模型實現(xiàn)更優(yōu)效果

兩周前Meta發(fā)布了開源大模型LLaMA 2。與上一代LLaMA相比,LLaMA 2有著性能接近GPT-3.5、允許商用、安全性更強,巨頭聯(lián)合生態(tài)開源的特點。LLaMA 2的開源使得大模型的競爭來到新的起點,市場格局面臨重塑。如果開源大模型使得企業(yè)不再制肘于自研大模型,那么基于大模型的生成式AI決勝關(guān)鍵將只有一個答案:數(shù)據(jù)。

數(shù)據(jù)質(zhì)量是AI大模型落地的決勝關(guān)鍵

在模型相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果的模型優(yōu)化方式被越來越多業(yè)內(nèi)人士所認(rèn)同。人工智能領(lǐng)域的權(quán)威學(xué)者吳恩達(dá)發(fā)起了“以數(shù)據(jù)為中心的 AI”運動就是主張模型不變,通過改進(jìn)數(shù)據(jù)集質(zhì)量提升模型效果。在當(dāng)前算力和算法難以拉開巨大差距的情況下,突破數(shù)據(jù)瓶頸、獲取更多高質(zhì)量的數(shù)據(jù)成為大模型落地的關(guān)鍵。

來源:Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023

晴數(shù)智慧推出高質(zhì)量MagicData-CLAM數(shù)據(jù)集

在中文高質(zhì)量數(shù)據(jù)集稀缺的情境下,晴數(shù)智慧基于近20年在對話數(shù)據(jù)的專業(yè)積累,在國內(nèi)首次推出了面向大模型SFT訓(xùn)練的高質(zhì)量數(shù)據(jù)集:MagicData-CLAM數(shù)據(jù)集。

該數(shù)據(jù)集包含一共5萬條Prompt和對應(yīng)回答,數(shù)據(jù)的分布由晴數(shù)智慧數(shù)據(jù)專家團(tuán)隊設(shè)計完成,覆蓋領(lǐng)域多樣性、任務(wù)多樣性,以及表達(dá)多樣性。數(shù)據(jù)版權(quán)完整清晰。

MagicData-CLAM幫助實現(xiàn)更優(yōu)的大模型微調(diào)結(jié)果

為了更好地評估MagicData-CLAM的價值,晴數(shù)智慧研發(fā)團(tuán)隊進(jìn)行了一組實驗:基于chinese-llama-2-7b模型(該模型由開源項目 Linly 發(fā)布,是基于 LLaMA2-7b訓(xùn)練的中文底座模型),團(tuán)隊分別使用約等量的MagicData-CLAM數(shù)據(jù)集和基于斯坦福Alpaca數(shù)據(jù)處理的高質(zhì)量中文數(shù)據(jù)集進(jìn)行微調(diào),得到Chinese-llama2-CLAM(簡稱CLAM)大模型和Chinese-llama2-alpaca(簡稱Alpaca)模型。我們對這兩個模型以及基礎(chǔ)chinese-llama-2-7b模型(基線模型)的輸出結(jié)果進(jìn)行評估。結(jié)果顯示,從大模型的表達(dá)自然度上,結(jié)果輸出結(jié)構(gòu)化上,CLAM顯著更優(yōu);在輸出知識的正確性上CLAM也表現(xiàn)不錯。

測評樣例如下:

對比模型輸出的結(jié)果,我們發(fā)現(xiàn):

CLAM模型相比Alpaca模型,對中文的理解更好,結(jié)果輸出上結(jié)構(gòu)化更清晰。

Alpaca模型似乎容易先續(xù)寫幾句任務(wù)然后才開始進(jìn)行回答,交互自然度稍有欠缺,而CLAM模型幾乎未出現(xiàn)這種情況。

Alpaca模型偶爾出現(xiàn)幻覺,如它的輸出結(jié)果有如此描述:經(jīng)典的歌劇作品包括《托斯卡》、《費加羅的婚禮》、《魔笛》等,京劇作品如《茶館》、《空城計》、《雷雨》等。(《茶館》與《雷雨》并非京劇作品。)而在相關(guān)知識輸出中,CLAM模型較好地理解了歌劇,京劇等的區(qū)別,并輸出更合理的知識。

此實驗結(jié)果說明,調(diào)優(yōu)數(shù)據(jù)集對基線模型的輸出結(jié)果有明顯影響,使用更高質(zhì)量的數(shù)據(jù)集,模型能輸出更優(yōu)的結(jié)果;Alpaca數(shù)據(jù)集是斯坦福大學(xué)研究團(tuán)隊發(fā)布的高質(zhì)量數(shù)據(jù)集代表,而CLAM模型的輸出結(jié)果優(yōu)于Alpaca中文版模型,說明晴數(shù)智慧自研的MagicData-CLAM數(shù)據(jù)集是優(yōu)質(zhì)的中文高質(zhì)量數(shù)據(jù)集。

一場不同于過去的新的競爭正在生成式人工智能領(lǐng)域展開,高質(zhì)量數(shù)據(jù)在其中將成為越來越關(guān)鍵的因素。MagicData-CLAM數(shù)據(jù)集作為晴數(shù)智慧在國內(nèi)首發(fā)的合規(guī)可商用高質(zhì)量SFT數(shù)據(jù)集,希望能幫助國內(nèi)大模型應(yīng)用研發(fā)伙伴先人一步,占領(lǐng)制勝先機。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )