微軟推出革命性新框架:用更少資源訓練大模型,效果媲美BF16

標題:微軟推出革命性新框架:用更少資源訓練大模型,效果媲美BF16

隨著人工智能的飛速發(fā)展,大模型訓練已成為業(yè)界和學術界的研究熱點。近日,微軟研究院推出了一種全新的訓練框架,該框架在相同超參數(shù)設置下,可以達到與FP8和BF16相當?shù)挠柧毿Ч?,這意味著所需的存儲和計算資源可以更少。這一突破性的進展,無疑為人工智能領域帶來了革命性的影響。

首先,讓我們了解一下這個新框架是如何工作的。該框架并非真正使用FP4進行訓練,而是通過模擬FP8環(huán)境來實現(xiàn)FP4精度。如果采用真正的FP4,效果還能進一步提升。這一創(chuàng)新性的方法,通過在FP8的TensorCore上模擬實現(xiàn),能夠在相同資源條件下達到更高的訓練效果。值得注意的是,這一方法使用的并非真正的FP4,而是通過定制化的FP4矩陣乘法CUDA內核,實現(xiàn)了對FP4精度的模擬。

在實驗部分,該框架在多個模型上的表現(xiàn)令人印象深刻。在LLaMA模型的不同規(guī)模下,從千萬 Tokens的訓練過程中,使用FP4訓練與BF16的損失曲線基本一致,這表明該框架的訓練效果與BF16相當。而在下游任務上,表現(xiàn)同樣也和BF16相當,這進一步證明了該框架的實用性。

那么,這個新框架有哪些優(yōu)點呢?首先,它大大降低了訓練大模型所需的存儲和計算資源,這對于當前資源緊張的環(huán)境來說,無疑是一個福音。其次,該框架的訓練效果與BF16相當,這意味著我們可以用更少的資源獲得相同或更好的效果。最后,該框架的提出者采用了定制化的FP4矩陣乘法CUDA內核,這無疑為未來的研究提供了新的思路。

此外,該框架還采用了許多先進的技術來優(yōu)化訓練過程。例如,在梯度通信時采用了FP8,在優(yōu)化器狀態(tài)(如動量)的存儲時選擇了FP16。在系統(tǒng)的其他部分,如非矩陣乘操作的計算、Loss Scaling等,也都采用了FP16。通過這些混合精度的設計,在保證訓練數(shù)值穩(wěn)定性的前提下,盡可能地降低了計算和存儲開銷。

值得一提的是,這個新框架由微軟亞洲研究院和SIGMA團隊打造,所有研究人員都是華人。第一作者Ruizhe Wang是中科大在讀博士生,目前在MSRA實習,研究方向就包括低精度量化。中科大科研部部長、類腦智能國家工程實驗室執(zhí)行主任、博士生導師查正軍教授也參與了這一項目。通訊作者為MSRA高級首席研究經(jīng)理程鵬和首席研究經(jīng)理Yeyun Gong。程鵬曾先后就讀于北航和清華,在清華讀博期間還到UCLA訪問學習;Yeyun Gong則是復旦博士,畢業(yè)后即加入微軟。MSRA杰出科學家、常務副院長郭百寧也參與了本項目。

總的來說,微軟推出的這個新框架為人工智能領域帶來了革命性的影響。它不僅降低了訓練大模型所需的資源,還提高了訓練效果。這一創(chuàng)新性的方法將為人工智能領域的研究者提供新的思路和方向,有望推動人工智能領域的發(fā)展進入新的階段。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
1970-01-01
微軟推出革命性新框架:用更少資源訓練大模型,效果媲美BF16
微軟推出新框架,可減少資源訓練大模型,效果媲美BF16,具有革命性影響。

長按掃碼 閱讀全文