Lamini公司提出一種記憶調優(yōu)方法,有效減少大語言模型95%的幻覺問題。
到目前為止,我希望大多數(shù)讀者都已經(jīng)體驗過公開可用的大語言模型,無論是自己運行軟件,還是訂閱眾多在線服務之一,或者使用當前的免費和測試解決方案。在大多數(shù)情況下,這些大語言模型之所以被稱為“大”,是因為它們包含數(shù)十億個參數(shù),通常在大量非結構化語言數(shù)據(jù)上進行訓練。對于大多數(shù)行業(yè)來說,參數(shù)的數(shù)量通常與這些模型的準確性相關聯(lián)——訓練的數(shù)據(jù)越多,設計中的參數(shù)越多,這些通用模型可以持有和回憶或生成的信息范圍越廣。然而,情況并非總是如此,目前這個市場存在一個大問題:幻覺。
本周,初創(chuàng)公司Lamini發(fā)表了一篇論文,展示了一種新方法,能夠保守地減少大語言模型95%的幻覺問題。Lamini由首席執(zhí)行官Sharon Zhou(PhD,Andrew Ng團隊的生成式AI教授,MIT獲獎生成式AI研究,最大規(guī)模的生成式AI Coursera課程)和首席技術官Greg Diamos(NVIDIA/CUDA架構師,超過14000次引用,AI擴展法則,ML Perf聯(lián)合創(chuàng)始人)共同創(chuàng)立,是最早提供大語言模型微調服務的公司之一。與其他公司不同的是,盡管聯(lián)合創(chuàng)始人之一是NVIDIA Tensor Core架構師,他們更傾向于使用AMD Instinct MI200/MI300 GPU。公司在2024年初完成了A輪融資,獲得2500萬美元的資金,主要投資者包括Amplify Partners和First Round Capital。其他投資者包括Lip-Bu Tan、Andrej Karpathy和Andrew Ng。Lamini已經(jīng)擁有《財富》500強企業(yè)客戶,并提供基于每GPU授權的中間層軟件以及云推理服務。
幻覺問題
目前的大語言模型屬于“生成式AI”類別——你給它一個提示詞/單詞,它會生成一些返回的詞語。然而,生成的內容是基于輸入的,并且由于設計中的概率函數(shù),輸出是“生成”的,可能會提供原始數(shù)據(jù)集中存在但抽象到模型內嵌空間中的話題的詳細信息。例如,“parent”這一概念可以嵌入為son和father之間的向量,而類似的向量也可以用來描述一個更改名稱的國家。
然而,模型會出現(xiàn)幻覺。這不僅僅限于大模型,但生成式AI天生就考慮到了幻覺問題。這最終導致模型給出錯誤信息,或者在嵌入空間中創(chuàng)建了不應存在的關系,導致錯誤的輸出。
幻覺問題來源于多個方面,但我將在這里挑兩個方面。首先是事實——大多數(shù)通用模型對事實的掌握較差。它們擅長解釋概念,但問一個通用模型某人的生日往往是不靠譜的。原因是即使數(shù)據(jù)集中有正確答案,也會有很多相似的信息可能被模型選擇作為響應的一部分。一個很好的例子是我問一個通用Llama2-7B模型AMD首席執(zhí)行官Lisa Su的生日——它正確地識別了年份,但日期實際上是歸因于晶體管的發(fā)現(xiàn)日期。因為Lisa Su與芯片和晶體管密切相關,所以在嵌入空間中被選擇為可能符合答案的候選者。模型出現(xiàn)了幻覺。
其次是這些通用模型的訓練方式。數(shù)據(jù)集可能是公共信息,正確或錯誤(例如reddit, Wikipedia),甚至是矛盾的信息,但這些模型被設計成要給出一個答案,無論對錯。除非問題在“不要回答此類問題”的保護機制中被捕捉到,否則幾乎所有的語言模型都傾向于給出答案,無論是否正確。這不僅適用于事實,還適用于數(shù)據(jù)集中沒有直接存在但可能從數(shù)據(jù)集中推導出的概念。對于一個特定模型來說,LiDAR和RADAR可能相似,或者1000萬這個數(shù)字可能與300萬有相同的權重——如果你在使用一個模型來處理就業(yè)合同,這就會產生很大的差異。
問題在于通用訓練數(shù)據(jù)就是通用的。一個形成良好的數(shù)據(jù)集(大多數(shù)不是)將在許多主題上提供類似水平的輸出。在各種測試中,損失函數(shù)(準確性水平,數(shù)字越低越好)通常會在測試主題之間表現(xiàn)得相似。因此,幻覺可能發(fā)生在模型中的許多不同概念上,而不管模型的參數(shù)大小。通常從頭開始訓練一個大模型的數(shù)據(jù)集是一次性事件,因為數(shù)據(jù)集龐大,訓練成本巨大——我們已經(jīng)快要達到數(shù)十億美元的訓練成本了,這還不包括GPU的成本。
已經(jīng)有一些方法可以幫助應對幻覺問題并付諸實踐。
第一個選擇是擁有一個特定領域的模型,僅在需要的數(shù)據(jù)上進行訓練。這有一些邊緣情況的問題,不能很好地在其領域之外進行泛化,但也存在不知道哪些事實可能在上下文中相關的問題。數(shù)據(jù)集中多個日期嵌入到一個主題中的嵌入函數(shù)很容易讓人迷惑。
處理幻覺問題的初步方法是參與協(xié)同提示。例如,將用戶的提示與背景中相關的準確材料配對。比如,一個設計為幫助支持特定產品的助手可以與所有相關的PDF或數(shù)據(jù)庫信息協(xié)同提示,處理用戶的提問。模型可以設計成將協(xié)同提示作為比通用信息更高的準確性標準,然而它仍然依賴于模型選擇協(xié)同提示作為正確答案。此外,這需要模型輸入接受成千上萬,甚至數(shù)百萬個令牌,這大大增加了任何推理設計的計算需求,從長遠來看使其成本不具成本效益,特別是如果協(xié)同提示是多模態(tài)的(圖像、音頻或視頻而不是文本)。結果比原始模型更好,但仍然缺乏精確性。
接下來是微調。這類似于從頭開始訓練特定領域的模型,但我們從通用模型開始,并在已知的、經(jīng)過篩選的數(shù)據(jù)上微調一些嵌入表。微調模型達到了某種程度的效果——畢竟這就是我們如何從GPT-3得到ChatGPT的。微調中對正確數(shù)據(jù)有偏好,并且可以泛化到多個主題,因為它來自于通用模型,然而在某些市場中,數(shù)據(jù)的微調并不夠準確。微調也可能是計算密集型的。
今天行業(yè)中常提到的一個策略是RAG,即檢索增強生成。這與協(xié)同提示類似,但改變了模型訪問數(shù)據(jù)的方式。它不是附加到用戶提示上,而是作為一個驗證的數(shù)據(jù)庫,模型可以用來輔助生成輸出。例如,法律模型可以手頭有案例數(shù)據(jù)庫,其中特定的案例可以被檢索以提供答案和背景。RAG的表現(xiàn)有時會有所不同,因為它仍然依賴于模型嵌入之外的數(shù)據(jù)。它可能和協(xié)同提示一樣糟糕,也可能和最好的微調一樣好。
我們還應提到語言模型中的專家概念。專家混合(MoE)模型依賴于多個優(yōu)化的小模型,每個模型都有一個更精細和特定的數(shù)據(jù)集,然后通過一個分層決策向量(或樹)將信息路由到特定專家以獲得相關答案。大多數(shù)在線超級大語言模型使用MoE結構來幫助提高準確性,額外的好處是性能和成本——Mixtral 7x7B名義上是一個490億參數(shù)的MoE,但在多個地方我看到一個平均輸入只會激活大約300億參數(shù),從而減少計算和內存需求,但最終比490億參數(shù)模型提供更好和更準確的輸出。
所有這些技術都基于這樣的原則,即當通用知識以足夠的數(shù)據(jù)或正確的方式進行訓練時,提高準確性,減少幻覺,并提供最低的損失函數(shù)(如上所述)。在通用訓練之后,損失函數(shù)通過微調、RAG、MoE進一步減少。然而,它們都面臨著這樣一個事實,即即使有MoE,最終的目標是通過經(jīng)過驗證的數(shù)據(jù)減少整個知識陣列的平均損失函數(shù)。
現(xiàn)代大語言模型不僅要具備通用性,還需要在許多商業(yè)應用中持有特定知識。這就是Lamini的用武之地,他們聲稱能夠幾乎完全消除特定話題上的幻覺。該方法本身很有趣,但也提出了一個好問題,可能定義未來的機器學習計算模式可能會發(fā)生的變化——類似于Transformer相比以前的卷積神經(jīng)網(wǎng)絡的變化。
Lamini-1解決方案:記憶調優(yōu)
在2024年6月13日發(fā)表的一篇論文中,Lamini介紹了一種名為“記憶調優(yōu)”的方法——一種以非常具體的方式嵌入特定數(shù)據(jù)到即使只有30億參數(shù)的小模型中的激進方法。問題在于(CTO Greg Diamos對我解釋)這不僅是方法上的問題,還需要違背一些歷史上的機器學習優(yōu)化思維。
Lamini的記憶調優(yōu)將MoE的概念以非常具體的方式大幅提升。每個專家被引導到一個調節(jié)器中,該調節(jié)器以100倍于微調的速度進行數(shù)據(jù)調優(yōu)。調優(yōu)比微調更容易,因為這些是調節(jié)器(如LoRA),而不是優(yōu)化整個嵌入表的權重。結果是,每個調節(jié)器可以將隨機字符串樣式的信息作為其數(shù)據(jù)集的一部分進行持有,并以100倍的速度進行訓練,使其保留在那兒。整個模型中,這就創(chuàng)造了一個“百萬專家混合體”,Lamini將其稱為“記憶專家混合體”(MoME)。
簡單來說,這就像把硬性事實放入模型中。
在機器學習中,有一個爭論是大型模型實際上能以接近確定性的方式知道多少硬性事實。這個話題遠超本文范圍,但卻是一個有趣的深思。
如果回到前面提到的損失函數(shù)概念,這看起來非常類似于將特定領域知識過擬合到模型中。對于該概念的損失函數(shù)變得大大降低,幾乎對模型的通用知識沒有任何影響?,F(xiàn)在,模型可以準確回憶數(shù)據(jù)——在實踐中,這可能是公司產品組合的信息,或者幫助臺處理支持文檔,甚至是處理代碼的語言模型。實際上,這對低億參數(shù)模型的有效性將有助于將MoME引入邊緣用例。
正如我之前提到的,為了實現(xiàn)這一點,某些模型訓練的傳統(tǒng)思維必須拋棄。在機器學習世界中,通常對“過擬合”數(shù)據(jù)持有一種不情愿的態(tài)度,因為人們認為這會破壞模型其余部分的通用推理。最終的看法是,一個模型只能持有“有限”的數(shù)據(jù)(類似于互聯(lián)網(wǎng)是一系列管道),通過過擬合數(shù)據(jù)會導致其他方面的性能下降。在與Greg的討論中,Lamini的方法對模型其余部分幾乎沒有影響。這很重要,因為大語言模型必須具備通用推理能力,但對于特定領域的MoME來說,這并不是問題。
Lamini在其網(wǎng)站上對MoME的解釋是一個非常好的閱讀材料,它還談到了這比常規(guī)微調所需的計算要求低得多。這是因為為了消除幻覺而優(yōu)化的知識領域本身定義狹窄——你不是重新調優(yōu)整個嵌入表,而是對一個非常小的部分進行幾十次的超級調優(yōu)。但未提及的是,我問團隊是否考慮過這對推理中的計算變化有什么影響。
在機器學習中,我們看到計算需求從卷積神經(jīng)網(wǎng)絡(CNN)和計算機視覺轉向Transformer時發(fā)生了重大變化。Transformer是一大突破,但它改變了這些模型的計算和內存需求。任何專門為優(yōu)化CNN而構建的計算硬件在面對Transformer時往往被拋在后面,因為它缺乏所需的額外計算功能,或者沒有足夠的計算到內存到內存帶寬以實現(xiàn)管道全利用。在推理方面,特別是考慮到從長遠來看推理的收入預計將超過訓練成本很多個數(shù)量級,這一點非常重要。
問題在于,與標準模型(例如Llama3-8B)相比,一個新的Llama3-8B+1MxMoME(即1百萬MoME的Llama3-8B)是否有顯著不同的計算配置來推動計算架構的轉變?答案是需要進行研究。如果在AI領域有一件事可能引發(fā)硅片制造商的劇變,那就是市場的又一次Transformer式進化,如果任何硬件制造商看到這一點并且/或者能夠迅速調整以支持它的速度和規(guī)模。
Lamini表示,其記憶調優(yōu)/MoME功能已經(jīng)在多個客戶中實施,包括一家財富500強公司,目前其文本到SQL代碼生成的幻覺減少了10倍。
本文譯自 morethanmoore,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )