極客網(wǎng) ·人工智能8月25日 大型語言模型(LLM)如今成為媒體炒作和關注的焦點,因為它們似乎具有神奇的能力,可以產(chǎn)生長篇連貫的文本,并且可以做一些它們沒有接受過訓練的事情,并在某種程度上參與被認為是計算機禁區(qū)的話題。
但是,關于大型語言模型的工作方式還有很多需要學習的地方。谷歌公司、斯坦福大學、DeepMind和北卡羅來納大學教堂山分校的研究人員最近進行了一項研究,以探索隨著模型規(guī)模增長和接受更多數(shù)據(jù)訓練,大型語言模型可以完成的新任務。
有關這一研究的論文揭示了大型語言模型的規(guī)模與其“突現(xiàn)(emergent)”能力之間的關系。
什么是“突現(xiàn)”?
這項研究的重點是物理學、生物學和計算機科學等領域長期以來一直在討論“突現(xiàn)”的意義。諾貝爾獎得主物理學家Philip Anderson曾在文章中討論了這種量變導致質(zhì)變并出現(xiàn)意想不到的現(xiàn)象。
受他的啟發(fā),加州大學伯克利分校教授Jacob Steinhardt將“突現(xiàn)”定義為“當系統(tǒng)中的量變導致其行為發(fā)生質(zhì)變時出現(xiàn)的現(xiàn)象”。
斯坦福大學博士生、該研究報告論文的合著者Rishi Bommasani說,“我們希望提供更精確的定義,我們將突現(xiàn)能力定義為‘不存在于較小模型中但存在于較大模型中’的能力?!?nbsp;
為了識別大型語言模型中的突現(xiàn)能力,研究人員致力尋找相變——在某個規(guī)模閾值以下,其模型性能接近隨機;而超過該閾值,其性能遠高于隨機。
Bommasani說:“這將突現(xiàn)能力與隨著規(guī)模的擴大而平穩(wěn)提高的能力區(qū)分開來。預測何時會出現(xiàn)突現(xiàn)能力要困難得多?!?nbsp;
規(guī)??梢杂貌煌姆绞絹砗饬?,包括計算(FLOPs)、模型大?。▍?shù)數(shù)量)或數(shù)據(jù)大小。在他們的研究中,研究人員專注于計算和模型的大小。
大型語言模型中的“突現(xiàn)”能力
大型語言模型是一個特別有趣的案例研究,因為它們已經(jīng)顯示出非常明顯的突現(xiàn)跡象。大型語言模型通常采用數(shù)千億個參數(shù),并在數(shù)百GB的文本數(shù)據(jù)上進行訓練,其可用于廣泛的任務,包括文本生成、回答問題、文章摘要等。
大型語言模型的有趣特征之一是它們的小樣本和零樣本學習能力,即執(zhí)行訓練示例中未包含的任務的能力。隨著OpenAI的GPT-3在2020年的推出,大型語言模型中的小樣本學習引起了廣泛關注,此后研究人員對其范圍和局限性進行了大量研究。
在這一研究中,研究人員測試了幾個主流的大型語言模型,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM。他們從一個包含200多個任務的BIG-Bench基準中選擇了幾個任務用于測試,這些任務被認為超出了當前語言模型的能力。同時還使用了來自TruthfulQA、MMLU、 WiC的挑戰(zhàn),這些都是旨在測試大型語言模型在處理復雜語言任務到達極限的基準。此外研究人員還測試了大型語言模型的多步推理、指令跟蹤和多步計算能力。
Bommasani說,“GPT-3具有標志性意義,它引入了真正獨特的第一波突現(xiàn)能力,也就是現(xiàn)在眾所周知的少量提示/場景學習。”
研究結(jié)果表明,規(guī)模與突現(xiàn)的能力高度相關。每個大型語言模型系列都有不同的規(guī)模,在特定規(guī)模以下的任務上表現(xiàn)出隨機或低于隨機的性能。在那之后,他們發(fā)現(xiàn)準確性突然提高,并隨著模型的變大而繼續(xù)提高。
大型語言模型顯示出大規(guī)模的突現(xiàn)能力,其中任務的性能保持在隨機水平,直到模型的大小達到某個閾值。在此之后,隨著模型變大,性能會突然提高并繼續(xù)提高。
Bommasani說,“一個有趣的例子是Pilehvar和Camacho Collados(2019)場景中的WiC基準測試,GPT-3和Chinchilla在其中基本上獲得了隨機的一次性性能,但最終顯示出的性能要高得多。”
大型語言模型產(chǎn)生“突現(xiàn)”能力的原因
大型語言模型中存在突現(xiàn)能力表明,研究人員無法通過推斷較小的模型的性能來預測大型語言模型的能力。
論文這樣寫道,“突現(xiàn)的小樣本提示任務也是不可預測的,因為這些任務沒有明確包含在預訓練中,而且我們可能不知道語言模型可以執(zhí)行的小樣本提示任務的整體范圍??傮w而言,進一步擴大規(guī)??赡軙x予更大的語言模型新的突現(xiàn)能力?!?/p>
然而一個懸而未決的問題是,這些模型是否真的在學習這些新興技能所需的知識。一些研究表明,當神經(jīng)網(wǎng)絡提供正確的結(jié)果時,它通常將輸入映射到輸出,而不需要學習因果關系、常識和其他作為學習技能基礎的知識。
Bommasani說,“總的來說,大型語言模型如何獲得能力、技能在概念層面上并沒有得到很好的理解。有證據(jù)表明,大型語言模型模型在某些方面隨著規(guī)模變大而變得更加穩(wěn)健,其實最好的模型在關鍵方面也并不是穩(wěn)定的。此外,穩(wěn)健性/穩(wěn)定性/因果關系與規(guī)模之間的總體關系尚不為人所知?!?/p>
在論文中,研究人員還討論了一些規(guī)模限制,其中包括硬件和數(shù)據(jù)瓶頸。此外,他們觀察到某些能力可能不會隨著規(guī)模的擴大而出現(xiàn),包括遠遠超出模型訓練數(shù)據(jù)集分布的任務。他們還警告說,一旦出現(xiàn)突現(xiàn)能力,并不能保證它會隨著規(guī)模的擴大而繼續(xù)提高。
Bommasani說:“我并不期望所有的行為都是突現(xiàn)的,但我確實希望隨著規(guī)模擴大,將會看到更多的突現(xiàn)行為。在更高的層面上,我預計我們將在一段時間內(nèi)繼續(xù)看到基礎模型范式中的重大驚喜。”
探索規(guī)?;奶娲桨?nbsp;
隨著機器學習社區(qū)朝著創(chuàng)建更大的語言模型邁進,人們越來越擔心大型語言模型的研究和開發(fā)將集中在少數(shù)擁有資金和計算資源的機構(gòu)手中。通過發(fā)布開源模型或降低訓練和運行的成本和技術開銷,一些研究機構(gòu)想努力實現(xiàn)大型語言模型的普惠化。
在論文中,研究人員討論了一些規(guī)模化的替代方案,包括在特定任務數(shù)據(jù)集上微調(diào)較小的模型。論文中寫道,“一旦發(fā)現(xiàn)了一種能力,進一步的研究可能會使這種能力適用于更小規(guī)模的模型。隨著我們繼續(xù)訓練規(guī)模越來越大的語言模型,降低突現(xiàn)能力的規(guī)模門檻將變得更加重要,因為這樣可以讓社區(qū)廣泛使用這些突現(xiàn)能力的研究結(jié)果?!?nbsp;
Bommasani說:“無論是否有突現(xiàn)能力,加大規(guī)模的好處都可能激勵人們拼資源,這將激發(fā)或加劇權(quán)力的集中化。從歷史上看,人工智能研究顯然會從具有開放科學傳統(tǒng)的學術界和工業(yè)界的合作中受益匪淺。鑒于大模型規(guī)模的資源密集型性質(zhì),我認為這些必須堅持幾個互補的前進道路:一是規(guī)范研究人員獲取現(xiàn)有模型,二是開放式合作推進普惠化,三是結(jié)構(gòu)化資源以提供必要的計算和數(shù)據(jù)?!?nbsp;
最后他指出,在可預見的未來,大型語言模型仍將是機器學習研究的支柱。隨著它們進入實際應用,研究人員需要繼續(xù)研究它們的能力和局限性。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )