上海AI實驗室發(fā)布書生?浦語大模型:中文考試超ChatGPT

6月7日消息,7 日,上海人工智能實驗室(上海 AI 實驗室)、商湯科技聯(lián)合香港中文大學、復旦大學及上海交通大學發(fā)布千億級參數(shù)大語言模型“書生?浦語”(InternLM)。“書生?浦語”具有 1040 億參數(shù),是在包含 1.6 萬億 token 的多語種高質(zhì)量數(shù)據(jù)集上訓練而成。

全面評測結果顯示,“書生?浦語”不僅在知識掌握、閱讀理解、數(shù)學推理、多語翻譯等多個測試任務上表現(xiàn)優(yōu)秀,而且具備很強的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項中文考試中取得超越 ChatGPT 的成績,其中就包括中國高考各科目的數(shù)據(jù)集(GaoKao)。

據(jù)介紹,“書生?浦語”聯(lián)合團隊選取了 20 余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:由伯克利加州大學等高校構建的多任務考試評測集 MMLU;由微軟研究院推出的學科考試評測集 AGIEval(含中國高考、司法考試及美國 SAT、LSAT、GRE 和 GMAT 等);由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集 C-Eval;由復旦大學研究團隊構建的高考題目評測集 Gaokao。

實驗室聯(lián)合團隊對“書生?浦語”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進行了全面測試,針對上述四個評測集的成績對比如下(滿分 100 分)。

可以看到,“書生?浦語”不僅顯著超越了 GLM-130B 和 LLaMA-65B 等學術開源模型,還在 AGIEval、C-Eval 以及 Gaokao 等多個綜合性考試中領先于 ChatGPT;在以美國考試為主的 MMLU 上實現(xiàn)和 ChatGPT 持平。這些綜合性考試的成績反映出“書生?浦語”扎實的知識掌握程度和優(yōu)秀的綜合能力。

雖然 “書生?浦語”在考試評測上取得優(yōu)秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性?!皶?浦語” 受限于 2K 的語境窗口長度(GPT-4 的語境窗口長度為 32K),在長文理解、復雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。

另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題;這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2023-06-07
上海AI實驗室發(fā)布書生?浦語大模型:中文考試超ChatGPT
但在很多方面還存在明顯局限。

長按掃碼 閱讀全文