伴隨著工業(yè)化、信息化、智能化的不斷發(fā)展,數(shù)字經(jīng)濟(jì)取得了顯著的成就并即將邁向新的發(fā)展階段。在此背景下,國家部委就推動以數(shù)字賦能推動產(chǎn)業(yè)高質(zhì)量發(fā)展制定與實(shí)施一系列相關(guān)政策。不久前,工信部就鼓勵(lì)部屬單位開展數(shù)據(jù)確權(quán)授權(quán)的標(biāo)準(zhǔn)制定等方面工作展開了發(fā)表政策建議答復(fù)。
工信部網(wǎng)站顯示:下一步,我部將圍繞三方面做好相關(guān)工作。一是支持北京、上海等地?cái)?shù)據(jù)交易機(jī)構(gòu)高質(zhì)量建設(shè),鼓勵(lì)各類市場主體參與數(shù)據(jù)要素市場建設(shè),探索多種形式的數(shù)據(jù)交易模式,推動數(shù)據(jù)要素價(jià)值轉(zhuǎn)化。二是推動全國統(tǒng)一數(shù)據(jù)登記平臺高水平建設(shè),指導(dǎo)開展數(shù)據(jù)資產(chǎn)價(jià)值評估試點(diǎn),打通數(shù)據(jù)要素流通堵點(diǎn)。三是鼓勵(lì)部屬單位開展數(shù)據(jù)確權(quán)授權(quán)的標(biāo)準(zhǔn)制定、技術(shù)研發(fā)、平臺應(yīng)用、授權(quán)認(rèn)證等方面工作,探索數(shù)據(jù)確權(quán)授權(quán)的落地方案和創(chuàng)新模式。
統(tǒng)一的數(shù)據(jù)要素市場建設(shè)離不開統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)的制定。在新的依托大模型為基礎(chǔ)的生成式人工智能發(fā)展趨勢下,晴數(shù)智慧響應(yīng)政府與市場號召,探索與制定新的符合大模型數(shù)據(jù)需求的數(shù)據(jù)分級分類企業(yè)標(biāo)準(zhǔn),并于今日公開發(fā)布。
晴數(shù)智慧將大模型數(shù)據(jù)集生產(chǎn)分為L1到L3三個(gè)標(biāo)準(zhǔn),級別越高,數(shù)據(jù)精度越高。晴數(shù)智慧希望通過這套企業(yè)標(biāo)準(zhǔn)劃分不同的數(shù)據(jù)處理層級,規(guī)范并提升數(shù)據(jù)質(zhì)量,并確保數(shù)據(jù)的可靠性、有效性和知識產(chǎn)權(quán)的清晰性。
這三個(gè)標(biāo)準(zhǔn)之間形成了一個(gè)逐步升級與優(yōu)化的數(shù)據(jù)處理流程,從基礎(chǔ)的自動化清洗到逐步優(yōu)化和深度處理,以達(dá)到企業(yè)對數(shù)據(jù)質(zhì)量和數(shù)據(jù)合規(guī)的雙重要求。
L1階段著重于自動化處理和基本數(shù)據(jù)清洗,由中級數(shù)據(jù)專家設(shè)計(jì)數(shù)據(jù)分布,采用一流性能的大模型,通過全自動數(shù)據(jù)清洗處理和A100/A10 GPU算力支持,確保數(shù)據(jù)的基本質(zhì)量,同時(shí)強(qiáng)調(diào)數(shù)據(jù)知識產(chǎn)權(quán)的清晰性。
L1數(shù)據(jù)樣例:
L2階段在L1的基礎(chǔ)上進(jìn)一步提升數(shù)據(jù)質(zhì)量,由高級數(shù)據(jù)專家設(shè)計(jì)數(shù)據(jù)分布,同樣采用一流性能大模型進(jìn)行全自動數(shù)據(jù)預(yù)清洗處理。在此基礎(chǔ)上引入人工篩選不合格數(shù)據(jù),以無害性和語言模型任務(wù)完成能力為核心標(biāo)準(zhǔn),進(jìn)一步優(yōu)化數(shù)據(jù)。
L2數(shù)據(jù)樣例:
L3階段在前兩個(gè)階段的基礎(chǔ)上,更加注重?cái)?shù)據(jù)的高質(zhì)量和深度處理,由特級數(shù)據(jù)專家設(shè)計(jì)數(shù)據(jù)分布,同樣采用一流性能大模型協(xié)同生產(chǎn)并進(jìn)行全自動數(shù)據(jù)預(yù)清洗處理。而后通過人工篩選并修正不合格數(shù)據(jù),篩選標(biāo)準(zhǔn)包括事實(shí)性、相關(guān)性、流暢性、無害性以及語言模型任務(wù)完成能力,進(jìn)一步確保數(shù)據(jù)的可信度和可用性。
L3數(shù)據(jù)樣例:
這三個(gè)標(biāo)準(zhǔn)層級在數(shù)據(jù)頂層設(shè)計(jì)、數(shù)據(jù)處理的自動化程度、人工干預(yù)程度以及數(shù)據(jù)篩選的嚴(yán)格程度上存在差異。通過這一套企業(yè)標(biāo)準(zhǔn),晴數(shù)智慧希望在數(shù)據(jù)產(chǎn)品及服務(wù)交付過程中確保數(shù)據(jù)質(zhì)量、幫助客戶針對性提升模型性能以及滿足不同任務(wù)需求。
晴數(shù)智慧希望這套大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)能為政府有關(guān)部門及合作伙伴提供一定的參考和借鑒,助力統(tǒng)一數(shù)據(jù)要素市場的建設(shè)。
更多標(biāo)準(zhǔn)詳情,咨詢晴數(shù)智慧。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )