信通院云大所:數據治理成為大模型的勝負手

5月16日消息(水易)近日,在由中國通信標準化協(xié)會主辦,中關村科學城管委會支持、中國通信標準化協(xié)會大數據技術標準推進委員會(CCSA TC601)承辦的“2024DataOps發(fā)展大會”上,中國信息通信研究院云計算與大數據研究所大數據與智能化部副主任王妙瓊對《面向人工智能的數據治理的實踐指南(1.0)》進行深度解讀。

王妙瓊表示,通用人工智能的快速發(fā)展為數據治理帶來新的挑戰(zhàn),包括更高的數據集質量要求,更復雜的安全與隱私風險,更顯性的偏見與歧視。

具體而言,面向更復雜的數據類型、更多維的評價維度、更冗長的處理環(huán)節(jié),需要進一步構建面向人工智能的數據質量評價體系和質量提升工藝;模型訓練和應用過程中存在諸多安全風險,除去傳統(tǒng)關注的數據丟失、隱私泄露等風險,還需要額外關注數據投毒、逆向還原等更關注內容治理的新型風險;訓練數據集中不易察覺的偏見和歧視信息,會直接影響到訓練結果的輸出,隨著人工智能應用逐步走向產業(yè)化,潛在的道德倫理問題會引起嚴重的后果。

針對這些挑戰(zhàn),面向人工智能的數據治理(DG4AI,Data Governance for Artificial Intelligence)能夠在人工智能應用中管理和控制數據的過程與實踐,以確保數據的質量、可靠性、安全性與合規(guī)性,使得數據能夠被準確地用于訓練和部署AI模型,同時保護數據的隱私和安全。從而保障人工智能高質量應用。

王妙瓊表示介紹,《面向人工智能的數據治理的實踐指南(1.0)》創(chuàng)新性地提出了面向人工智能全生命周期的治理實踐方法,為人工智能場景中數據治理路徑指明了方向,使數據治理的價值能夠在人工智能時代背景下最大化激活。

具體包括:確定應用目標與效果、明確應用場景、澄清數據需求、評估數據獲取難度;制定數據標注流程、明確數據質量標準、考慮合規(guī)和隱私要求、管理規(guī)范持續(xù)更新;數據清洗和標注、特征工程和數據增強、溝通與驗收;數據集持續(xù)維護、洞察數據集構成與分布、版本管理與權限管控;構建監(jiān)控指標體系、持續(xù)優(yōu)化數據集流程。

王妙瓊表示,未來,人工智能數據產業(yè)分工更加明確,供給人工智能所需的數據集產業(yè),在采集、加工、交易、消費等環(huán)節(jié)將更加清晰和成熟,通過市場化的調節(jié)機制合理分配產業(yè)的人才、資金與資源,更高效地推進人工智能應用發(fā)展。

同時,數據治理成為大模型的勝負手,隨著研發(fā)成本的不斷攀升和市場集中度的提高(馬太效應),只有少數企業(yè)可能在這場競爭中勝出。盡管算力和算法方面的技術優(yōu)勢并不明顯,但通過有效的數據治理,企業(yè)仍有可能獲得競爭優(yōu)勢、

此外,隨著DG4AI技術、實踐和理論的成熟,DG4AI將更加標準化與流程化,進而服務化,高效、高質量、安全可控地提供標準的數據產品(數據集、語料庫)。

王妙瓊指出,面向人工智能的數據治理在理論與實踐還處在探索期,目前中國信通院已牽頭在中國通信標準化協(xié)會、國際電信聯(lián)盟(ITU)等立項相關行業(yè)標準、國際標準,后續(xù)還將在技術工具、企業(yè)能力建設以及實踐方法論等方面持續(xù)開展研究、合作與生態(tài)建設工作。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-05-16
信通院云大所:數據治理成為大模型的勝負手
信通院云大所:數據治理成為大模型的勝負手,C114訊 5月16日消息(水易)近日,在由中國通信標準化協(xié)會主辦,中關村科學城管委會支持、中國通信

長按掃碼 閱讀全文