文 | 中國科學(xué)院科技基礎(chǔ)能力局副局長、自動化研究所副所長 曾大軍
人工智能技術(shù)的突破性進展正深刻重塑全球產(chǎn)業(yè)格局,而高質(zhì)量數(shù)據(jù)集作為人工智能模型訓(xùn)練與應(yīng)用的基石,已成為國家科技發(fā)展的核心要素。2024年中央經(jīng)濟工作會議明確提出“人工智能+”行動,標(biāo)志著數(shù)據(jù)要素的戰(zhàn)略地位從“支撐”升級為“引領(lǐng)”。高質(zhì)量數(shù)據(jù)集不僅是技術(shù)創(chuàng)新的“燃料”,更是推動超級人工智能、具身智能、自動駕駛等未來產(chǎn)業(yè)落地的關(guān)鍵引擎。
建設(shè)高質(zhì)量數(shù)據(jù)集面臨的挑戰(zhàn)
當(dāng)前,高質(zhì)量數(shù)據(jù)供給的結(jié)構(gòu)性矛盾亟需改善,數(shù)據(jù)合成技術(shù)鏈與產(chǎn)業(yè)鏈的協(xié)同有待加強,數(shù)據(jù)治理與隱私保護的規(guī)范性缺乏行業(yè)標(biāo)準(zhǔn),數(shù)據(jù)發(fā)展政策與規(guī)劃有待進一步細(xì)化。
首先,我國在醫(yī)療、法律、工業(yè)、科學(xué)等行業(yè)的高質(zhì)量數(shù)據(jù)集存在供給性矛盾,公共數(shù)據(jù)開放程度低且標(biāo)準(zhǔn)不統(tǒng)一。以工業(yè)領(lǐng)域為例,大量數(shù)據(jù)因企業(yè)間壁壘未被有效利用。具身智能領(lǐng)域也存在數(shù)據(jù)采集瓶頸,真實場景數(shù)據(jù)獲取成本高昂,缺乏統(tǒng)一的標(biāo)注和評估標(biāo)準(zhǔn),這嚴(yán)重制約了相關(guān)技術(shù)的發(fā)展與應(yīng)用,使得人工智能在這些領(lǐng)域的模型訓(xùn)練和優(yōu)化面臨數(shù)據(jù) “瓶頸”,難以充分發(fā)揮其潛力,進而影響了我國人工智能在各垂直領(lǐng)域的整體發(fā)展進程。
其次,數(shù)據(jù)合成技術(shù)連和產(chǎn)業(yè)鏈的協(xié)同不足,面臨質(zhì)量與效率的雙重困境。通過人工智能生成多樣化合成數(shù)據(jù)的技術(shù)成熟度較低,難以滿足大模型訓(xùn)練對于海量、多樣化數(shù)據(jù)的需求。同時,商業(yè)模式相對滯后,缺乏成熟的 “人工智能+數(shù)據(jù)” 平臺,數(shù)據(jù)匯聚與治理主體尚未成熟,無法有效整合各方資源,形成協(xié)同發(fā)展的良好生態(tài)。
再次,數(shù)據(jù)發(fā)展政策存在“有框架缺細(xì)則”的結(jié)構(gòu)性缺陷。雖然我國已經(jīng)推出了一系列促進數(shù)據(jù)發(fā)展的政策與規(guī)劃,但針對人工智能新一代高質(zhì)量數(shù)據(jù)集專項規(guī)劃尚未落地,數(shù)據(jù)流通機制與標(biāo)準(zhǔn)亟需細(xì)化。在生態(tài)建設(shè)方面,尚未形成完善的、涵蓋數(shù)據(jù)采集、標(biāo)注、存儲、管理、應(yīng)用等全鏈條的生態(tài)系統(tǒng),各環(huán)節(jié)之間的銜接不夠緊密,協(xié)同效應(yīng)不足。
最后,數(shù)據(jù)治理與隱私保護機制尚不完善。一方面,數(shù)據(jù)安全法律法規(guī)尚不完善,數(shù)據(jù)產(chǎn)權(quán)界定不清晰,數(shù)據(jù)交易規(guī)則和監(jiān)管機制不健全,導(dǎo)致數(shù)據(jù)濫用、數(shù)據(jù)泄露等風(fēng)險頻發(fā),嚴(yán)重威脅個人隱私和企業(yè)商業(yè)秘密;另一方面,數(shù)據(jù)治理技術(shù)手段相對滯后,數(shù)據(jù)分類分級、數(shù)據(jù)脫敏、數(shù)據(jù)加密等技術(shù)應(yīng)用不足,難以滿足數(shù)據(jù)全生命周期的安全管理需求。
以落地為導(dǎo)向,推進高質(zhì)量數(shù)據(jù)集建設(shè)
針對建設(shè)高質(zhì)量數(shù)據(jù)集存在的供給、技術(shù)、政策與機制等方面的問題,結(jié)合“人工智能+”政策指引,建議以落地為導(dǎo)向,切實推進高質(zhì)量數(shù)據(jù)集建設(shè)。
一是加強數(shù)據(jù)供給與流通。建議由相關(guān)部門推動公共數(shù)據(jù)的開源開放,擴大數(shù)據(jù)供給范圍與規(guī)模,特別是在醫(yī)療、教育、科研、法律、工業(yè)、農(nóng)業(yè)等重點領(lǐng)域,促進數(shù)據(jù)共享與流通。同時,企業(yè)間的合作與數(shù)據(jù)流通機制亟需完善,行業(yè)間應(yīng)共同制定數(shù)據(jù)標(biāo)準(zhǔn),打破數(shù)據(jù)孤島,構(gòu)建完備的數(shù)據(jù)生態(tài)體系。
二是完善政策支持體系,加大財政資金投入。政府應(yīng)通過完善政策體系,進一步推動高質(zhì)量數(shù)據(jù)集建設(shè),重點支持?jǐn)?shù)據(jù)資源的構(gòu)建和數(shù)據(jù)技術(shù)的研發(fā)。應(yīng)統(tǒng)籌中央和地方的財政資金、產(chǎn)業(yè)引導(dǎo)基金,加大對數(shù)據(jù)產(chǎn)業(yè)的政策扶持,尤其是在數(shù)據(jù)集建設(shè)、數(shù)據(jù)技術(shù)發(fā)展、數(shù)據(jù)平臺建設(shè)等方面。通過政策激勵,吸引更多社會資本參與到數(shù)據(jù)資源的開發(fā)與應(yīng)用中,為人工智能技術(shù)創(chuàng)新提供資金保障和政策支持。
三是構(gòu)建專業(yè)人才隊伍,提升數(shù)據(jù)科學(xué)與人工智能技術(shù)能力。高質(zhì)量數(shù)據(jù)集建設(shè)離不開人才的支撐,建議加強數(shù)據(jù)科學(xué)與人工智能領(lǐng)域的專業(yè)人才培養(yǎng)。通過優(yōu)化教育體系,設(shè)置針對數(shù)據(jù)生成、自動化標(biāo)注、領(lǐng)域建模等關(guān)鍵技術(shù)的課程和實踐項目,培養(yǎng)學(xué)生的數(shù)據(jù)處理與分析能力。同時,加強在職人員的技能提升,尤其是在數(shù)據(jù)處理和人工智能領(lǐng)域的能力建設(shè),以適應(yīng)快速發(fā)展的技術(shù)需求,為高質(zhì)量數(shù)據(jù)集建設(shè)提供人才保障。
四是建設(shè)國家級數(shù)據(jù)要素平臺,強化基礎(chǔ)設(shè)施支持。建議建立集數(shù)據(jù)資源、計算能力與人才為一體的國家級數(shù)據(jù)要素平臺,作為人工智能創(chuàng)新和應(yīng)用的基礎(chǔ)設(shè)施。該平臺應(yīng)整合全國范圍內(nèi)的高質(zhì)量數(shù)據(jù)資源,覆蓋醫(yī)療、工業(yè)、交通等多個領(lǐng)域,提供豐富的數(shù)據(jù)素材和強大的計算支持,助力人工智能模型的訓(xùn)練與優(yōu)化。同時,平臺應(yīng)匯聚數(shù)據(jù)科學(xué)與人工智能領(lǐng)域的專業(yè)人才,推動跨行業(yè)的技術(shù)交流與合作,為高質(zhì)量數(shù)據(jù)集建設(shè)提供全方位支撐。
五是加強隱私保護機制,確保數(shù)據(jù)安全與合規(guī)性。建議加強數(shù)據(jù)隱私保護法律法規(guī)的建設(shè),明確數(shù)據(jù)產(chǎn)權(quán)和交易規(guī)則,推動數(shù)據(jù)泄露、濫用等風(fēng)險的防控。通過出臺嚴(yán)格的數(shù)據(jù)隱私保護政策,要求企業(yè)和科研機構(gòu)在數(shù)據(jù)收集、存儲、使用等環(huán)節(jié)遵循數(shù)據(jù)最小化原則,確保用戶隱私不被侵犯。同時,推動數(shù)據(jù)治理技術(shù)的研發(fā)與應(yīng)用,如數(shù)據(jù)脫敏、加密技術(shù)、匿名化技術(shù)等,確保數(shù)據(jù)在全生命周期內(nèi)的安全性和合規(guī)性。(來源:國家數(shù)據(jù)局)
附件:

贛公網(wǎng)安備36092502000005號