當前,人工智能處在快速發(fā)展的關鍵時期,正在重塑經濟社會發(fā)展模式。2024年中央經濟工作會議指出,開展“人工智能+”行動,培育未來產業(yè)。數據作為人工智能發(fā)展的三大核心要素之一,是人工智能模型訓練的基礎要素,也是人工智能模型應用的核心資源,加快建設人工智能高質量數據集,對于推動“人工智能+”場景落地具有重要意義。
高質量數據集建設存在的問題
高質量數據供給是推動新一代人工智能加快發(fā)展的關鍵要素。當前,面向新一代人工智能的數據供給仍有不足,數據處理專用技術有待進一步突破,數據產業(yè)和數據生態(tài)有待豐富,高質量數據集的整體規(guī)劃和支持政策還有待完善。
首先,通用領域、垂直領域以及具身智能領域的高質量數據供給仍有不足。一方面,中文公開數據在質量和數量方面落后于英文數據。另一方面,我國公共數據開放利用程度有待提高,各地開放標準不統一,專門面向人工智能發(fā)展的高質量行業(yè)數據集仍較匱乏。具身智能領域真實交互數據采集不足,主要原因在于智能機器人與環(huán)境的交互數據獲取困難且成本高昂,同時,企業(yè)采集數據缺乏統一的參照標準。
其次,高質量數據的合成、處理和利用技術亟待提升。利用深度學習和強化學習生成高精確度、多樣化合成數據的技術在成熟度和應用范圍上急需突破。隨著社會自動化和智能化程度的不斷提高,對數據處理的要求也不斷提升,因此急需針對結構化、半結構化和非結構化數據的處理技術進行迭代優(yōu)化,進一步提高數據處理效率。
再次,數據主體和商業(yè)模式發(fā)展尚不成熟。我國缺乏類似美國Databricks和Snowflake“數據+人工智能”模式的高質量數據匯聚和治理主體,具備大規(guī)模數據匯聚管理分析能力的公司數量不足。醫(yī)療、法律、保險、金融、工業(yè)、科研等多個領域的公共數據授權運營主體目前仍在培育中,數據集構建和運營利用的商業(yè)模式發(fā)展還不夠成熟。
最后,高質量數據集的專項規(guī)劃和支持政策有待完善。我國已出臺一系列數據發(fā)展相關指引政策,但是面向新一代人工智能模型訓練和場景應用的高質量數據集專項規(guī)劃和支持政策尚未出臺,其建設、運營、流通、利用等方面舉措有待進一步細化。在數據采集方面,各領域數據缺乏適用的標準規(guī)范;在數據使用方面,缺少面向大模型和具身智能模型訓練的數據共享和流通促進機制,一定程度上限制了模型能力的快速提升。
多措并舉建設高質量數據集
針對當前存在的資源、技術、模式、制度等方面問題,結合新一代人工智能發(fā)展的需要,建議發(fā)揮政府和市場的協同作用,多措并舉推進高質量數據集建設。
一是加快公共數據開放和企業(yè)數據流通,建設面向新一代人工智能的高質量數據集。建議形成部門、行業(yè)、地區(qū)共同參與的協同機制,圍繞高質量數據集建設,擴大數據供給范圍和規(guī)模,完善公共及行業(yè)數據標準,加速可信數據空間建設。面向醫(yī)療、教育、科研、法律、工業(yè)、農業(yè)、物流、金融、能源、交通等重點領域建設大數據中心及大模型行業(yè)應用創(chuàng)新(工程)中心,打破信息孤島,構建完備數據生態(tài),構建高質量數據集,提升垂直領域人工智能模型能力。著眼自動駕駛、具身智能等未來產業(yè)需求,開放相關公共數據,制定行業(yè)數據標準,探索企業(yè)間數據流通機制,鼓勵企業(yè)和研究機構創(chuàng)建高質量行業(yè)數據集。
二是圍繞建設行業(yè)高質量數據集關鍵技術問題加大攻關力度。面向數據合成和處理,加快開發(fā)數據合成、數據治理的關鍵共性技術;面向數據流通匯聚,大力推廣隱私計算、區(qū)塊鏈等技術;面向“數據+人工智能”應用模式,著力開發(fā)數據管理技術,探索新型模型結構和訓練架構。鼓勵面向人工智能的數據產品、數據服務企業(yè)牽頭承擔國家重大項目,開展應用基礎研究和關鍵核心技術攻關。推動產學研合作和創(chuàng)新聯合體建設,打造數據技術、產品和服務深度融合的新型合作模式。面向重點場景,打造數據技術“測試場”,提供真實數據環(huán)境、模擬應用場景,建設中試基地,吸引企業(yè)、高校和科研機構參與數據技術的創(chuàng)新和驗證,加速新技術推廣和應用。
三是引導企業(yè)和商業(yè)模式創(chuàng)新,構建人工智能數據產業(yè)生態(tài)。大力培育人工智能數據資源、技術、服務、應用、安全、基礎設施等多領域企業(yè),重點建設面向人工智能行業(yè)的數據產業(yè)創(chuàng)新平臺。鼓勵企業(yè)基于“數據+人工智能”探索多領域商業(yè)模式,支持企業(yè)與各方合作,打造基于高質量數據集的產業(yè)創(chuàng)新鏈和生態(tài)系統。鼓勵企業(yè)探索大模型和具身智能應用場景,驅動數據產業(yè)發(fā)展。支持模型應用、模型開發(fā)、數據服務、數據產品等相關企業(yè)組建創(chuàng)新聯合體,開發(fā)高質量數據集,發(fā)展“數據即服務”“知識即服務”“模型即服務”等新業(yè)態(tài)。
四是加大人工智能高質量數據集建設政策支持力度。面向新一代人工智能技術開發(fā)和應用發(fā)展需求,完善數據資源構建體系,培育數據產業(yè),支持數據技術發(fā)展,系統推進高質量數據集建設,強化行業(yè)應用。統籌中央和地方財政資金、產業(yè)引導基金和各類政策性投資,加大對高質量數據集建設的投入。鼓勵金融機構創(chuàng)新產品和服務,增加對數據相關企業(yè)的融資支持。引導社會資本有序參與人工智能高質量數據集的開發(fā)利用。
作者:王曉明(中國科學院科技戰(zhàn)略咨詢研究院研究員)
網上經營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.szzhongrui.com all right reserved 技術支持:鋼鏈云(北京)科技發(fā)展有限公司
服務熱線:010-59231580