財聯社記者最新從國家數據局方面了解到,今年上半年,全國各地已建設高質量數據集超過了3.5萬個,總體量超過400PB。截至目前,全國各地高質量數據集累計交易額已達40億元,交易機構掛牌3364個高質量數據集,總規模達到246PB。
國家數據局方面透露,為推進高質量數據集的建設,國家數據局布局建設成都、沈陽等七個數據標注基地,目前國內多數模型訓練使用的中文數據占比達到了60-80%,中文高質量數據的開發和供給能力顯著增強。
同時,人工智能模型訓練正推動數據交易需求上升。以北京數交所為例,高質量數據集占交易總量的比例從去年10%左右提升到目前的近80%。上海、天津、安徽等地正在試點“數據語料作價入股”模式,引導企業將高質量數據集折算為股權投入新企業。
此外,國家數據局強調高質量數據集建設基礎保障。通過建立健全數據基礎制度,加快建設數據基礎設施,推進公共數據開發利用,布局攻關數據領域核心技術,完善數字人才培養體系等一系列組合拳和體系化的布局,持續推進數據要素市場化改革和“人工智能+”行動同頻共振,聯合各部門創新工作模式,構建部門協同的工作制度,協同發力,聯合施策,積極引導做好高質量數據集建設工作。
國家數據局稱,下一步將加快打造重點領域,以及具身智能、低空經濟、生物制造等領域數據高地。
財聯社記者了解到,大模型能力邊界幾乎完全由數據的質量、規模和安全性來定義,數據是提升模型能力的關鍵和模型訓練的基礎,也是拓展智力上線和性能優化的支撐,高質量數據將有效降低模型幻覺。
“很多專家說當前的技術條件下,人工智能的發展體現出很強的數據驅動特色。數據決定了大模型的性能上限。”劉烈宏表示。
此次數博會,財聯社記者注意到,在智算服務器領域表現突出的超聚變2024年起發力數據層面,目前已構建了統一的資產與數據安全管理體系。
超聚變CIO、城企數智事業部總裁藍文廣表示,新一代AI+數據技術改變了從業務到數智化的生產方式、業務設計與數智化實施方法框架并重構所有的業務及應用。據悉,在企業服務領域,超聚變推出的xIBT業務變革與數智化轉型解決方案,依托100+場景智能體,將企業業務流程深度融入智能體架構。
財聯社記者從中國電科集團旗下的中國司法大數據研究院有限公司(以下簡稱“中國法研”)方面了解到,研究院為我國公共數據資源授權運營的先行先試單位,在司法領域高質量數據集建設方面,組織法律專業知識專家、法律從業者和高校法律學生共同組成數據標注團隊,構建了基于法律知識體系指引的數據標注系統,通過“人機協同”方式,開展了專業領域數據標注。
中國法研以積累的“法律法規、司法解釋、指導案例、公開文書”等作為基礎數據源,結合司法領域專業知識和應用場景需要,歸納和整理形成“法律問答、法條推薦、案件認知”等在內的27類司法語料庫,共計600萬對精調語料;同時,針對檢索增強生成,基于法律實務(文書)和專家觀點數據,構建了超2億條法律行業知識。
公開信息顯示,作為產業鏈“鏈主”,目前三大運營商以數據專業公司為立腳點,致力于構建高質量數據集。其中中國移動已建成覆蓋32個行業、超3500TB通用高質量數據集。
財聯社記者了解到,在上述《指引》發布背后,高質量數據集的建設仍面臨諸多挑戰。
余曉暉稱,目前全國已建成超過3.5萬個數據集,Token消耗量呈高速增長態勢,中央、地方和行業層面也在積極推動相關工作。然而,實踐中仍面臨諸多挑戰,如數據供給、技術、治理體系和標準等問題亟待解決。
中國法研總經理專項助理李曉智在采訪中告訴財聯社記者,現實應用中,數據的合法性和數據保護問題客觀上增加了數據集建設的難度,技術瓶頸仍然存在,當前的算法和工具仍無法有效解決數據標注的高成本和低效率問題,尤其是在人力資源有限的情況下,如何高效、準確地完成大規模數據集的標注和清洗仍是關鍵問題。
據悉,高質量的領域語料建設,是一項領域知識密集型工作,需投入大量的領域專業人員。李曉智介紹,雖然現在中國法研已經形成一套人機結合的語料構建、質量檢測方法,但是人工勞動還是占語料構建30%+以上的工作量。后續中國法研考慮基于法律大模型聯盟形成“數據伙伴”團隊以及中國法研CNAS測評團隊,共同進行行業語料集建設和評價,希望國家相關部門能夠予以頂層指導和政策支持。
吳世忠研究員亦在其演講中提到了數據來源的合法性風險。
同時吳世忠表示,數據內容面臨可靠性風險,現實中數據集經常面臨低質噪聲、失實性錯誤甚至價值觀的偏差;數據供應鏈方面存在風險,“應高度關注篡改的隱患,數據集從采集、標注、實用多個環節,數據供應商,外包標注團隊、云平臺等等,任何漏洞都可能成為攻擊的入口”;數據使用方面面臨倫理風險,“嚴防濫用與失控潛在危險,即使數據集本身合法合規,如果缺乏對使用場景的約束,也可能引發問題及某些包含生物特征的數據,人臉照片,影音片斷,生成類的大模型導致深度偽造方面的技術濫用,這方面的例子出現了很多。”
網上經營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.szzhongrui.com all right reserved 技術支持:鋼鏈云(北京)科技發展有限公司
服務熱線:010-59231580