近日,“數·算·網”融合發展暨粵港澳大灣區(南山·前海)算力服務聯盟第一期交流研討會在南山區英特爾大灣區科技創新中心召開。本次研討會由南山區科技創新局和前海管理局政務數據處指導支持,國家(深圳·前海)新型互聯網交換中心、深圳數據交易所、英特爾大灣區科技創新中心共同承辦,匯聚了政府主管領導、企業大咖和業界專家,圍繞粵港澳大灣區數據、算力、網絡產業鏈的深度合作與創新展開熱烈研討,旨在搭建資源共享、優勢互補、技術轉化、應用創新的高端對話平臺,推動灣區數字經濟邁向新高度,助力粵港澳大灣區人工智能訓練場建設。

會上,深圳數據交易所(以下簡稱深數所)發佈了大模型訓練數據路線圖,並聯合開放算料聯盟發佈500個垂直行業多模態算料集。深圳數據交易所人工智能行業主管王吳越進行了主旨發言,並展示了深數所助力粵港澳大灣區人工智能訓練場建設的行業實踐。

王吳越表示,在數字經濟時代,“數據要素×”與“人工智能+”成爲推動新質生產力的雙輪驅動,共同引領着經濟社會的進步與發展。數據作爲一個高效的“乘法”因子,能夠與不同行業結合,顯著提升行業的生產效率或創新能力,而人工智能技術則通過“加法”方式爲傳統產業帶來漸進式的改進和優化,兩者相互交織,共同成爲數字經濟發展的雙翼。

王吳越介紹了以數據爲中心的人工智能(Data-Centric AI)發展理念併發布了大模型訓練數據路線圖。深數所將按照大模型應用的不同階段(訓練、推理、調優),有的放矢地提供數據源,使得國產大模型廠商“尋數有路”。

據介紹,目前,開放算料聯盟&開放羣島大模型SIG在“數據要素×”與“人工智能+”雙輪驅動發展取得的成果:一是發佈了粵港澳大灣區大模型訓練數據地圖;二是提供了端到端的跨模態數據挖掘開源工具;三是構建了數據資源價值發現智能體。

隨後,深數所與開放算料聯盟聯合發佈了由37家不同的數據商提供的,首批500個人工智能大模型高質量訓練數據集,涵蓋12個“數據要素×”領域,3家境外數據商,7類數據模態(文本、圖像、音頻、視頻、多模態、3D、GIS等),本批數據集首次匯聚了來自中國氣象局、中國知網、中譯語通、萬邦同和、微夢數據(新浪微博)、前海數據、海天瑞聲、拓爾思、數據堂、智慧芽、網智天元、柏川數據、深信科技等數據商的數據集作爲大模型算料。其中大部分算料爲全國首發。

會上,深圳數據交易所公開了高質量數據集的可信流通渠道,具體包括以下環節:第一步,繪製大模型訓練數據資源地圖,爲數據交易提供清晰的導航;第二步,數據商正式入駐深數所,由數據交易所提供堅實的平臺支持;第三步,數據商進行可信的質量評測,確保數據的準確性和可靠性;第四步,合規審覈與產品上市,爲數據的安全流通提供保障;第五步,數據要素流通交易,實現數據的價值轉化。這一系列流程構成了高質量數據集從歸集到交易的完整可信路徑。

未來,深數所將充分發揮“雙區”驅動、“雙區”疊加、“雙改”示範效應,堅持創新引領,爲國產大模型廠商提供燃料,並攜手大模型廠商在數據要素×重點行動領域共建垂直行業大模型數據應用。

責任編輯:張恆星 SF142

相關文章