海天瑞聲CEO王曉東：大模型時代來臨，數據服務市場將重新洗牌｜最前線

文｜林煒鑫

編輯｜鄧詠儀

5月26日，海天瑞聲在北京召開媒體見面會，CEO王曉東宣佈品牌升級戰略，公司保留中文名稱“海天瑞聲”，將英文名“Speechocean”更改爲“Dataocean AI”，並啓用了全新logo。

海天瑞聲是國內AI訓練數據專業提供商，致力於爲AI產業鏈的各類機構提供AI算法模型開發所需的專業數據。

王曉東表示，海天瑞聲靠語音數據業務起家，逐步擴大業務範圍，現在已經實現了語音、圖像、文本全覆蓋，公司的目標是爲客戶提供高質量數據。“現在叫數據時代，需要新基建，”王曉東說，“我們公司提供高質量水泥，數據時代新基建建設的基礎，都需要數據。”

同時，海天瑞聲也將首次免費開放DOTS-MM-0526多模態數據集，包括音頻、視頻、文本等信息，希望藉此爲中國人工智能開放生態建設貢獻力量。

海天瑞聲CTO黃宇凱介紹了公司自研的專爲自動駕駛設計的數據標註平臺“DOTS-AD自動駕駛標註平臺”。該標註平臺全面支持2D、3D、4D電暈或圖像數據標註；支持自動化標註，數據標註效率將提升8倍；智能化管理數據，確保客戶的商業數據安全合規。

眼下大模型勢頭正盛，衆多科技公司紛紛佈局大模型。王曉東認爲，由於大模型的出現，“整個數據服務市場將重新洗牌，集中度也將進一步提升。”市場將逐步淘汰研發弱、資源差的一些中小玩家。

面對多家巨頭下場的激烈競爭，海天瑞聲擁有自身的技術壁壘。王曉東以語音數據爲例，公司有專門的團隊在全球採集各種語言數據，“我們有我們的語言專家，有大量的資源”。王曉東表示，目前公司擁有190多種語言數據。

大模型也將進一步影響相關的數據服務。黃宇凱告訴36氪，大模型的訓練主要分爲兩個階段，第一階段叫預訓練，對數據採集和數據清洗有很高的要求，“不是越多越好”；第二階段叫微調或對齊階段，需要高質量的prompt（指令），“非常難寫”，prompt決定了訓練效果，因此標註人員的自身素質也很重要。大模型時代，技術更新迭代的速度很快，黃宇凱說，“我們非常激動，當然這裏面也有很多機會。”

海天瑞聲CEO王曉東：大模型時代來臨，數據服務市場將重新洗牌｜最前線

熱門新聞

週熱門

海天瑞聲CEO王曉東：大模型時代來臨，數據服務市場將重新洗牌｜最前線

中國版“星鏈”還要十年？

從19萬個應用中，看懂AI應用的潮流湧向

快速擴張的即時時尚產業，會帶來哪些危險?

大模型開閉源爭吵不休：開源落後閉源一年，決定模型能力的不是技術？

8點1氪丨問界回應車輛起火司乘3人遇難；日元匯率持續下跌，一顆白菜漲價到100元；淘寶、京東均取消618預售模式

菜鳥贏了場官司，站長們卻高興不起來

人形機器人的風來了？一季度融資額32億美元，同比接近翻倍

點評微信更新的9個功能

雷軍與周鴻禕：「網紅」濾鏡下的焦慮

8點1氪丨小米汽車48小時內收到5000份簡歷；蘋果或已停止升級Mac起步內存；周鴻禕將舉辦線下拍賣會出售邁巴赫

何小鵬：小米的營銷不好學，企業要找到自己的基因｜北京車展

擠地鐵的首富

氪星晚報｜喜茶聯合中國茶葉流通協會、飛豬發佈6條新茶飲文旅線路攻略；支付寶全新AI產品開啓灰測，支持掛號訂票點外賣等30多項辦事服務；B站發佈國內首個免費數字分身定製工具“必剪Studio”

硅谷研究院院長：現在的人工智能有四大缺陷，但是也有五大潛力應用方向

微軟Q3業績會實錄：有信心將投資轉化爲未來的第二次成功

熱門新聞

週熱門