文|林煒鑫

編輯|鄧詠儀

5月26日,海天瑞聲在北京召開媒體見面會,CEO王曉東宣佈品牌升級戰略,公司保留中文名稱“海天瑞聲”,將英文名“Speechocean”更改爲“Dataocean AI”,並啓用了全新logo。

海天瑞聲是國內AI訓練數據專業提供商,致力於爲AI產業鏈的各類機構提供AI算法模型開發所需的專業數據。

王曉東表示,海天瑞聲靠語音數據業務起家,逐步擴大業務範圍,現在已經實現了語音、圖像、文本全覆蓋,公司的目標是爲客戶提供高質量數據。“現在叫數據時代,需要新基建,”王曉東說,“我們公司提供高質量水泥,數據時代新基建建設的基礎,都需要數據。”

同時,海天瑞聲也將首次免費開放DOTS-MM-0526多模態數據集,包括音頻、視頻、文本等信息,希望藉此爲中國人工智能開放生態建設貢獻力量。

海天瑞聲CTO黃宇凱介紹了公司自研的專爲自動駕駛設計的數據標註平臺“DOTS-AD自動駕駛標註平臺”。該標註平臺全面支持2D、3D、4D電暈或圖像數據標註;支持自動化標註,數據標註效率將提升8倍;智能化管理數據,確保客戶的商業數據安全合規。

眼下大模型勢頭正盛,衆多科技公司紛紛佈局大模型。王曉東認爲,由於大模型的出現,“整個數據服務市場將重新洗牌,集中度也將進一步提升。”市場將逐步淘汰研發弱、資源差的一些中小玩家。

面對多家巨頭下場的激烈競爭,海天瑞聲擁有自身的技術壁壘。王曉東以語音數據爲例,公司有專門的團隊在全球採集各種語言數據,“我們有我們的語言專家,有大量的資源”。王曉東表示,目前公司擁有190多種語言數據。

大模型也將進一步影響相關的數據服務。黃宇凱告訴36氪,大模型的訓練主要分爲兩個階段,第一階段叫預訓練,對數據採集和數據清洗有很高的要求,“不是越多越好”;第二階段叫微調或對齊階段,需要高質量的prompt(指令),“非常難寫”,prompt決定了訓練效果,因此標註人員的自身素質也很重要。大模型時代,技術更新迭代的速度很快,黃宇凱說,“我們非常激動,當然這裏面也有很多機會。”

相關文章