文|林炜鑫

编辑|邓咏仪

5月26日,海天瑞声在北京召开媒体见面会,CEO王晓东宣布品牌升级战略,公司保留中文名称“海天瑞声”,将英文名“Speechocean”更改为“Dataocean AI”,并启用了全新logo。

海天瑞声是国内AI训练数据专业提供商,致力于为AI产业链的各类机构提供AI算法模型开发所需的专业数据。

王晓东表示,海天瑞声靠语音数据业务起家,逐步扩大业务范围,现在已经实现了语音、图像、文本全覆盖,公司的目标是为客户提供高质量数据。“现在叫数据时代,需要新基建,”王晓东说,“我们公司提供高质量水泥,数据时代新基建建设的基础,都需要数据。”

同时,海天瑞声也将首次免费开放DOTS-MM-0526多模态数据集,包括音频、视频、文本等信息,希望借此为中国人工智能开放生态建设贡献力量。

海天瑞声CTO黄宇凯介绍了公司自研的专为自动驾驶设计的数据标注平台“DOTS-AD自动驾驶标注平台”。该标注平台全面支持2D、3D、4D电晕或图像数据标注;支持自动化标注,数据标注效率将提升8倍;智能化管理数据,确保客户的商业数据安全合规。

眼下大模型势头正盛,众多科技公司纷纷布局大模型。王晓东认为,由于大模型的出现,“整个数据服务市场将重新洗牌,集中度也将进一步提升。”市场将逐步淘汰研发弱、资源差的一些中小玩家。

面对多家巨头下场的激烈竞争,海天瑞声拥有自身的技术壁垒。王晓东以语音数据为例,公司有专门的团队在全球采集各种语言数据,“我们有我们的语言专家,有大量的资源”。王晓东表示,目前公司拥有190多种语言数据。

大模型也将进一步影响相关的数据服务。黄宇凯告诉36氪,大模型的训练主要分为两个阶段,第一阶段叫预训练,对数据采集和数据清洗有很高的要求,“不是越多越好”;第二阶段叫微调或对齐阶段,需要高质量的prompt(指令),“非常难写”,prompt决定了训练效果,因此标注人员的自身素质也很重要。大模型时代,技术更新迭代的速度很快,黄宇凯说,“我们非常激动,当然这里面也有很多机会。”

相关文章