客户到底需要什么样的产品和服务?客户跟大数据公司的合作模式是什么?这是TalkingData一直在探究的两个终极问题。

对大数据公司来说,大数据的核心是数据,但数据的所有权归企业所有,即使获得使用权,又会存在数据规模和维度上的不足,随着信息化的发展,经济社会成为海量数据的集合,企业对大数据服务的要求也在提高,商业模式如何紧跟时代需求,同时又保持在法律的界限之内,成为大数据公司需要思考的问题。

TalkingData创始人兼CEO崔晓波曾先后担任BEA亚太区电信技术中心总监和Oracle大中国区A&C技术总监,2011年,他创立了TalkingData,他常提到的一个观念是,过去十年大数据领域的发展,其实就是由智能手机所带来的,这是人类历史上第一次出现能够忠实的记录线下所有的足迹和线上所有的行为,并可以完美地将线上和线下的数据连通和打穿的设备。

目前我国智能手机的月活约在13亿,相比去年的12亿,增长已经逐渐停止,但物联网的设备却进入了新一轮的快速增长,去年数量还在40亿,而今年增长到87亿,并随着技术的发展,包括智能手机领域,新的数据类型和场景,如大量的生物特征数据、人脸、DNA以及与人体相关的数据,传感器的数据和机器产生的数据也大量产生。这意味着,大数据的发展并不会停滞,而是会继续呈指数级增长,并相比过去几年结构化数据占比较多的情况,未来将有更多维度和类型的数据出现,如何管理非结构化数据并与结构化混在一起用,以及新的场景还原和场景预测的需求,都会是大数据行业面临的新挑战。

据工信部发布的《大数据产业发展规划(2016-2020年)》,到2020年大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持30%左右。但从实际情况来看,这一天可能会到来的更快。

与之而来的是,面对新的形势,大数据公司该如何应对?随着云计算的发展,传统大数据所面临的存储和计算力问题都迎刃而解,大数据公司也得以回归本心——如何为企业提供商业价值?以及更进一步,其商业模式是否适合接下来的发展。

数据共享

2018年以来,数据中台成了崔晓波听到过最多的词之一,几乎所有的企业客户在交流中,都会说自己在做数据中台,但却又各自说的不一样。另一方面,目前行业头部企业大多已经从大数据中获益,比如TalkingData的某家快餐连锁企业客户,通过给几千家门店提前一天准确预测出第二天分小时的进店客流,以及原材料的消耗数,每年可以节省数亿的成本。但对中小餐饮业企业来说,却难以进行模仿,因为这个数据模型用到了14个数据源,不仅有企业自己的,还有TalkingData的数据、运营商数据、腾讯的数据等,缺乏基础设施的中小企业难以实现。

客户到底需要什么样的产品和服务?客户跟大数据公司的合作模式是什么?这是TalkingData一直在探究的两个终极问题。如何将头部企业探索出来的能力和方法,更好地去赋能整个产业链里的中小企业,崔晓波认为是TalkingData未来几年要重点解决的问题,而要让已经实现了的商业价值能够顺利流畅的传递,就要靠“数据中台”来解决。

从两年前,TalkingData在实际业务中就发现,单一的数据源很难解决问题,最好的解决方案是在安全可靠的环境下,将不同的数据源连接在一起共同建模。“所以我们强调不是谁拥有这个数据。大家以前有个误区,觉得建数据平台是你把数据给我,我把数据给你。随着大家对数据安全越来越重视,这种可能性非常低。第二数据不整合在一起用也没有什么价值,所以这时候连接能力就变得非常关键。”

企业对大数据的第一印象往往是数据库、数据中心,用于管理自身的数据,包括数据的处理、加工、清洗、标准化,到简历各种特征建模对应各种场景,比如企业选址、解决销量预测或者反欺诈、风险管理、以及政府分析宏观人口流动趋势的问题等,这也是大多数大数据从业公司,包括TalkingData数据智能平台1.0所主要解决的问题。

如果要连接更多的数据源,由于《网络安全法》颁布后尚无进一步的细则,数据连接还是许多从业公司不敢做的一件事情,崔晓波描述目前市场分两类,其中一类就是无视规则的黑产,而正规公司却摸不清楚合规的界限在哪里。但他也表示,TalkingData和国家相应部门沟通比较多,实际上国家鼓励数据互联互通,政府部门之间数据也需要互联互通。

TalkingData不久前发布的数据智能平台2.0版,在内部也叫TalkingData数据中台,崔晓波表示,这是一个中立的第三方数据平台,而且非常开放,除了提供数据管理、数据工程以及数据科学的能力外,也顺应企业新的需求:连接、安全、共享。

这个平台会强调连接更多的数据源,并推出了连接模块,做合法合规的连接。而数据智能商店,可以把共享服务放到一起,提供统一的计量、计价,用户可以通过平台去共享,实际上,各行业许多具体场景的应用都已经被不同的企业反复探索过,比如客流模型或者评分系统,这可以大大减少中小企业的成本。

在定位上,首先是连接,而不是拥有。崔晓波说,企业间谁也不会拥有谁的数据,不管是从成本还是安全的角度,都不可能。在去年TalkingData承接了国家1142数联网整体示范工程,一期已经完成,这有望成为未来大数据行业数据交换的基础,建立强调数据连接,将所有的身份进行匹配、映射的体系。

其次是安全。如果寄希望于将所有数据整合集中到一起,无疑是不够现实的,首先不可能所有的企业都愿意这么做,其次在这个过程中,潜在的漏洞太多,崔晓波认为,解决安全问题的核心是数据不动,通过算法流动来解决。TalkingData数联网的基础框架,就是利用TalkingData积累的70亿个TDID(完全进行脱敏和隐私保护的ID),通过做成ID-Mapping的服务和算法,放到个各个数据源帮助做数据的匹配和打通,来解决隐私数据的问题。

实际应用中如何保证在建模的时候数据不会发生泄漏呢?首先是探索的过程中,提供类似安全沙箱的环境,发布之后会通过麻省理工学院提出的开放算法库框架(OPAL)让模型在各个分布数据的地方跑,而不需要放到物理环境里面来解决联合问题。通过这种方式,企业的原始数据、标签和敏感数据不需要出去,只需要给出评分、模型,上层会有全局数据模型调整权重,就能解决问题。

最后是共享“为什么要做中台?就是因为大家要用同样的服务,要用同样的基础设施,碰到同样的问题,大家觉得没有必要重复去造轮子,所以要打造一个中台,把需要共享所有的能力放到中间让大家重复去利用,这个时候才叫中台。”崔晓波从业几十年来,一直感慨于业内热衷于造轮子,这固然有出于商业竞争的考虑,但他认为在数据时代有这种思想一定会失败的。“为什么?因为数据大家都明白,跟做软件不一样,你要把数据混起来、聚合起来才能发挥业务价值,所以这两种思想是绝对不一样的。”

而他也将共享能力划定为检验中台是否成功的唯一标准,TalkingData通过数联网建立共享的中台体系中,数据匹配度可以从69%提升到90%,标签维度也从700个提升到5000个,而且在不断扩充,目前TalkingData和许多数据提供方都有联合的建模环境、四方建模环境。

资本合作

在2017年,TalkingData拿到了京东的融资,采访中,崔晓波表示选择京东是因为“京东在数据开放上走的是最好的,这是我们选择与京东合作的原因,TalkingData是一家创业公司,需要迅速整合线上的资源和能力”,随着互联网战役的尘埃落定,战场正从线上转向线下,投资和合作也成为整合资源、快速发展的重要途径。

作为一家创业企业,TalkingData目前有近600名员工,55%是技术人员,但依旧陷入了产能不足的问题,因此在共同发展的前提下竞争,跟合作伙伴在一起维持住商业模式和毛利,是生存的必要条件。之前在跨国公司的从业经历让崔晓波学到了两点,第一是与其他企业的合作,第二是使用资本杠杆,靠投资和并购来完成快速扩张。“中国已进入数据时代,企业核心竞争力是数据,数据中台也好,数据平台也罢,提供的是一个核心能力,基于这一核心能力需要和别人互利共赢。简单说就是如何管理渠道、管理合作伙伴,这是中国企业首先要过的一关。第二才是如何把这个东西做大,其后才是生态环节。”这种资本上你中有我、我中有你的关系,崔晓波认为,会是未来的常态。

除了接受融资外,TalkingData也投资了不少包括国外的技术研究公司,比如有一家基于芯片和手机传感器研究动作识别的公司,就拥有目前国内尚存在空白的底层技术。在国内,TalkingData更关注可以应用技术创造价值的公司,一类是在数据源配合上有关键作用的,拥有独有数据源或拥有独有数据源采集分析加工能力的公司,他们所投资的Basic Finder就是一家在AI领域做基础服务的初创企业,可以提供底层的数据标注、数据集管理等,崔晓波说自己第一次去这家企业的时候“呆住了”,因为他看到了包括人脸识别、自动驾驶、无人货架等1000个左右的AI模型,而这类数据公司,他认为很快会成长为数据应用公司,是下一代的数据应用入口。此外在特定行业能力非常强的公司也是他们投资的热点,比如已投的两家基础医疗数据的初创公司,这些公司可以做到在细分领域的落地,而TalkingData也可以实现对他们的大数据赋能,包括在数据中台的能力,和由TalkingData的直销团队进行客户覆盖、导入。

但不同于提倡为自己做平台和生态的大小巨头,TalkingData的定位就是中间环节,不做生态,对接合作伙伴、客户的应用以及解决方案,解决场景的问题,实现数据共赢。“现在数据时代谁都幸免不了,如果你不能加入整个互联互通体系里面,最后肯定是输。所以很多有远见的大企业都在想要么建立一个(互联互通体系),要么加入一个。”崔晓波说。

作者 | 李昊原

微信编辑 | 周星如

审稿编辑 | 正月

查看原文 >>
相关文章