有人说,大数据火了多久,数据相关性弱、数据质量不高、数据处理过程复杂等问题就存在了多久。人工智能时代的到来不仅加剧了已有问题,也引入了一些新的难题,一方面,当前人工智能仍重度依赖数据,如何让大数据更好地服务于人工智能应用;另一方面,如何利用好人工智能这个工具让大数据的处理变得更加高效?在友盟+主办UBDC全域大数据峰会前期,InfoQ对【友盟+】CDO李丹枫进行了专访,探讨了在 AI 时代下,【友盟+】数据智能的生意经。

截止 2018 年Q1,【友盟+】服务 150 万款 App,710 万个网站,每天触达设备达到 14 亿。存量数据高达55PB,什么概念呢?如果拿一张 A4 纸,正反两面写满数字,把 A4 纸叠起来可以装 15 万辆卡车。

【友盟+】数据仓库有19000 张数据表。对于数据的挖掘、分析和运算,每天的运算量需要2 万个计算单元,相当于200个地球上的100亿人24小时的不间断的运算。如此庞大的数据量,一方面我们获得了天然的数据体量优势,另一方面,也给数据治理与整合、数据产品和数据团队带来了前所未有的挑战。均亿数据,如何实现高效计算?

Q:数据治理与整合,是如何实现的?

在数据整合方面,【友盟+】运用全域数据打通能力,将移动、PC、线下等跨终端、多场景数据打通,让数据实现了全域融合。

数据处理方面: 我们每天有几十亿个 ID 的数据回溯到数据训练平台上,这背后是巨大的计算量和计算资源的占用,对于数据工程师来说最重要的是需要协助数据科学家搭建有效的数据生产环境,保证计算的稳定性。

因此,数据全量更新或按需更新的选择直接决定了存储和计算资源的消耗量,也就是成本。 我们提出了“代码健康度”的概念,让数据团队一定要用最高效的方法来实现计算。尤其在数据体量巨大的场景下,比如说 100 亿个 ID,如果每个计算能提高 1%,能节省的资源是很大的。

在数据价值的挖掘工程中,我们也形成了一套高效的底层架构,例如数据清洗,打通后形成统一的宽表,建立 Universal User(device) Profile。绝大多数的数据挖掘和建模都基于这个 Profile。实现了和产品层面的隔离之后,产品的更新就不会影响后面的建模。我们还提供了完善的回溯功能,可以让用户的 Profile 回到历史上的任意一天(当然,有一个最早的可回溯点),这对严格意义上的建模是非常有意义的,有些场景是必备的功能,如在我们的金融风控场景中,是否可以回溯决定了模型效果的可信度。

Q:在高数据体量下,如何定义和实现高效计算?数据质量如何把关?

对于大数据的高效计算包括存储的高效,查找的高效和代码的高效。刚刚提到我们的表有19000 张,55PB,显然任何存储的优化都会带来巨大的经济效益。例如,我们所做的标签 ID 化,就可以在很多表上节约 70% 的空间。

高效的查找,是指对每一个生产表打标签,建立数据地图,这样我们就可以快速定位到我们想要的表。

代码的高效,主要是通过建立开发规范。这么大的数据量为避免数据重复开发和浪费,我们会对代码和命名进行有效规范。还可以通过方法论,比如说如何数据分层、统一语言,索引条件优先等级划分,都需要记录在开发规范中。每一段代码都会有健康度的评分,如果健康度低,运行程序的优先级就会降低。

Q:【友盟 +】数据体系架构设计经历了哪几个阶段的演进?

1)数据采集、传送和处理的整合,对我们的平台、工具、协议和底层的数据进行统一。这是我们数据打通,从而进行进一步数据价值挖掘的基础;

2)实时和离线计算的技术升级,在数据量激增的情况下保证服务的稳定性;

3)在数据的内容上进行整合,我们将不同端打通,内容连接,建立全域画像;

4)是在业务驱动下对数据质量进行评估,发现和解决在数据采集和处理流程中可能存在的问题,好的数据质量是好的服务的前提。

业务数据化,数据业务化

Q:请介绍一下【友盟+】当前的业务体系?

【友盟+】的业务体系我们用 “三纵两横” 来阐述。

三纵中的第一部分是互联网运营数据服务:Dplus,通过一站式 App/Web 数据采集,帮助开发者实现数字化运营和精细化分析;第二部分是新零售数据服务:Oplus,基于智能感知设备让线下零售商实现线下数据可追踪,同时将线上数据赋能线下,以消费者需求为导向,提效降本、提升用户体验;第三部分是全媒体、全链路营销服务系统 ADplus,帮助广告主及代理商从触达、认知及搜索到品牌在全网的影响、关注度进行宏观监测。

两横则是:金融和手机两个行业大数据解决方案。金融行业是去年才正式开始做的,在一年的时间里取得了不错的成绩,我们从基于移动互联网数据的风控产品开始,逐渐扩展到获客营销、二次营销、贷中管理,今年还计划开发贷后管理的产品。同时在今年,我们还推出了手机行业的大数据解决方案,以 7 亿真实活跃用户的全域数据为能源,通过 15 万颗运算核心与数据引擎助力手机厂商实现从市场感知、业务与产品规划,到产品上市、上市后运营等业务流各环节的数字化转型。

对于【友盟+】而言,最大的优势是全域数据,以及数据智能的认知与能力。在全域数据方面,友盟 + 将 7 亿真实活跃消费者的 App、PC、线下等跨终端、全场景的实时数据,通过全域数据打通技术进行联结与融合,帮助企业 360 度洞察“人”,为企业与消费者通过数据更好地理解与连接。

在数据智能方面,【友盟+】提出全域数据*技术算法*商业场景的理念,即通过全域数据作为企业的新能源,以数据技术与算法模型作为企业的引擎,将企业与用户接触的场景作为赛道,帮助企业从数字化全面走向智能化, 最终用数据智能帮助企业实现增长、增值和升级。

Q:在打通全域方面,【友盟+】遇到过哪些技术难题,是如何解决的?

我们的优势是“全域”。“全域”的最大挑战之一就是数据的打通。我们开发了自有的数据打通算法,同时借鉴阿里的数据经验,基于全域数据能力,由于有了大量的高质量数据,模型可以达到约 80% 的 precision 和 80% 的 recall。

Q:您曾经说过“未来传统企业是重要服务客户群”,能否谈谈传统企业要应用好数据涉及哪些关键因素?

关于传统企业应用好数据大家有许多共识,比如说打破数据孤岛,管理层的支持,提倡数据驱动文化等,我在这就不一一赘述了。我想强调一点,就是打造“数据闭环”。也就是说在业务场景的每一个环节都可以收集到数据,从而可以真正实现数据驱动。举一个简单的例子,电商之所以做得这么好,是因为做电商的每一个环节都有数据支持,从而可以进行优化。再试想线下的场景,哪个货架停留的客流多,哪个商品被拿起的次数多,这些数据对于商家来说,是一无所知的。没有数据,就无法谈优化。所以,对于传统企业来讲,一定要深入思考,怎样才可以形成“数据闭环”。“业务数据化,数据业务化”,就是说的这个道理。这个不容易,但一旦你做到了,你就会在竞争中处于优势。

Q:从【友盟 +】的角度讲,一款数据产品要取得成功,关键因素是什么?

一个数据产品成功的关键因素其实很简单,是不是可以解决问题。这里有几个层面:

第一,有没有提高效率,或降低成本,或增加利润。现在有许多数据产品是为了使用数据而不是去真正地解决问题;

第二,你所使用的数据是不是能够解决本质的问题。许多第三方数据公司把自己的数据包装得无所不能,这是非常不切合实际的, 第三方的数据往往起到的是辅助作用,在使用这类数据产品的时候,一定要问清数据的来源、数据的特征属性,一定要能够找到数据本身和要解决问题的相关性。就像你无法用棉花造出飞机一样,每一种数据都有适用和不适用的场景。

所谓“知之为知之,不知为不知,是为知也”,对应到数据的应用“用之为用之,不用为不用,是为用也”。

数据科学家要能从自己的金字塔中走出去

Q:【友盟 +】数据团队规模和团队成员构成?不同角色的岗位所分担的工作或职责有哪些不同?

【友盟 +】数据团队有 40 多人,包括数据科学家、数据分析师和数据研发。数据科学家主要的任务是建模和对数据价值的挖掘。数据分析师承担很多 BI 的工作,同时也对数据质量进行监督,根据业务的需求,对数据进行深层的分析。数据研发负责数据的整合、加工和提取,生成底层表格、支持业务逻辑和分析建模的需求。

Q:在您看来,对于数据科学家和数据工程师来说,有哪些职业技能是不可或缺的?

首先是基本的数据提取、处理和分析的技能。从工具的角度来说,例如 SQL、Python 等;从基本的数学和统计方面包括,均值、方差、中值、correlation 等;从建模的角度来说如LR、GBDT、CNN等,还有对不同的模型怎样评估,包括 precision and recall、false positive、ROC、KS 等指标。

在具备了这些基本的必备知识之后,我认为作为一个在工业界的数据科学家最重要的能力是去发现问题,建立数据和算法的直接联系,到进一步地去解决问题。大家都认同数据是巨大的财富,可以给我们解决很多的问题,但是我们仔细看一下,真正的大数据和算法能够落地的场景还是非常有限的,特别是对于传统企业来说。最近 IBM Waston 在美国医院的受阻就是一个例子,虽然帮助医院解决了一些问题,但代价是高额的成本。我在前面提到一个数据产品成功的关键是“提高效率,或降低成本,或增加利润”。数据科学家也要有这种思路,要能够从自己的金字塔中走出去,去了解和理解业务, 这是我认为在工业界的数据科学家的一个非常重要的能力。

数据 · 智能

Q:AI 火了之后,有人调侃原来做大数据的现在都说做 AI 了。您认为近几年 AI 的发展反过来给大数据领域带来了什么样的影响?

这个影响是巨大的,在 AI 浪潮兴起之前,大部分人理解的大数据应用(实际上也确实是这样的)都是 BI(business intelligence)。BI,简单讲就是向过去看, 统计过去所做的事情和造成的影响,统计报表出来之后,我们再根据历史进行对未来的决策。注意,这里的关键点是“我们”,这里人是决策者。而 AI 是向未来看, 机器取代了人做决策,机器人客服、人脸识别、到自动驾驶等等,都是这个场景。

AI 的三大要素是“数据”、“算法”和“算力”,而在这三大要素中,很多人(包括我)都认为“数据”是最重要的因素。这是因为现在的 AI 模型的结构都包含大量的参数,而要让算法学出这些参数,就需要大量的数据。现在 AI 的普及,使得大家进一步认识到数据的重要性, 这是最显著的变化。对于技术来说,怎样采集(如 IoT),存储和处理(如 Hadoop、Spark、Flink),建模(如深度学习),甚至于 AI 芯片等大数据相关的技术都有了很大的发展。在应用方面,许多行业也开始进入(医疗,教育)或者更深度地介入(金融)大数据和 AI。

Q:【友盟 +】在公司内部以及对外提供给客户的产品中,分别是如何应用人工智能技术的?

我们的数据是关于互联网和移动互联网的运营数据,所以主要工作是围绕怎么去建立设备行为的模型,如果有业务场景需要设备行为的信息,我们的模型就有可能得到应用。【友盟+】的反作弊应用就是非常好的例子,由于有了设备行为偏好,我们就可以去衡量一个设备的质量,通过归因算法、智能反作弊等技术,帮助客户获取真实流量。

Q:您认为中美在大数据技术和应用两个层面存在哪些不同之处?

在技术层面个人感觉美国还是有一些优势的,他们有很多的公司会去做非常长期的底层的工作,学校和公司里的研究院的资源比较丰富,也有不少可以安心做研究的人。

在应用层面,中国有非常大的优势,我们有非常大的用户群体,大量的用户带来了大量的应用场景。

Q:您认为大数据领域当前最有待突破的地方在哪里?下一阶段大数据的主要发展方向是什么?

我认为大数据领域最有待突破的是:模型的可解释性。现在的人工智能都是所谓的“弱”人工智能,是利用大量的数据,训练一个参数众多的黑箱模型。这个模型是在建立输入和输出的“相关性”,而不是“因果性”。比如,你打着雨伞和你的鞋湿了,这两个事件是“相关”的,也就是说经常会在一起发生。但是打伞并不是鞋湿的原因,下雨才是鞋湿的原因,所以下雨和鞋湿才是“因果”关系。为什么因果关系这么重要呢?是因为这是我们理解世界,从而进一步改变世界的方式。

我们知道了植物是怎样生长的,才有了万亩良田;知道了电和磁的相互转化,才有了万家灯火。同样,真正的智能,是能够帮助我们找到因果关系的模型,在很多的应用场景,可解释性也是非常重要的,例如,金融场景中,我们要知道为什么可以给这个人贷款;在医疗场景中,我们要知道为什么会做这样的诊断等等。

当然,模型的可解释性可能需要相当长的时间。当下,我认为大数据主要的发展方向是在更多的领域找到真正落地的场景。现在在互联网,金融应用得不错,在医疗、教育也有好的开端。我们希望可以在更多的领域可以找到大数据的解决方案,标准是“提高效率,或降低成本,或增加利润”。

想了解DI·进化吗?那么别犹豫10月16日欢迎到友盟+主办的UBDC全域大数据峰会共同探讨最新数据智能的前沿思想!

相关文章