5月12日, Spark & Flink Meetup 6在华为杭州研究所举行,来自Apache社区、华为、阿里巴巴、丁香园、滴滴等公司的7位大数据技术专家做了深入的分享和讨论。本次Meetup盛况空前,不仅邀请了Spark和Flink社区的两位重量级PMC做相关分享,到场的人数更是爆满,在主办方临时在走道添加座位后,仍然有很多同学坚持站着听完了全场分享!

Spark & Flink Meetup 6成功举办——附干货下载

图 1会场盛况

Spark

现在Hadoop已经从传统的Hadoop三驾马车HDFS,MapReduce和HBase社区发展为60多个相关组件组成的庞大生态,一度称王近十年。而如今风头正盛的Spark,正有盖过Hadoop之势。Spark以其RDD模型的强大表现能力,不断完善自己的功能,逐渐形成了一套自己的生态圈。

Spark & Flink Meetup 6成功举办——附干货下载

图 2 Spark PMC 范文臣(cloudfan )

现在Hadoop已经从传统的Hadoop三驾马车HDFS,MapReduce和HBase社区发展为60多个相关组件组成的庞大生态,一度称王近十年。而如今风头正盛的Spark,正有盖过Hadoop之势。Spark以其RDD模型的强大表现能力,不断完善自己的功能,逐渐形成了一套自己的生态圈。

当使用 Spark 来分析数据的时候,如何快速地访问数据是一个关键问题。通过题为《A Deep Dive into Structured Streaming》的演讲,文臣给大家讲解 data layout 是如何影响 Spark 程序的性能,以及如何根据使用的 workload 来选择合适的 data layout。

Spark & Flink Meetup 6成功举办——附干货下载

图 3 祝威廉

来自丁香园的祝威廉就《MLSQL,一种基于Spark平台上的SQL方言》为题,着重介绍了MLSQL基于Spark框架提供对于Machine Learning的SQL封装,很好地融合算法训练和数据预测两部分计算逻辑,并在此基础上为丁香园封装了一套算法开放平台——Skone。

Spark & Flink Meetup 6成功举办——附干货下载

图 4 杨旋

滴滴基于Flink/Spark/Druid实现公司内部BI系统构建,主要讲解了Flink应用、Spark Streaming最佳实践、Druid系统与应用。

Flink

随着时代的发展,在线业务对实时性的要求越来越高,而受限于其本身底层的数据模型,Hadoop和Spark在实时性方面都显得有些力不从心。于是流计算应运而生,这方面的代表有Flink、Spark、Spark streamming等等,尤其是Flink,从诞生之初就以数据流作为底层模型,完美解决数据实时性的问题。

Flink 作为后起之秀,以其分布式、高性能、高可用、高精确的特点和优势,迅速攻城略地,抢占市场。行业上更有人称之为继Hadoop和Spark之后的第三代大数据计算平台。相对Spark、Storm、Hadoop,Flink 人力成本低,开发运维成本低。依托底层数据流应用而生的开源流式处理框架,在实时计算的数据处理场景上,无疑占据了重要的优势地位。

Spark & Flink Meetup 6成功举办——附干货下载

图 5 梁永锋(天姥)

梁永锋介绍了对flink的扩展,以及基于flink的流计算平台架构和部署方式,以及在解决用户痛点的一些尝试。阿里现在通过基于Flink的系统,来支撑它的搜索基础设施的核心,以向终端用户提供相关、精准的信息。

Spark & Flink Meetup 6成功举办——附干货下载

图 6 冯叶磊

活动现场,华为冯叶磊以《Time GeoSpatial on Flink SQL》为主题,着重介绍了华为在开源Flink上所做的扩展和努力。华为实时流计算服务(Cloud Stream)的进展,主要围绕三点展开:

1. SQL功能扩展之支持CEP以及地理位置函数

在IoT场景中,大量业务场景需要对实时数据流进行复杂事件模式(CEP)的检测,例如车辆异常行为检测、工业设备异常运行状态等检测,CloudStream扩展了Flink SQL,提供了非常高效的CEP on SQL的能力,提供了基于Match Recognize的模式匹配检测,可以帮助业务人员使用SQL实现基于复杂事件规则的异常检测业务,无需开发Flink PATTERN API自定义业务,只需要一行SQL查询语句搞定,大大降低此类业务开发难度。

IoT大量业务场景需要对时空数据进行实时的地理位置分析,如电子围栏、偏航检测等。CloudStream提供了一套完整的基于地理位置分析的SQL语法,方便用户进行快速的开发。

2. 提供界面拖拽的界面,支持用户拖拽实现流式计算

可视化编辑器将华为实时流计算服务需要对接的上下游服务(如DIS、CloudTable等)和内部逻辑算子(如 filter、window等)封装成可拖拽的组件,只需要将其拖入画布中并用连线将各个元素连接,就能轻松的创建出一个作业的拓扑,再通过点击画布中的各个元素填上对应参数,就完成了一个作业的编辑。

3. 实现基于流的随机森林算法,集成大量异常检测算子

随机森林算法是一种通过多颗决策树进行优化决策的算法。华为实时流计算服务基于Flink实现了基于流的随机森林算法,使其可以应用于入侵检测、金融诈骗、自然数据监测等场景。

Flink和Spark Streaming是目前业界主流的流计算引擎,两者以不同的设计思想(前者是原生流式计算,后者是微批处理计算)各领风骚,都有着活跃的开源社区支撑。CloudStream集成了Flink和Spark Streaming,双引擎方式很好的连接了开源生态,完全兼容开源社区接口,同时CloudStream提供丰富的任务提交方式,如Flink SQL/Flink Jar job/Spark Streaming and structured streaming jar job,方便业务人员平滑迁移线下业务上云。

欢迎大家前往“华为云”官网,试用华为实时流计算服务

番外篇

另外,华为杭州研究所作为活动主办方,为本次活动演讲者以及前来的同学提供了华为手机、华为蓝牙音箱等奖品,准备的茶歇甜点也是用心良苦~

Spark & Flink Meetup 6成功举办——附干货下载

图 7 给演讲嘉宾赠送礼品

Spark & Flink Meetup 6成功举办——附干货下载

图 8 华为提供的茶歇甜点

华为杭州研究所举办了多次Spark以及Flink相关的Meetup,欢迎大家常来研究所逛逛~

ps:关注“华为云”公众号,回复关键词“meetup”即可下载干货附件!

更多精彩内容,请关注“华为云”公众号

相关文章