5月12日， Spark & Flink Meetup 6在华为杭州研究所举行，来自Apache社区、华为、阿里巴巴、丁香园、滴滴等公司的7位大数据技术专家做了深入的分享和讨论。本次Meetup盛况空前，不仅邀请了Spark和Flink社区的两位重量级PMC做相关分享，到场的人数更是爆满，在主办方临时在走道添加座位后，仍然有很多同学坚持站着听完了全场分享！

图 1会场盛况

Spark 篇

现在Hadoop已经从传统的Hadoop三驾马车HDFS，MapReduce和HBase社区发展为60多个相关组件组成的庞大生态，一度称王近十年。而如今风头正盛的Spark，正有盖过Hadoop之势。Spark以其RDD模型的强大表现能力，不断完善自己的功能，逐渐形成了一套自己的生态圈。

图 2 Spark PMC 范文臣（cloudfan ）

当使用 Spark 来分析数据的时候，如何快速地访问数据是一个关键问题。通过题为《A Deep Dive into Structured Streaming》的演讲，文臣给大家讲解 data layout 是如何影响 Spark 程序的性能，以及如何根据使用的 workload 来选择合适的 data layout。

图 3 祝威廉

来自丁香园的祝威廉就《MLSQL，一种基于Spark平台上的SQL方言》为题，着重介绍了MLSQL基于Spark框架提供对于Machine Learning的SQL封装，很好地融合算法训练和数据预测两部分计算逻辑，并在此基础上为丁香园封装了一套算法开放平台——Skone。

图 4 杨旋

滴滴基于Flink/Spark/Druid实现公司内部BI系统构建，主要讲解了Flink应用、Spark Streaming最佳实践、Druid系统与应用。

Flink 篇

随着时代的发展，在线业务对实时性的要求越来越高，而受限于其本身底层的数据模型，Hadoop和Spark在实时性方面都显得有些力不从心。于是流计算应运而生，这方面的代表有Flink、Spark、Spark streamming等等，尤其是Flink，从诞生之初就以数据流作为底层模型，完美解决数据实时性的问题。

Flink 作为后起之秀，以其分布式、高性能、高可用、高精确的特点和优势，迅速攻城略地，抢占市场。行业上更有人称之为继Hadoop和Spark之后的第三代大数据计算平台。相对Spark、Storm、Hadoop，Flink 人力成本低，开发运维成本低。依托底层数据流应用而生的开源流式处理框架，在实时计算的数据处理场景上，无疑占据了重要的优势地位。

图 5 梁永锋（天姥）

梁永锋介绍了对flink的扩展，以及基于flink的流计算平台架构和部署方式，以及在解决用户痛点的一些尝试。阿里现在通过基于Flink的系统，来支撑它的搜索基础设施的核心，以向终端用户提供相关、精准的信息。

图 6 冯叶磊

活动现场，华为冯叶磊以《Time GeoSpatial on Flink SQL》为主题，着重介绍了华为在开源Flink上所做的扩展和努力。华为实时流计算服务（Cloud Stream）的进展，主要围绕三点展开：

1. SQL功能扩展之支持CEP以及地理位置函数

在IoT场景中，大量业务场景需要对实时数据流进行复杂事件模式（CEP）的检测，例如车辆异常行为检测、工业设备异常运行状态等检测，CloudStream扩展了Flink SQL，提供了非常高效的CEP on SQL的能力，提供了基于Match Recognize的模式匹配检测，可以帮助业务人员使用SQL实现基于复杂事件规则的异常检测业务，无需开发Flink PATTERN API自定义业务，只需要一行SQL查询语句搞定，大大降低此类业务开发难度。

IoT大量业务场景需要对时空数据进行实时的地理位置分析，如电子围栏、偏航检测等。CloudStream提供了一套完整的基于地理位置分析的SQL语法，方便用户进行快速的开发。

2. 提供界面拖拽的界面，支持用户拖拽实现流式计算

可视化编辑器将华为实时流计算服务需要对接的上下游服务（如DIS、CloudTable等）和内部逻辑算子（如 filter、window等）封装成可拖拽的组件，只需要将其拖入画布中并用连线将各个元素连接，就能轻松的创建出一个作业的拓扑，再通过点击画布中的各个元素填上对应参数，就完成了一个作业的编辑。

3. 实现基于流的随机森林算法，集成大量异常检测算子

随机森林算法是一种通过多颗决策树进行优化决策的算法。华为实时流计算服务基于Flink实现了基于流的随机森林算法，使其可以应用于入侵检测、金融诈骗、自然数据监测等场景。

Flink和Spark Streaming是目前业界主流的流计算引擎，两者以不同的设计思想（前者是原生流式计算，后者是微批处理计算）各领风骚，都有着活跃的开源社区支撑。CloudStream集成了Flink和Spark Streaming，双引擎方式很好的连接了开源生态，完全兼容开源社区接口，同时CloudStream提供丰富的任务提交方式，如Flink SQL/Flink Jar job/Spark Streaming and structured streaming jar job，方便业务人员平滑迁移线下业务上云。

欢迎大家前往“华为云”官网，试用华为实时流计算服务！

番外篇

另外，华为杭州研究所作为活动主办方，为本次活动演讲者以及前来的同学提供了华为手机、华为蓝牙音箱等奖品，准备的茶歇甜点也是用心良苦~

图 7 给演讲嘉宾赠送礼品

图 8 华为提供的茶歇甜点

华为杭州研究所举办了多次Spark以及Flink相关的Meetup，欢迎大家常来研究所逛逛~

ps：关注“华为云”公众号，回复关键词“meetup”即可下载干货附件！

Spark & Flink Meetup 6成功举办——附干货下载

Spark 篇

Flink 篇

番外篇

更多精彩内容，请关注“华为云”公众号

热门新闻

周热门

Spark &amp; Flink Meetup 6成功举办——附干货下载

Spark 篇

Flink 篇

番外篇

更多精彩内容，请关注“华为云”公众号

东吴证券：智驾算法步入深水区，头部玩家有望持续领跑

四川：将人工智能作为一号创新工程，发力智算芯片、算法模型等重点领域

生成式人工智能为劳动力市场带来哪些变化

万集科技(300552.SZ)：公司自动驾驶具备感知、定位、规划、控制算法全栈自研能力

数字水印概念盘中跳水，视觉中国跌1.25%

首艘国产大邮轮、氢能产品、算法大模型，沪上IP亮相2024中国品牌日

“AI换脸”骗走2亿港元 专家支招如何防范

工信部：加快突破人工智能基础关键技术，夯实应用赋能的底座

城建发展：竞得上海杨浦区长海社区地块国有建设用地使用权

我爱我家(000560.SZ)：北京我爱我家与京邦达签订战略合作协议

巨涛海洋石油服务附属拟向苏州恒升提供服务 总代价约1003.58万元

兴泸水务：兴泸环保拟向兴泸污水处理提供污泥处置服务

中远海能子公司开展货币类金融衍生业务

齐心集团与华为云达成战略合作

华为云在香港提供AI云服务 为大模型训练和推理提供AI算力

热门新闻

周热门

Spark & Flink Meetup 6成功举办——附干货下载

“AI换脸”骗走2亿港元专家支招如何防范

巨涛海洋石油服务附属拟向苏州恒升提供服务总代价约1003.58万元

华为云在香港提供AI云服务为大模型训练和推理提供AI算力