原标题:考虑建立数据湖?是时候了

如果企业曾经对数字化转型

持有观望态度的话

那么相信经历过去一年

这样的疑虑都已被打消

实践表明

数字化转型越成熟

受到的影响越小

数字化转型的核心

就是以数据为中心

这也是为什么数据湖

在今天格外重要

在“十四五”规划纲要中,“数据”一词被提及几十次。从瓦特经济发展到比特经济,数据已经成为重要的生产资料。为了赢得未来竞争力、在突发事件到来时保持韧性,大数据时代企业需要借助数据湖挖掘全量数据价值。

数据湖:数据价值的“聚宝盆”

距离数据湖(Data Lake)的提出已有十一年了,相信大家对这个概念并不陌生。近两年随着大数据、云计算等技术的发展,数据湖开始真正从技术概念一步步走向实际应用。

先来看一下数据湖概念的提出者,Pentaho创始人兼CTO——James Dixon对其的描述:

如果把数据集市(Data Mart)看成是一个经过清洗、包装、结构化以后便于饮用的瓶装水仓库,那么数据湖就是一个更自然状态下的大水体。数据湖中的内容从源头流进湖中,用户可以在湖中进行检查、潜入或采集样本。

由此可见,数据湖强调的是对于业务数据“原汁原味”的保存,确保了数据的真实性和准确性。

以往人们都在强调数据量的几何式式增长,其实,随着暴增的数据量, 需要存储的数据类型也愈来愈丰富

多态数据结构:数据形态的多样性

传统的企业数据管理方案是建立数据仓库,相较于数据仓库只能处理结构化数据(如关系型数据库中的表),数据湖显得“包容”得多,它可以轻松收集各种数据,包括 存储结构化数据半结构化数据(如CSV、日志、XML、JSON),以及 非结构化数据(如文本、图形、图像、音频、视频)。

国际数据公司IDC预测,到2023年,中国的数据量将达到40ZB,其中 超过80%是非结构化数据。非结构化数据在共享、搜索和分析等使用过程中具有持续价值,它所反映的信息蕴含着诸多企业效益提高的机会。 数据湖这种对多态数据结构的容纳能力正是未来企业不可或缺的。

正是基于大数据时代客户对非结构数据管理需要的洞察,此前,戴尔科技针对预测性大数据分析发布了横向扩展数据湖方案,帮助客户真正捕获大数据的价值,实现存储空间和性能的线性增长,从而保持更低的获取与管理的成本。

通过旗下PowerScale和ECS(Elastic Cloud Storage)等文件和对象存储产品,戴尔易安信多年来持续为各行业客户提供完整、可靠的数据湖解决方案。

以医疗机构为例,戴尔易安信数据湖解决方案可以同时支持PACS影像应用、心电超声应用、文件应用、移动办公应用、大数据科研等多种业务,而 无需为每一种应用提供单独的存储平台,从而 除信息化建设过程中可能出现的数据孤岛

▲医院数据湖平台示例图

除了把不同种类的数据汇聚到一起,数据湖的另一部分价值是不需要预定义的模型就能进行数据分析。

由于数据湖存储着来自业务线应用程序的关系数据,以及来自移动应用程序、IoT设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或Schema。这意味着企业可以对数据使用不同类型的分析(如SQL查询、大数据分析、全文搜索、实时分析和机器学习)来获得信息。

数据湖适合以一致的方式利用大量数据,并使用算法驱动实时分析。如今,数据传输以及通信都需要实时运行,特别是气象测控、金融服务、网络监控等领域会产生大量的实时动态数据, 对于持续生成动态新数据的大多数场景,采用流数据处理是有利的。

因此,能否对流数据进行有效分析处理也是企业未来面临的考验。 戴尔科技流数据平台(Dell EMC Streaming Data Platform,简称SDP)的出现填补了流式数据领域的空缺。

SDP:流式数据领域的“垦荒者”

SDP是一套基于软件与参考硬件的弹性可伸缩平台,用于注入、存储和分析无界的流式数据。作为企业级的数据存储和计算一体化平台,SDP为用户提供了安全可扩展的平台,在平台内运行的每一个应用都同时支持实时数据和历史数据的访问,并且有统一的API支持。

▲SDP的整体架构示意图

随着核心、云和边缘不断产生新的数据,依靠在分布式存储方面深耕多年的经验,戴尔科技技术专家进一步提出深度定制数据湖的想法。这些创新想法将为用户更加灵活地在存储和计算之间寻找平衡,以适应不同的场景带来新的方向。

Flink×数据湖!干货先睹为快

4月17日,Apache Flink社区2021首场Meetup将于上海举行,技术大咖齐聚一堂全方位解析数据湖生产应用难题,届时戴尔科技技术专家也会带来关于数据湖的独家干货分享,亮点都为大家整理好了,一起来先睹为快!

嘉宾议题及观点

Iceberg和对象存储构建数据湖方案

孙伟

戴尔科技集团 高级软件研发经理

随着数据湖开始采用对象存储作为底层,戴尔科技技术专家发现 当前对象存储和Apache Iceberg结合中存在的痛点。

比如二者的结合都要基于Hive等第三方组件来完成对接,缺少和企业级对象存储直接对接的能力。同时, 结合方案在性能方面也存在瓶颈,在面对高性能场景时只能通过额外的缓存方案来弥补。

因此,戴尔科技技术专家研发出 “Iceburg+S3”对象存储对接方案,该方案解除了对第三方组件的依赖,并改善了其中一些文件上传的性能瓶颈。

而在提供通用S3对象存储方案的基础上,戴尔科技技术专家进一步提出了基于戴尔科技ECS/ObjectScale对象存储的商业接口方案,使更加高性能的数据湖得以实现。

扫码进群发现更多精彩

▼▼▼

敬请关注本次Meetup,听取技术大咖的前沿妙论。期待戴尔科技技术专家在下一代流批一体的大数据平台上,贡献更好的商业和开源相结合的生态系统。

END

动手指 “盘”

就可关注我们

相关文章