今天,在华为2019全球数据基础设施论坛上,华为Cloud & AI产品与服务总裁侯金龙宣布全面启动数据基础设施战略,并开源数据虚拟化引擎“河图引擎”(HetuEngine)。

据悉,“河图引擎”开源版本名称为“openHetu”,开发者可基于开源代码进行定制,主要包括数据源扩展、SQL执行策略等。实现应用快速对接,提升开发效率。另外,该引擎将在2020年6月上线。

公开数据显示,2018年中国的总数据量就已拥有7.6 ZB,至2025年中国的总数据量将跃升至48.6 ZB,全球总数据量达到125 ZB,可以说到2020年每天就有1.5 GB的数据量生成。但实际数据的利用量却并不乐观。

据了解,这款引擎主要针对的是大数据管理,让开发者好似使用数据库一般使用数据,复用现有生态、工具、技能。主要体现在“一个目录(1000+异地异构数据源)”,“一个入口(5000节点SQL引擎,实现30种异地异构数据源统一SQL访问)”,“一份数据(CarbonData技术实现多场景分析和多应用共享)”,“统一安全(异地异构数据源集中式安全配置与管控)”。

此前9月,华为全联接大会上指出,将进行“一云两翼双引擎”的鲲鹏计算机产业布局,其中,“一云”指的是华为云,“两翼”指的是智能计算和智能数据,“双引擎”指的是“鲲鹏+昇腾”的双引擎。

此次发布的引擎主要针对数据角度进行“平台+生态”战略的再升级。大会上,华为指出将通过对数据“采、存、算、管、用”实施端到端的整合和优化,另外将基于“AI+存储+华为云”,通过云上云下结合,云上训练和云下推力让系统越用越快。

不过这个引擎对比腾讯与阿里巴巴的引擎又有何区别呢?目前来说,虚拟化引擎概念应该是华为在国内首次提出的,此前腾讯与阿里巴巴发布的相关引擎主要是数据中台。这种技术也许对于近二十年来社会变革来说是最佳的。

目前来说,数据虚拟化是艰巨但又刚需的,随着数据量的飞速上升以及应用范围的拓宽,数据虚拟化就是必经之路了。迄今为止,虽然数据虚拟化平台并不鲜见,但真正将云与大数据世界拼接在一起的层、界面和抽象化展开进一步概述之路仍需继续前行。

当然,能沿着“数据-虚拟化”路线走多远,将取决于用户业务需求和大数据环境的复杂性。此外,还取决于用户对风险、复杂性和困难的承受程度。在未来,随着分析模型、规则和大数据云上汇聚的信息日益复杂,平台将成为虚拟化访问、执行和管理的核心。

相信通过华为的“平台+生态”战略的进一步实施,这个开源平台将会为大众带来更多普惠。

(21ic原创,作者:付斌)

相关文章