本文是拓扑社对微软加速器·北京第11期入选项目的专题报道。

微软加速器·北京第11期的入选企业的重点是人工智能与产业落地应用结合,以人工智能底层技术平台作为创业方向。这些校友企业都是企业服务类创业公司,覆盖大数据、人工智能、物联网、区块链等技术,并在医疗、政府、零售、建筑等行业中获得标杆客户。这些领域也是拓扑社持续关注的方向。

偶数科技打造新一代分析型数据库,可以更好的支持AI应用场景

偶数科技 创始人 常雷

拓扑社5 月16 日报道 文:窦悦怡


传统的数据库都是以Oracle、IBM、SAP为代表的交易型数据库,这类型数据库主要是针对基本的、日常的事务处理,例如,银行传统的手工记账便是典型的应用场景。

而进入大数据和人工智能时代,企业每天产生的数据量正呈爆炸式增长,面临海量的数据,传统数据库的IT架构和处理技术已经逐渐无法适应巨大的数据处理需求。

其次,企业对数据价值越来越重视,数据分析成为了十分重要的一环,但传统的交易型数据库难以实现大数据量、复杂性的数据分析需求,可扩展性也不足。这时候,企业亟待寻找新的解决方案,实现由数据驱动的精细化运营,其中分析型数据库已经成为近年的热点。

偶数科技打造新一代分析型数据库,可以更好的支持AI应用场景

创始人CEO常雷,2008年毕业于北京大学计算机系,曾任EMC高级研究员及EMC/Pivotal研发部总监,同时也是Apache HAWQ 创始人,长期专注于大数据与云计算领域,对企业级数据管理有很深的理解。

分析型数据库,支持多种应用场景

拓扑社了解到,新一代的数据库是一种分析型OLAP数据仓库系统,侧重企业决策支持,提供直观易懂的查询结果。

相对于传统的交易型数据库,分析型数据库具有以下优势:首先,分析型数据库支持复杂的分析操作,存储的数据时间跨度长,数量级的性能提升,解决了传统数据库不能交互式实时处理大数据的问题。

其次,分析数据库可以对数据进行在线统计、数据在线分析、实时查询等发掘信息数据价值的工作。第三,存储与计算分离的松散耦合架构,可以原生支持容器云平台,传统数据库的紧耦合架构不适合新型容器云平台。此外,分析型数据库能够更好的支持AI应用场景。

偶数科技打造新一代分析型数据库,可以更好的支持AI应用场景

简单来说,分析型的数据库中的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据库以后,一般情况下将被长期保留,也就是数据库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

同时,分析型数据库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

“新一代的分析型数据仓库可扩展性的节点可以达到几千个,同时支持的应用场景也非常广泛,包括机器学习、传感器等收集到的数据都可以支持,这些是在传统数据库架构下是实现不了的。”

常雷也补充到,人工智能与分析型数据库是相辅相成的,人工智能离不开数据和算法,分析型数据仓库的基础架构,以及高可扩展性、实时性的优势,使其最贴近数据,具备与人工智能相结合的优势。

对于数据库本身来说,传统的数据库都是非自动化的数据处理,通过人工智能对数据库改造,会使数据库更智能,进而可以拓展更多应用场景,指导企业进行更有效的数据分析。

拓扑社认为,传统数据库向新型数据库转型,无论是对企业还是服务商来说,都存在一定的挑战,尤其是传统的数据库的架构是CPU模式,如果企业要想转向新一代高性能分析型数据库,需要把基础架构调整为利用CPU新指令以及新的硬件模式(包括GPU和FPGA等),调整前需要企业花去大量的时间重新编写代码,设计架构、调整代码。

新一代数据仓库引擎,SIMD执行器性能可提升一个数量级

谈到数据库,肯定离不开Hadoop这种开源技术,同时Hadoop延伸出来很多数据仓库技术,例如Hive、Impala、Spark SQL、HAWQ等。

常雷介绍道,伴随着互联网公司的崛起,新一代数据仓库也随之兴起。总体来说,新一代的数据仓库可以分为三大类。第一大类:SQL on Hadoop。如Spark SQL、Hive、HAWQ、Presto,因为它的存储基本都在HDFS。第二类叫SQL on Object Store。如基于亚马逊的S3搭建的SQL on Object Store。

第三大类是从前面两类系统里发现一些缺陷后又演化出来的系统,称之为SQL on Hybrid Storage,有自己的原生存储,同时也支持HDFS和S3等其他存储,代表性系统包括HAWQ和Impala。

其中,HAWQ是Apache开源社区的孵化项目,包括彭博社、阿里等在内的大型企业都在使用并在开源社区为其贡献代码,而偶数科技正是依据这个系统进行产品布局的

目前,偶数科技主要提供两款产品,开源版的Apache HAWQ和企业版的Oushu Database。据悉,Oushu Database是基于HAWQ打造的新一代数据仓库引擎其优势在于采用了MPP和Hadoop结合的创新MPP++技术架构,高可扩展,遵循ANSI-SQL标准,具有极速执行器,提供PB级数据交互式查询能力。

偶数科技打造新一代分析型数据库,可以更好的支持AI应用场景

同时,Oushu Database提供对主要BI工具的描述性分析支持和高级机器学习功能。兼容Oracle,Greenplum Database和PostgreSQL,可以轻松取代传统数据仓库和其他SQL-on-Hadoop引擎。

此外,Oushu Database支持原生Kubernetes容器平台,帮助企业无缝迁移到最新的云计算平台。

常雷解释道,将简单的无状态应用(比如Web服务器)迁移到容器比较简单,但将大数据平台迁移到容器却面临很多技术挑战。将Oushu Database和云平台结合带来应用和服务一体化,很容易做弹性扩容,自恢复和滚动升级,同时,Oushu Database在资源管理和自动化运维也带来很多便捷。

去年9月偶数科技发布了Oushu Database 3.0版本产品 。据悉,3.0版本对执行器进行了完全重新设计,充分利用了最新CPU的每一个特性,如SIMD指令等,可以做到性能的极致。其次,支持ORC外部存储格式,结合新的SIMD执行器,外部存储的性能可以提升10-50倍

此外,传统数据仓库连接外部数据往往都是使用Connector形式,性能很慢,从而导致用户需要使用先导入外部数据再查询的方式,数据需要在多个系统存储多份,浪费了多倍存储空间。

结合新一代SIMD执行器,新版本可插拔存储框架使得数据库可以直接高性能访问外部数据,查询外部数据的性能和查询内部数据类似。

目前,Oushu Database已经在政府、金融、电信、电力、军工、制造业、物联网、互联网等行业广泛应用,助力政府机构与大型企业构建了全新的大数据平台。

比如,银行内各业务的数据孤岛效应严重、以及外部非结构化数据的整合不力等。金融行业需要高性能的数据仓库支持,Oushu Database可支持结构化数据的处理和非结构化数据的整合能力,可有效满足反欺诈等场景的数据处理。

在盈利模式上,偶数科技的产品是根据CPU/节点/容量收取账号年费,客单价在数十万到数百万之间不等

而获客方面比较灵活,有从开源社区对接过来的客户,也有与微软进行战略合作,共同切入某垂直领域,还有直销团队。企业版客户已经达到数十家,代表性用户有国家电网、中兴深圳市国税等。

主编点评

加入微软加速器后,微软在技术和产品上给了偶数科技极大的支持。基于微软Azure云平台,偶数科技成功开发了Oushu云数据仓库服务。其次,微软针对校友企业的CEO和CTO提供了相应的技术、市场和财务等培训课程,提升他们在管理等方面的能力。

第三,微软加速器会把优质的客户资源输送给偶数科技,目前已经为偶数对接了霍尼韦尔、太平保险集团以及兴业银行等大型客户。

另外,微软加速器还会提供品牌宣传、媒体采访、市场活动、融资对接等资源,还会牵线搭桥,与众多校友建立生态联系,互通有无。

相关文章