大数据与人工智能蓬勃发展的时代,数据科学让我们身处技术剧变的大潮之中,它改造着我们的社会组织方式。我们必须掌握它,驾驭它,使之最大化发挥效力。

有一种说法:2016年我们产生的数据量,和人类自诞生之日直至2015年的整段历史的数据量相同。这些数据中包含的信息能揭示我们的思考方式和感受方式。根据预测,10年之后,全球会有1500亿个联网的测量传感器,比地球上的人类总数还要多20倍。接着,每过12小时,数据总量就会翻番。如今,包括政府在内的各领域都试图运用数据科学,将数据转化成财富。所有的一切都将变得数据化。

作为颠覆性技术学科,数据科学将驱动新一轮科技创新和经济增长——大数据与人工智能的结合,将克服人类在交通、环境、健康医疗等领域面临的一系列发展困境,从而开创经济社会发展的全新范式。

数据科学驱动人工智能转化

大数据作为新一代基础性战略资源,影响了不同行业的方方面面。数据科学作为大数据应用落地的一门技术学科,同样在不同行业进行着运用与实践。

在人工智能领域,以数据科学为基础的机器学习是人工智能的核心,是计算机智能化的基础,其应用遍及人工智能的各个领域,如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。

机器学习可以帮助机器从现有的复杂数据中学习规律,以预测未来的行为结果和趋势。在某一行业智慧化应用中,用机器学习的方法对数据进行分析建模,最为关键。特别是在庞大的数据面前,如何将数据进行重组、整合、分析,进而转化为人工智能产品,是行业迈向进智能化的重要挑战。

案例一

以近年来农业部门相关智能建设为例,其与九次方大数据合作,利用九次方神算子平台提供的机器学习算法快速搭建和训练模型,将基于20年农产品批发市场日度交易数据,进行数据挖掘与可视化,进行预测分析。包括:

价格波动分析——挖掘长期趋势、季节波动、短期波动特征

价格品种间相关分析——挖掘品种间传导关系、相关性

价格空间关联分析——挖掘地区间价格相关性

价格与销售量综合分析——挖掘需求价格弹性特征

同时,通过建立空间特征矩阵,采用计算空间自相关性,对批发市场农产品价格的时间-空间特征进行建模与分析。发现农产品价格政策在不同区域的落实情况,识别农产品集散区域,分析潜在产地或枢纽区域。

案例二

除了农业相关部门,目前,国家电网也正在加速智能化建设。其与九次方大数据合作,以神算子平台为基础,进行了智能化应用与改善。

电费回收是中国电网智能建设中重要的一环,神算子平台根据电网营销系统的历史数据,提取欠费用户的关键特征指标,如用电量大小、销户记录、违约金起算时间、缴费渠道、结算方式等,使用神算子平台封装的机器学习的方法,学习欠费用户的属性与行为特征,对用户的欠费回收风险进行评估与预警。

另外,平台还建立用户窃电识别模型,从用户属性、历史用地等方面,按数据,并结合线损、天气、季节、节假日等维度,识别用电异常行为,建立窃电的判别规则和窃电识别模型。

同时,建立用户信用评价模型,基于电费回收风险和用户窃电行为的研究,从多个维度对客户信用进行评价。

机器学习神机妙算解难题

目前,各行各业向大数据化迈进,最为先进的办法正是采用大数据建模平台来降低工作门槛,简化建模过程,缩短模型训练的时间,通过简洁的可视化界面操作即可完成复杂的机器学习任务。

以上述提到的九次方大数据神算子平台为例,作为国内首个成熟的商用人工智能全流程平台,其正是具备了低门槛、高性能、全方位可视化三大特色。

所谓低门槛,神算子平台将原本需要多年研究习得的机器学习算法和繁琐的数据处理步骤流程化、组件化,极大降低了学习门槛。平台提供已成型的业务方案,以模板的形式让用户一键上手。同时,数据科学家们根据经验和世间持续系统内算法,使模型达到智能化,不断提高模型的效率。

高性能是指,神算子平台内置了大数据科学院独有知识产权的高维度模型算法和特征工程算法,结合自主研发的高性能的分布式计算框架,在大数据和海量特征的场景下有很好的计算性能和计算效果。

最具特色的当属平台的全方位可视化,为了能让用户在庞杂的数据中快速处理和识别有效特征,优化模型效果,平台在数据处理的方方面面提供丰富的可视化操作,从各种维度分析特征显著性,通过数据建模过程可视化、数据探索可视化、模型优化可视化,实现了快速、高效的可视化建模。

具体来讲,平台将建模流程中的核心运算节点以可视化的组件和流程形式呈现,包括数据源引用,数据处理,特种选取,机器学习运算,而整个过程中产出的数据和计算参数、评估结果,都存储在对应的节点详情中,全流程可视化以丰富的图表展示数据特性,可以详尽地透视数据汇总信息,轻松定位异常数据,无论是数据清洗、特征工程还是模型结果评估,都能一目了然。

(鸢尾花卉数据集)

(K-means算法)

神算子平台作为可视化的机器学习建模平台,对不同行业的需求,可设计最适合的模型方案,通过集成模型的方式整合机器学习算法与经典行业模型,追求在模型的计算精度与可解释性间取得最优平衡。

同时,平台具有支持模型生命周期每个阶段的功能,专门用来管理和部署分析模型,使用项目对构建模型过程进行组织管理,不同的项目可对应于不同的业务用途或应用。在平台中用户可以通过有意义的业务过程数据,结合自己的业务目标进行人工智能模型调研、模型应用以及模型自学习的过程,通过庞大的算法库来探索和挖掘政府数据中蕴含的信息价值,自动化、大数据化地帮助政府、企业实现数据价值变现,神机妙算破解政府与行业的各项难题。

未来,平台还将继续不断扩充和优化。从技术到应用落地,越来越多的行业正在搭建以数据科学为主导的数字智慧化平台。以数据科学为指引,大数据与人工智能的结合与突破,一场新的技术革命已经来临。

相关文章