工业大数据就做这四件事:采集、存储、分析、挖掘

无论是智能制造、工业4.0还是工业互联网,都离不开数据。工业大数据从传感器采集数据开始,最后到建模预测,有一个数据逐渐集中,数据加工深度、难度、复杂度逐渐递增的过程。与此对应,工业大数据就分为数据采集、数据存储、数据分析和数据挖掘四个顺序工作。

数据采集

数据采集是指从现有的智能网关或工厂控制系统中读取历史和实时数据。工控系统主要指PLC、DCS、SCADA等。相对于工业物联网和工业互联网,工业大数据的工作要抽象一点,不再关注感知、联网、传输协议等问题,而是从已有数据库中抽取数据。工业大数据的数据来源,最低级的是利用OPC UA从PLC中读取数据,最高级的是实时数据库,如PI。

数据存储

数据存储是指对采集的数据,进行统一的、长时间的保存。基于工业大数据的应用,特别是机器学习的建模,需要大量的历史数据用于训练。数据量越大,模型预测效果越好。需要统一数据存储的原因是:

1、 企业数据来源众多,每个设备、产线都是数据来源,由不同厂家提供,使用不同的组态软件,不同的实时数据库,因此,需要整合为可以在同一个地方,同一种格式访问的数据仓库。

2、 由于工控系统中的存储空间限制,大部分数据会被定时清除,不能长期保存,比如DCS一般设定三个月的保存时间。

3、 工控系统中测点众多,很多测量数据没有长期保存价值,比如开关状态

数据存储地方主要是时序数据库和数据仓库。时序数据库主要保存传感器采集的测量数据,数据仓库保存经聚合计算的时序数据,和来自其它信息系统中关系数据库的数据。

数据分析

数据分析就是对数据仓库里的数据进行分析。数据分析按成熟度区分,分为描述性数据分析、诊断性数据分析、预测性数据分析和规范性数据分析。可供最终用户使用的形式,有数据看板、统计报表、多维分析、自助分析、移动应用和数据挖掘,具体详见“工业大数据应用的六种形式”

数据分析从数据仓库中读取数据,通过维度模型,通过API为数据看板或统计报表提供数据服务,实现所谓的数据中台(“数据中台在工业大数据项目开发中的应用实践”)。

自组分析既可以用来自多维分析的立方体,来自数据仓库,也可以来自API。

移动应用实际上是其它几种形式在手机上的展现。比如说数据看板、多维分析和统计报表,都可以显示在PC机上的同时把数据展示在手机上。

数据挖掘

数据挖掘是基于数据仓库,对数据进行建模、训练,然后做预测。

数据挖掘是数据分析的一部分,预测性数据分析和规范性数据分析都离不开数据挖掘。把数据挖掘单列,是因为它是数据分析中技术要求高、个性化强、风险大的一项工作。

相对于其它数据分析的应用方式,开展数据挖掘工作有一些特殊要求,比如:

1、 要有比较多、比较全的数据,因此需要在开展数据采集、数据存储、数据分析工作一段时间后开展比较有利

2、 需要通过多维数据分析等手段掌握生产运行的规模,弥补行业经验的不足,在建模时选择更有价值的特征

3、 会经常遇到数据挖掘结果没有价值,预测准确性不高的情况

相关文章