皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

Cleanits:制造业时序数据清洗系统(2)

(2) 智能化:本系统设计相应的模块,支持对领域专家知识、工业设备结构图、有标签的样本数据等进行智能化建模分析,提高数据清洗算法的精度。

(3) 用户定制化:本系统设计了全面、高效率、自动、要求时间这四种清洗模式,用于满足不同工业用户的需求。该系统是国内外研发的首个面向实际工业时序数据、实现多类数据质量问题的智能检测与修复的数据清洗系统。

此外,本系统的研发对推动目前工业大数据的数据质量管理、乃至大数据治理也有着指导意义:

(1) 功能完备:本研究充分考虑到工业大数据质量管理中的多个主要任务,并设计有效的方法加以解决。

(2) 量质融合:通过对算法计算效率的优化和数据清洗任务步骤的有序安排,考虑到数据“量”对数据清洗系统提出的要求;通过提供有效、可靠的数据清洗策略,考虑到数据的“质”对系统的要求。

(3) 以点带面:本文提出的系统为工业大数据管理系统开发,提出的技术和思想是为解决一类数据质量问题提出,具有较强的跨行业迁移性。该系统中的许多方法模型也适用于医疗大数据、金融大数据等类似的大数据管理系统。

2. 研究内容概述

2.1 基本定义

2.2 方法概述

在本系统实现的三个数据清洗功能中,我们主要研究了缺失值填充修复、高维时序数据中错列问题的检测与修复算法、高维时序数据的相关性计算模型、基于相关性分析的异常工业时序数据检测方法。由于篇幅的限制,我们在第3、4节主要介绍高维时间序列中错列检测与修复算法和于相关性分析的异常工业时序数据检测方法。

3. 高维时间序列中错列检测与修复算法

为了解决高维时间序列上的错列问题,我们的算法主要分为序列异常模式检测、错列匹配、错列最终修复三部分。

问题说明:错列部分以连续的区间形式存在,偶然出现在多维时间序列的某几列上,同一个错列问题(定义为一个错列模式)涉及到的子序列具有相同长度。不同错列模式发生的时间可能会交叉。

解决目标:准确识别多维时间序列上的错列问题,准确定位错列区间、以及发生错列的列号,完成对错列的准确匹配修复。

我们用群上的“置换”结构表示一个错列修复方案,每个置换可看做若干个轮换的乘积。例如修复方案:(1,2)(3,4,6)可看做(1,2)轮换和(3,4,6)轮换的乘积。我们把每个轮换作为最小的修复单元进行分析。根据问题定义,错列问题出现在连续的时间区间上,因此我们设计算法逐个检验每个轮换的使用区间(即分析步骤二的匹配结果),将近邻的采用相同修复模式的区间进行合并,对采用孤立修复模式的小区间进行修正,以达到提高修复度的目的。在这步算法中,我们也使用并查集结构,实现对区间合并的高效率操作。

4. 基于相关性的时序数据异常检测与修复算法

4.1 方法概述

本文提出的基于相关性计算的多维时间序列异常检测方法如图3所示,主要包括数据预处理、时序数据相关性计算以及异常检测三个部分.

数据预处理 由于采集的原始工业时间序列数据里存在一些数据质量问题,因此在数据预处理部分,需要对原始的时间序列数据进行时标对齐、缺失值填充等准备性操作,将整理好的高质量数据输入到后面模块进行计算分析.

时序数据相关性计算 将准备好的时间序列数据按工作周期模式进行分段,得到若干个时间子序列组,对每个子序列组分别进行序列PAA处理、计算相关性参数生成相关性矩阵、根据矩阵中的元素值,建立时序相关性图,并根据相关性阈值,划分图上的时序相关团.

(责任编辑:admin)