数据清洗在新能源功率预测中的研究综述和展望

2023-10-27 22:41:36教育资讯58

新能源功率预测是提升新能源场站控制，保障高百分比新能源发电接入电网安全稳定运行的关键技术。目前，因为通讯故障、设备异常、人为限电等不确定性问题，造成新能源场站的实测数据中富含高比列异常数据，从而减少了功率预测的精度。有效的数据清洗可以增强数据质量，使新能源功率预测结果愈发精确。ULo物理好资源网(原物理ok网)

龙岩学院电气工程与手动化大学、福建节电器智能化工程技术研究中心、福建省福州供电公司、福建泉州荔源集团的研究人员武佳卉、邵振国、杨少华、肖颂勇、吴国昌，在2020年第11期《电气技术》杂志上撰文，首先概述了数据清洗的主流方式；之后对异常数据进行详尽分类，从异常值剔除和缺位值构建两个方面重点论述和剖析了现有数据清洗方式的基本思路、应用条件以及异同点；最后强调了未来数据清洗中值得关注的问题和方向。ULo物理好资源网(原物理ok网)

随着全球经济的快速发展，能源的需求量逐年递增。面对不可再生能源枯竭和全球环境污染问题，新能源以其安全性、环保性和可再生性等优势在世界范围内得到了高度注重和广泛应用，并呈现出良好的发展前景。ULo物理好资源网(原物理ok网)

据统计，在2019年第一季度，我国新增风电装机容量478万kW，累计并网装机容量达到1.89亿kW，全省风电发电量1041亿kW•h，环比下降6.3%；新增光伏装机容量478万kW，累计并网装机容量达到1.797亿kW，全省光伏发电量440亿kW•h，环比下降26%。ULo物理好资源网(原物理ok网)

但是，因为新能源发电的随机性和不确定性，新能源大规模并网后对电力系统的稳定运行导致了巨大的挑战。提早对新能源进行发电功率预测，才能协助调度部门调整运行方法，从而保证电网的安全和稳定。近六年来风电功率预测数据，国外外许多学者都旨在于研究新能源的功率预测方式，并取得了丰富的成果。ULo物理好资源网(原物理ok网)

进行新能源功率预测时，须要对从新能源场站搜集到的海量原始数据进行挖掘。但是，因为电场运行时机组弃风、弃光、检修、极端天气情况、外界电磁干扰或设备故障等诱因，造成原始数据中存在大量不完整的数据和异常的数据。这种不良数据严重影响预测模型的参数恐怕风电功率预测数据，导致预测精度低、预测误差大等后果。因而在功率预测前，有必要进行有效的数据清洗处理。ULo物理好资源网(原物理ok网)

目前针对新能源功率预测的数据预处理方面的综述较少，因而有必要对新能源功率预测背景下的数据清洗方式进行综述和展望。本文从异常值剔除和缺位值构建两个方面，详尽地阐释、分析和归纳了新能源异常数据的类别和清洗方式。最后对数据清洗在新能源功率预测中须要进一步研究的方向进行了展望。ULo物理好资源网(原物理ok网)

1考虑数据清洗的新能源功率预测ULo物理好资源网(原物理ok网)

精确的功率预测有利于调度部门的决策，可以提升新能源场站的控制性能，从而降低弃风、弃光所造成的发电损失，解决供需不平衡所带来的系统稳定性问题，提高新能源场站的市场竞争力。但是，精准的功率预测依赖于确切的检测数据，因而有效的数据清洗是新能源功率预测必不可少的步骤。ULo物理好资源网(原物理ok网)

新能源功率预测时所用到的数据有数值天气预报（,NWP）数据、新能源运行实测数据和新能源地理信息数据等。ULo物理好资源网(原物理ok网)

当下学者主要以预测变量和被预检测为数据清洗对象。其中，预测变量可以为风速、辐照度等，被预检测通常为新能源机组输出功率。图1所示为采用文进言量剖析法得出的数据清洗方式分类示意图。ULo物理好资源网(原物理ok网)

图1数据清洗方式分类ULo物理好资源网(原物理ok网)

2异常值剔除ULo物理好资源网(原物理ok网)

2.1功率曲线中异常数据的分类ULo物理好资源网(原物理ok网)

功率曲线是新能源发电的预测变量与被预检测之间的关系曲线。学者们按照异常数据的分布特点，把出现频度高的异常数据类型分成了4类。以风速-风机功率散点图为例，采用比恩法勾画风电功率曲线图，4类异常数据的分布如图2所示。ULo物理好资源网(原物理ok网)

1）类型1：曲线上方的堆积型异常数据，一般是因为传感失灵、通信或检测设备故障造成的。ULo物理好资源网(原物理ok网)

#9:6:1:e:c:7:8:2:0:d:9:3:4:b:1:6:e:c:a:2:b:0:9:4:5:f:4:f:b:7:d:b#ULo物理好资源网(原物理ok网)

图2异常数据的分布ULo物理好资源网(原物理ok网)

2）类型2：曲线中部的堆积型异常数据，一般是由限电或通讯故障导致的。ULo物理好资源网(原物理ok网)

3）类型3：曲线周围的分散型异常数据，一般是因为气象波动、信号传播噪音等随机情况导致的。ULo物理好资源网(原物理ok网)

4）类型4：曲线下方的堆积型异常数据，一般是机组故障、停机检修引起的。ULo物理好资源网(原物理ok网)

2.2异常值剔除方式ULo物理好资源网(原物理ok网)

风功率预测准确率计算_风电功率预测数据_风功率预测的作用 ULo物理好资源网(原物理ok网)

1）统计量剖析法ULo物理好资源网(原物理ok网)

采用统计量剖析的方式，重点在于对变量做描述性统计，因而查看什么数据是不合理的。常用的方式为借助最大值和最小值判别新能源功率和预测变量的取值是否超出范围。若测量到功率大于等于零的数据则进行剔除，实现数据的清洗整定。统计量剖析方式可以简单有效地完成对新能源数据的检测，适宜处理不在有效数据范围内的堆积型数据，并且不适用于处理大量的分散型异常数据。ULo物理好资源网(原物理ok网)

2）法ULo物理好资源网(原物理ok网)

法又称为拉依达准则。假如数据服从正态分布，分布在（-3,+3）中的数据的机率为99.73%，而分布在距离平均值3之外的数据的机率不到0.3%，属于极小几率风波，其中为标准差，为平均值。因而在3原则下，将超过3倍的标准差的数据值视为异常值。ULo物理好资源网(原物理ok网)

3）小波奇特点测量法ULo物理好资源网(原物理ok网)

新能源异常数据可以看成是功率曲线中的奇特点。使用小波变换可以处理非平稳讯号，并从非平稳讯号中精确识别出奇特点的位置。一般来说，对奇特点位置的识别依赖于小波变换系数正负模极大值线在低尺度上的交点。正负模极大值线可以延展至尺度接近零处，保证两曲线相交，因而找到奇特点的位置，然后再对其进行修正。ULo物理好资源网(原物理ok网)

4）四分位算法ULo物理好资源网(原物理ok网)

5）支持向量机回归算法ULo物理好资源网(原物理ok网)

支持向量机回归算法（,SVMR）的核心是用函数拟合数据，在数据中富含大量异常值的情况下，曲线在回归恐怕过程中会因趋近异常数据而发生畸变，进而导致回归曲线的拟合疗效不理想。ULo物理好资源网(原物理ok网)

在SVMR算法的结构风险函数中加入不敏感损失函数，可以控制异常数据对回归模型的影响，从整体上考虑回归曲线的平滑性。这使异常数据与回归值之间的方差非常明显，因而更容易将异常数据进行分离。ULo物理好资源网(原物理ok网)

6）K近来邻降维算法ULo物理好资源网(原物理ok网)

K近来邻（K-,KNN）算法在分类上按照最紧邻的一个或几个数据的类别决定该数据的类别。利用距离参数表征数据的偏离程度，可以对异常数据进行检查并剔除。常用的距离有欧氏距离和马氏距离。当某数据点与其他数据点的距离都小于一个阀值时，就被判断为异常数据。该方式简单易懂，并且在训练历史数据建立物理模型时学习速率较慢，泛化能力较差，且须要大量的数据进行训练，否则训练偏差会较大。ULo物理好资源网(原物理ok网)

7）组内最优残差法ULo物理好资源网(原物理ok网)

在使用组内最优残差法（,OIV）时，首先要设置一个初始残差阀值S，之后将预测变量界定成n个区间，区间界定的间隔一般取0.5个单位的预测变量，比如将风速区间间隔定为0.5m/s。再按照初始阀值S将每一个区间里的异常数据和正常数据进行分辨，最后对所有区间的数据进行归纳，进而找出所有的异常数据。ULo物理好资源网(原物理ok网)

8）基于密度的离群点检测算法ULo物理好资源网(原物理ok网)

9）组合模型清洗法ULo物理好资源网(原物理ok网)

2.3仿真测试ULo物理好资源网(原物理ok网)

以山东某风电场为例，该风电场有24台额定功率为2MW的风马达组。风马达组的切入风速为3m/s，额定风速为15m/s，切出风速为25m/s。风电场风速采集时间间隔为10min，采集时间为2015年2月1日00:00至2015年7月31日24:00。风速-功率散点图如图3所示。其中原始数据中有12%的异常数据。ULo物理好资源网(原物理ok网)

图3风速-功率散点图ULo物理好资源网(原物理ok网)

分别采用物理方式中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的组合算法对异常值进行剔除。结果显示四分位法只剔除了6.65%的异常值，SVMR剔除了7.99%的异常值，而组合模型法的剔除率达到了10.2%。由此证明使用单一的清洗方式有一定的局限性，组合模型法可以将算法的优势进行互补，从而实现较好的清洗疗效。ULo物理好资源网(原物理ok网)

3缺位值构建ULo物理好资源网(原物理ok网)

在异常数据占比较高的情况下，数据清洗过程中的异常值剔除量将急剧变高，因而破坏了原始数据的完整性和宽裕度。这除了会影响新能源功率的预测模型，并且不利于数据再借助。通过对被剔除数据进行构建，才能保持数据的完整性和有效性。ULo物理好资源网(原物理ok网)

采用文进言量剖析方式得出主流的缺位值构建方式有：①基于统计学的构建方式；②基于机器学习的构建方式；③基于数学特点的构建方式。ULo物理好资源网(原物理ok网)

3.1基于统计学的构建方式ULo物理好资源网(原物理ok网)

基于统计学的构建方式有均值构建法、多项式拟合法、级比生成法、三次样条插补法和递推式非邻均值补全法等。其中最常用的为三次样条插补法。ULo物理好资源网(原物理ok网)

三次样条插补函数通常会使用三挠度配准法去构造。当连续的异常数据点多于等于5时可以直接借助三次样条配准函数对数据进行构建；当小于5时，则需用改进的多点三次样条取样法进行构建。基于统计学的构建方式较为简便快速，而且构建的数据误差较大，且忽视了新能源数据的时序信息。ULo物理好资源网(原物理ok网)

3.2基于机器学习的构建方式ULo物理好资源网(原物理ok网)

常用的基于机器学习的构建方式有KNN、回归算法、期望最大化算法（-,EM）等。其中KNN按照欧式距离用于确定缺位数据样本周围近来的K个样本，将K个值加权平均用于恐怕缺位值；回归算法按照数据集构建回归多项式，将缺位值的已知属性带入多项式去恐怕缺位值；EM假定模型对于完整样本是正确的，通过观察数据的边际分布从而对缺位值进行极大残差恐怕。ULo物理好资源网(原物理ok网)

这种算法都是按照已有数据构建相应模型，之后使用模型来恐怕该样本的缺位数据，应用较为普遍但却未考虑相邻数据间的时序信息。ULo物理好资源网(原物理ok网)

自回归滑动平均模型（auto,ARMA）填补了这个缺点，此算法将预测指标随时间推移产生的数据序列看作是一个随机序列，这组随机变量所具有的依存关系彰显着原始数据在时间上的延续性，进而用于缺位数据的插值。ULo物理好资源网(原物理ok网)

3.3基于数学特点的构建方式ULo物理好资源网(原物理ok网)

目前新能源场站都是大规模集中开发，每位电场附近就会有许多相邻的风电场，因而新能源的出力会有一定的相关性。有学者借助相邻电场的功率比值时间序列有一定程度的模式性构建数据，有学者借助出力的延时相关性构建数据，这两种方式都充分借助了新能源出力的数学特点，实现通过已知的新能源场站输出功率求得待构建电场的输出功率，能有效改善数据构建疗效。ULo物理好资源网(原物理ok网)

因为目前有关风电数据构建的研究较少，且缺位数据构建的评定方式没有一个量化的标准，本次研究将不对缺位值的构建方式进行仿真剖析。用于判定构建数据的成功率和确切率的评定技术有待进一步研究。ULo物理好资源网(原物理ok网)

4展望ULo物理好资源网(原物理ok网)

新能源发电机组中的异常数据会造成功率预测的精度减少，有效的数据清洗可以增强数据的质量，提高新能源功率预测结果的确切性。当前学者在新能源功率预测数据清洗领域的研究虽已展开但不健全，因而对数据清洗的研究须要愈发深入。ULo物理好资源网(原物理ok网)

以下几点问题须要进一步研究：ULo物理好资源网(原物理ok网)

1）在结合几种清洗方式同时处理数据时，方式的优势可能会互补，也可能抵消。虽然有时互补的方式在使用次序不同时可能带来不同的清洗疗效。未来可以探究多种方式的组合形式及使用次序对数据清洗结果的影响。ULo物理好资源网(原物理ok网)

2）当前学者们在数据清洗领域的研究主要分为异常值剔除和缺位值构建两部份，范围较窄。未来考虑将数据清洗概念进行扩充，例如当取样数据未保持时间同步时，考虑将这种数据进行时刻纠偏，而不是直接剔除再构建，其中时刻纠偏也应属于数据清洗的范畴。ULo物理好资源网(原物理ok网)

3）现有文献中对新能源的数据清洗和接出来功率预测的建模都进行了分离，未来可以考虑融合这两个环节，产生清洗-建模-清洗的闭环结构。ULo物理好资源网(原物理ok网)

4）功率预测前不仅要对新能源的运行数据进行清洗以外，还须要考虑气象数据、地理诱因数据的清洗，这种数据也会由于种种诱因显得异常或缺位。因而未来还需强化气象数据、地理诱因数据的清洗。ULo物理好资源网(原物理ok网)

6）经过多年的积累，我国早已有自主研制的功率预测系统，例如、WPPS和SPWF-3000等。开发针对新能源功率预测的数据清洗系统将成为未来的发展目标，这样的系统可以高效且强通用性地对数据进行预处理，为功率预测提供坚强的数据支撑。ULo物理好资源网(原物理ok网)

5推论ULo物理好资源网(原物理ok网)

本文结合国外外最新文献，从异常值剔除和缺位值构建两个角度，总结了当前主流数据清洗方式的异同点。最后针对数据清洗在新能源功率预测中存在的不足，探讨了数据清洗研究的关键性问题，并对未来的研究方向进行了展望。ULo物理好资源网(原物理ok网)

PREV ARTICLE《牛顿第一定理》教学反省

NEXT ARTICLE初学物理感想