數(shù)據(jù)清洗在新能源功率預測中的研究綜述和展望

2023-10-27 22:41:36教育資訊58

新能源功率預測是提升新能源場站控制，保障高百分比新能源發(fā)電接入電網(wǎng)安全穩(wěn)定運行的關鍵技術。目前，因為通訊故障、設備異常、人為限電等不確定性問題，造成新能源場站的實測數(shù)據(jù)中富含高比列異常數(shù)據(jù)，從而減少了功率預測的精度。有效的數(shù)據(jù)清洗可以增強數(shù)據(jù)質量，使新能源功率預測結果愈發(fā)精確。

龍巖學院電氣工程與手動化大學、福建節(jié)電器智能化工程技術研究中心、福建省福州供電公司、福建泉州荔源集團的研究人員武佳卉、邵振國、楊少華、肖頌勇、吳國昌，在2020年第11期《電氣技術》雜志上撰文，首先概述了數(shù)據(jù)清洗的主流方式；之后對異常數(shù)據(jù)進行詳盡分類，從異常值剔除和缺位值構建兩個方面重點論述和剖析了現(xiàn)有數(shù)據(jù)清洗方式的基本思路、應用條件以及異同點；最后強調(diào)了未來數(shù)據(jù)清洗中值得關注的問題和方向。

隨著全球經(jīng)濟的快速發(fā)展，能源的需求量逐年遞增。面對不可再生能源枯竭和全球環(huán)境污染問題，新能源以其安全性、環(huán)保性和可再生性等優(yōu)勢在世界范圍內(nèi)得到了高度注重和廣泛應用，并呈現(xiàn)出良好的發(fā)展前景。

據(jù)統(tǒng)計，在2019年第一季度，我國新增風電裝機容量478萬kW，累計并網(wǎng)裝機容量達到1.89億kW，全省風電發(fā)電量1041億kW?h，環(huán)比下降6.3%；新增光伏裝機容量478萬kW，累計并網(wǎng)裝機容量達到1.797億kW，全省光伏發(fā)電量440億kW?h，環(huán)比下降26%。

但是，因為新能源發(fā)電的隨機性和不確定性，新能源大規(guī)模并網(wǎng)后對電力系統(tǒng)的穩(wěn)定運行導致了巨大的挑戰(zhàn)。提早對新能源進行發(fā)電功率預測，才能協(xié)助調(diào)度部門調(diào)整運行方法，從而保證電網(wǎng)的安全和穩(wěn)定。近六年來風電功率預測數(shù)據(jù)，國外外許多學者都旨在于研究新能源的功率預測方式，并取得了豐富的成果。

進行新能源功率預測時，須要對從新能源場站搜集到的海量原始數(shù)據(jù)進行挖掘。但是，因為電場運行時機組棄風、棄光、檢修、極端天氣情況、外界電磁干擾或設備故障等誘因，造成原始數(shù)據(jù)中存在大量不完整的數(shù)據(jù)和異常的數(shù)據(jù)。這種不良數(shù)據(jù)嚴重影響預測模型的參數(shù)恐怕風電功率預測數(shù)據(jù)，導致預測精度低、預測誤差大等后果。因而在功率預測前，有必要進行有效的數(shù)據(jù)清洗處理。

目前針對新能源功率預測的數(shù)據(jù)預處理方面的綜述較少，因而有必要對新能源功率預測背景下的數(shù)據(jù)清洗方式進行綜述和展望。本文從異常值剔除和缺位值構建兩個方面，詳盡地闡釋、分析和歸納了新能源異常數(shù)據(jù)的類別和清洗方式。最后對數(shù)據(jù)清洗在新能源功率預測中須要進一步研究的方向進行了展望。

1考慮數(shù)據(jù)清洗的新能源功率預測

精確的功率預測有利于調(diào)度部門的決策，可以提升新能源場站的控制性能，從而降低棄風、棄光所造成的發(fā)電損失，解決供需不平衡所帶來的系統(tǒng)穩(wěn)定性問題，提高新能源場站的市場競爭力。但是，精準的功率預測依賴于確切的檢測數(shù)據(jù)，因而有效的數(shù)據(jù)清洗是新能源功率預測必不可少的步驟。

新能源功率預測時所用到的數(shù)據(jù)有數(shù)值天氣預報（,NWP）數(shù)據(jù)、新能源運行實測數(shù)據(jù)和新能源地理信息數(shù)據(jù)等。

當下學者主要以預測變量和被預檢測為數(shù)據(jù)清洗對象。其中，預測變量可以為風速、輻照度等，被預檢測通常為新能源機組輸出功率。圖1所示為采用文進言量剖析法得出的數(shù)據(jù)清洗方式分類示意圖。

圖1數(shù)據(jù)清洗方式分類

2異常值剔除

2.1功率曲線中異常數(shù)據(jù)的分類

功率曲線是新能源發(fā)電的預測變量與被預檢測之間的關系曲線。學者們按照異常數(shù)據(jù)的分布特點，把出現(xiàn)頻度高的異常數(shù)據(jù)類型分成了4類。以風速-風機功率散點圖為例，采用比恩法勾畫風電功率曲線圖，4類異常數(shù)據(jù)的分布如圖2所示。

1）類型1：曲線上方的堆積型異常數(shù)據(jù)，一般是因為傳感失靈、通信或檢測設備故障造成的。

#9:6:1:e:c:7:8:2:0:d:9:3:4:b:1:6:e:c:a:2:b:0:9:4:5:f:4:f:b:7:d:b#

圖2異常數(shù)據(jù)的分布

2）類型2：曲線中部的堆積型異常數(shù)據(jù)，一般是由限電或通訊故障導致的。

3）類型3：曲線周圍的分散型異常數(shù)據(jù)，一般是因為氣象波動、信號傳播噪音等隨機情況導致的。

4）類型4：曲線下方的堆積型異常數(shù)據(jù)，一般是機組故障、停機檢修引起的。

2.2異常值剔除方式

風功率預測準確率計算_風電功率預測數(shù)據(jù)_風功率預測的作用

1）統(tǒng)計量剖析法

采用統(tǒng)計量剖析的方式，重點在于對變量做描述性統(tǒng)計，因而查看什么數(shù)據(jù)是不合理的。常用的方式為借助最大值和最小值判別新能源功率和預測變量的取值是否超出范圍。若測量到功率大于等于零的數(shù)據(jù)則進行剔除，實現(xiàn)數(shù)據(jù)的清洗整定。統(tǒng)計量剖析方式可以簡單有效地完成對新能源數(shù)據(jù)的檢測，適宜處理不在有效數(shù)據(jù)范圍內(nèi)的堆積型數(shù)據(jù)，并且不適用于處理大量的分散型異常數(shù)據(jù)。

2）法

法又稱為拉依達準則。假如數(shù)據(jù)服從正態(tài)分布，分布在（?-3?,?+3?）中的數(shù)據(jù)的機率為99.73%，而分布在距離平均值3?之外的數(shù)據(jù)的機率不到0.3%，屬于極小幾率風波，其中?為標準差，?為平均值。因而在3?原則下，將超過3倍的標準差的數(shù)據(jù)值視為異常值。

3）小波奇特點測量法

新能源異常數(shù)據(jù)可以看成是功率曲線中的奇特點。使用小波變換可以處理非平穩(wěn)訊號，并從非平穩(wěn)訊號中精確識別出奇特點的位置。一般來說，對奇特點位置的識別依賴于小波變換系數(shù)正負模極大值線在低尺度上的交點。正負模極大值線可以延展至尺度接近零處，保證兩曲線相交，因而找到奇特點的位置，然后再對其進行修正。

4）四分位算法

5）支持向量機回歸算法

支持向量機回歸算法（,SVMR）的核心是用函數(shù)擬合數(shù)據(jù)，在數(shù)據(jù)中富含大量異常值的情況下，曲線在回歸恐怕過程中會因趨近異常數(shù)據(jù)而發(fā)生畸變，進而導致回歸曲線的擬合療效不理想。

在SVMR算法的結構風險函數(shù)中加入不敏感損失函數(shù)，可以控制異常數(shù)據(jù)對回歸模型的影響，從整體上考慮回歸曲線的平滑性。這使異常數(shù)據(jù)與回歸值之間的方差非常明顯，因而更容易將異常數(shù)據(jù)進行分離。

6）K近來鄰降維算法

K近來鄰（K-,KNN）算法在分類上按照最緊鄰的一個或幾個數(shù)據(jù)的類別決定該數(shù)據(jù)的類別。利用距離參數(shù)表征數(shù)據(jù)的偏離程度，可以對異常數(shù)據(jù)進行檢查并剔除。常用的距離有歐氏距離和馬氏距離。當某數(shù)據(jù)點與其他數(shù)據(jù)點的距離都小于一個閥值時，就被判斷為異常數(shù)據(jù)。該方式簡單易懂，并且在訓練歷史數(shù)據(jù)建立物理模型時學習速率較慢，泛化能力較差，且須要大量的數(shù)據(jù)進行訓練，否則訓練偏差會較大。

7）組內(nèi)最優(yōu)殘差法

在使用組內(nèi)最優(yōu)殘差法（,OIV）時，首先要設置一個初始殘差閥值S，之后將預測變量界定成n個區(qū)間，區(qū)間界定的間隔一般取0.5個單位的預測變量，比如將風速區(qū)間間隔定為0.5m/s。再按照初始閥值S將每一個區(qū)間里的異常數(shù)據(jù)和正常數(shù)據(jù)進行分辨，最后對所有區(qū)間的數(shù)據(jù)進行歸納，進而找出所有的異常數(shù)據(jù)。

8）基于密度的離群點檢測算法

9）組合模型清洗法

2.3仿真測試

以山東某風電場為例，該風電場有24臺額定功率為2MW的風馬達組。風馬達組的切入風速為3m/s，額定風速為15m/s，切出風速為25m/s。風電場風速采集時間間隔為10min，采集時間為2015年2月1日00:00至2015年7月31日24:00。風速-功率散點圖如圖3所示。其中原始數(shù)據(jù)中有12%的異常數(shù)據(jù)。

圖3風速-功率散點圖

分別采用物理方式中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結果顯示四分位法只剔除了6.65%的異常值，SVMR剔除了7.99%的異常值，而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方式有一定的局限性，組合模型法可以將算法的優(yōu)勢進行互補，從而實現(xiàn)較好的清洗療效。

3缺位值構建

在異常數(shù)據(jù)占比較高的情況下，數(shù)據(jù)清洗過程中的異常值剔除量將急劇變高，因而破壞了原始數(shù)據(jù)的完整性和寬裕度。這除了會影響新能源功率的預測模型，并且不利于數(shù)據(jù)再借助。通過對被剔除數(shù)據(jù)進行構建，才能保持數(shù)據(jù)的完整性和有效性。

采用文進言量剖析方式得出主流的缺位值構建方式有：①基于統(tǒng)計學的構建方式；②基于機器學習的構建方式；③基于數(shù)學特點的構建方式。

3.1基于統(tǒng)計學的構建方式

基于統(tǒng)計學的構建方式有均值構建法、多項式擬合法、級比生成法、三次樣條插補法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插補法。

三次樣條插補函數(shù)通常會使用三撓度配準法去構造。當連續(xù)的異常數(shù)據(jù)點多于等于5時可以直接借助三次樣條配準函數(shù)對數(shù)據(jù)進行構建；當小于5時，則需用改進的多點三次樣條取樣法進行構建。基于統(tǒng)計學的構建方式較為簡便快速，而且構建的數(shù)據(jù)誤差較大，且忽視了新能源數(shù)據(jù)的時序信息。

3.2基于機器學習的構建方式

常用的基于機器學習的構建方式有KNN、回歸算法、期望最大化算法（-,EM）等。其中KNN按照歐式距離用于確定缺位數(shù)據(jù)樣本周圍近來的K個樣本，將K個值加權平均用于恐怕缺位值；回歸算法按照數(shù)據(jù)集構建回歸多項式，將缺位值的已知屬性帶入多項式去恐怕缺位值；EM假定模型對于完整樣本是正確的，通過觀察數(shù)據(jù)的邊際分布從而對缺位值進行極大殘差恐怕。

這種算法都是按照已有數(shù)據(jù)構建相應模型，之后使用模型來恐怕該樣本的缺位數(shù)據(jù)，應用較為普遍但卻未考慮相鄰數(shù)據(jù)間的時序信息。

自回歸滑動平均模型（auto,ARMA）填補了這個缺點，此算法將預測指標隨時間推移產(chǎn)生的數(shù)據(jù)序列看作是一個隨機序列，這組隨機變量所具有的依存關系彰顯著原始數(shù)據(jù)在時間上的延續(xù)性，進而用于缺位數(shù)據(jù)的插值。

3.3基于數(shù)學特點的構建方式

目前新能源場站都是大規(guī)模集中開發(fā)，每位電場附近就會有許多相鄰的風電場，因而新能源的出力會有一定的相關性。有學者借助相鄰電場的功率比值時間序列有一定程度的模式性構建數(shù)據(jù)，有學者借助出力的延時相關性構建數(shù)據(jù)，這兩種方式都充分借助了新能源出力的數(shù)學特點，實現(xiàn)通過已知的新能源場站輸出功率求得待構建電場的輸出功率，能有效改善數(shù)據(jù)構建療效。

因為目前有關風電數(shù)據(jù)構建的研究較少，且缺位數(shù)據(jù)構建的評定方式?jīng)]有一個量化的標準，本次研究將不對缺位值的構建方式進行仿真剖析。用于判定構建數(shù)據(jù)的成功率和確切率的評定技術有待進一步研究。

4展望

新能源發(fā)電機組中的異常數(shù)據(jù)會造成功率預測的精度減少，有效的數(shù)據(jù)清洗可以增強數(shù)據(jù)的質量，提高新能源功率預測結果的確切性。當前學者在新能源功率預測數(shù)據(jù)清洗領域的研究雖已展開但不健全，因而對數(shù)據(jù)清洗的研究須要愈發(fā)深入。

以下幾點問題須要進一步研究：

1）在結合幾種清洗方式同時處理數(shù)據(jù)時，方式的優(yōu)勢可能會互補，也可能抵消。雖然有時互補的方式在使用次序不同時可能帶來不同的清洗療效。未來可以探究多種方式的組合形式及使用次序對數(shù)據(jù)清洗結果的影響。

2）當前學者們在數(shù)據(jù)清洗領域的研究主要分為異常值剔除和缺位值構建兩部份，范圍較窄。未來考慮將數(shù)據(jù)清洗概念進行擴充，例如當取樣數(shù)據(jù)未保持時間同步時，考慮將這種數(shù)據(jù)進行時刻糾偏，而不是直接剔除再構建，其中時刻糾偏也應屬于數(shù)據(jù)清洗的范疇。

3）現(xiàn)有文獻中對新能源的數(shù)據(jù)清洗和接出來功率預測的建模都進行了分離，未來可以考慮融合這兩個環(huán)節(jié)，產(chǎn)生清洗-建模-清洗的閉環(huán)結構。

4）功率預測前不僅要對新能源的運行數(shù)據(jù)進行清洗以外，還須要考慮氣象數(shù)據(jù)、地理誘因數(shù)據(jù)的清洗，這種數(shù)據(jù)也會由于種種誘因顯得異常或缺位。因而未來還需強化氣象數(shù)據(jù)、地理誘因數(shù)據(jù)的清洗。

6）經(jīng)過多年的積累，我國早已有自主研制的功率預測系統(tǒng)，例如、WPPS和SPWF-3000等。開發(fā)針對新能源功率預測的數(shù)據(jù)清洗系統(tǒng)將成為未來的發(fā)展目標，這樣的系統(tǒng)可以高效且強通用性地對數(shù)據(jù)進行預處理，為功率預測提供堅強的數(shù)據(jù)支撐。

5推論

本文結合國外外最新文獻，從異常值剔除和缺位值構建兩個角度，總結了當前主流數(shù)據(jù)清洗方式的異同點。最后針對數(shù)據(jù)清洗在新能源功率預測中存在的不足，探討了數(shù)據(jù)清洗研究的關鍵性問題，并對未來的研究方向進行了展望。

PREV ARTICLE《牛頓第一定理》教學反省

NEXT ARTICLE初學物理感想

久久天天躁狠狠躁夜夜躁,国产精品入口福利,97久久精品人人爽人人爽蜜臀 ,中文字幕国产精品一区二区

數(shù)據(jù)清洗在新能源功率預測中的研究綜述和展望