新能源功率預測是提升新能源場站控制,保障高百分比新能源發電接入電網安全穩定運行的關鍵技術。目前,因為通訊故障、設備異常、人為限電等不確定性問題,造成新能源場站的實測數據中富含高比列異常數據,從而減少了功率預測的精度。有效的數據清洗可以增強數據質量,使新能源功率預測結果愈發精確。
龍巖學院電氣工程與手動化大學、福建節電器智能化工程技術研究中心、福建省福州供電公司、福建泉州荔源集團的研究人員武佳卉、邵振國、楊少華、肖頌勇、吳國昌,在2020年第11期《電氣技術》雜志上撰文,首先概述了數據清洗的主流方式;之后對異常數據進行詳盡分類,從異常值剔除和缺位值構建兩個方面重點論述和剖析了現有數據清洗方式的基本思路、應用條件以及異同點;最后強調了未來數據清洗中值得關注的問題和方向。
隨著全球經濟的快速發展,能源的需求量逐年遞增。面對不可再生能源枯竭和全球環境污染問題,新能源以其安全性、環保性和可再生性等優勢在世界范圍內得到了高度注重和廣泛應用,并呈現出良好的發展前景。
據統計,在2019年第一季度,我國新增風電裝機容量478萬kW,累計并網裝機容量達到1.89億kW,全省風電發電量1041億kW?h,環比下降6.3%;新增光伏裝機容量478萬kW,累計并網裝機容量達到1.797億kW,全省光伏發電量440億kW?h,環比下降26%。
但是,因為新能源發電的隨機性和不確定性,新能源大規模并網后對電力系統的穩定運行導致了巨大的挑戰。提早對新能源進行發電功率預測,才能協助調度部門調整運行方法,從而保證電網的安全和穩定。近六年來風電功率預測數據,國外外許多學者都旨在于研究新能源的功率預測方式,并取得了豐富的成果。
進行新能源功率預測時,須要對從新能源場站搜集到的海量原始數據進行挖掘。但是,因為電場運行時機組棄風、棄光、檢修、極端天氣情況、外界電磁干擾或設備故障等誘因,造成原始數據中存在大量不完整的數據和異常的數據。這種不良數據嚴重影響預測模型的參數恐怕風電功率預測數據,導致預測精度低、預測誤差大等后果。因而在功率預測前,有必要進行有效的數據清洗處理。
目前針對新能源功率預測的數據預處理方面的綜述較少,因而有必要對新能源功率預測背景下的數據清洗方式進行綜述和展望。本文從異常值剔除和缺位值構建兩個方面,詳盡地闡釋、分析和歸納了新能源異常數據的類別和清洗方式。最后對數據清洗在新能源功率預測中須要進一步研究的方向進行了展望。
1考慮數據清洗的新能源功率預測
精確的功率預測有利于調度部門的決策,可以提升新能源場站的控制性能,從而降低棄風、棄光所造成的發電損失,解決供需不平衡所帶來的系統穩定性問題,提高新能源場站的市場競爭力。但是,精準的功率預測依賴于確切的檢測數據,因而有效的數據清洗是新能源功率預測必不可少的步驟。
新能源功率預測時所用到的數據有數值天氣預報(,NWP)數據、新能源運行實測數據和新能源地理信息數據等。
當下學者主要以預測變量和被預檢測為數據清洗對象。其中,預測變量可以為風速、輻照度等,被預檢測通常為新能源機組輸出功率。圖1所示為采用文進言量剖析法得出的數據清洗方式分類示意圖。
圖1數據清洗方式分類
2異常值剔除
2.1功率曲線中異常數據的分類
功率曲線是新能源發電的預測變量與被預檢測之間的關系曲線。學者們按照異常數據的分布特點,把出現頻度高的異常數據類型分成了4類。以風速-風機功率散點圖為例,采用比恩法勾畫風電功率曲線圖,4類異常數據的分布如圖2所示。
1)類型1:曲線上方的堆積型異常數據,一般是因為傳感失靈、通信或檢測設備故障造成的。
#9:6:1:e:c:7:8:2:0:d:9:3:4:b:1:6:e:c:a:2:b:0:9:4:5:f:4:f:b:7:d:b#
圖2異常數據的分布
2)類型2:曲線中部的堆積型異常數據,一般是由限電或通訊故障導致的。
3)類型3:曲線周圍的分散型異常數據,一般是因為氣象波動、信號傳播噪音等隨機情況導致的。
4)類型4:曲線下方的堆積型異常數據,一般是機組故障、停機檢修引起的。
2.2異常值剔除方式
1)統計量剖析法
采用統計量剖析的方式,重點在于對變量做描述性統計,因而查看什么數據是不合理的。常用的方式為借助最大值和最小值判別新能源功率和預測變量的取值是否超出范圍。若測量到功率大于等于零的數據則進行剔除,實現數據的清洗整定。統計量剖析方式可以簡單有效地完成對新能源數據的檢測,適宜處理不在有效數據范圍內的堆積型數據,并且不適用于處理大量的分散型異常數據。
2)法
法又稱為拉依達準則。假如數據服從正態分布,分布在(?-3?,?+3?)中的數據的機率為99.73%,而分布在距離平均值3?之外的數據的機率不到0.3%,屬于極小幾率風波,其中?為標準差,?為平均值。因而在3?原則下,將超過3倍的標準差的數據值視為異常值。
3)小波奇特點測量法
新能源異常數據可以看成是功率曲線中的奇特點。使用小波變換可以處理非平穩訊號,并從非平穩訊號中精確識別出奇特點的位置。一般來說,對奇特點位置的識別依賴于小波變換系數正負模極大值線在低尺度上的交點。正負模極大值線可以延展至尺度接近零處,保證兩曲線相交,因而找到奇特點的位置,然后再對其進行修正。
4)四分位算法
5)支持向量機回歸算法
支持向量機回歸算法(,SVMR)的核心是用函數擬合數據,在數據中富含大量異常值的情況下,曲線在回歸恐怕過程中會因趨近異常數據而發生畸變,進而導致回歸曲線的擬合療效不理想。
在SVMR算法的結構風險函數中加入不敏感損失函數,可以控制異常數據對回歸模型的影響,從整體上考慮回歸曲線的平滑性。這使異常數據與回歸值之間的方差非常明顯,因而更容易將異常數據進行分離。
6)K近來鄰降維算法
K近來鄰(K-,KNN)算法在分類上按照最緊鄰的一個或幾個數據的類別決定該數據的類別。利用距離參數表征數據的偏離程度,可以對異常數據進行檢查并剔除。常用的距離有歐氏距離和馬氏距離。當某數據點與其他數據點的距離都小于一個閥值時,就被判斷為異常數據。該方式簡單易懂,并且在訓練歷史數據建立物理模型時學習速率較慢,泛化能力較差,且須要大量的數據進行訓練,否則訓練偏差會較大。
7)組內最優殘差法
在使用組內最優殘差法(,OIV)時,首先要設置一個初始殘差閥值S,之后將預測變量界定成n個區間,區間界定的間隔一般取0.5個單位的預測變量,比如將風速區間間隔定為0.5m/s。再按照初始閥值S將每一個區間里的異常數據和正常數據進行分辨,最后對所有區間的數據進行歸納,進而找出所有的異常數據。
8)基于密度的離群點檢測算法
9)組合模型清洗法
2.3仿真測試
以山東某風電場為例,該風電場有24臺額定功率為2MW的風馬達組。風馬達組的切入風速為3m/s,額定風速為15m/s,切出風速為25m/s。風電場風速采集時間間隔為10min,采集時間為2015年2月1日00:00至2015年7月31日24:00。風速-功率散點圖如圖3所示。其中原始數據中有12%的異常數據。
圖3風速-功率散點圖
分別采用物理方式中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的組合算法對異常值進行剔除。結果顯示四分位法只剔除了6.65%的異常值,SVMR剔除了7.99%的異常值,而組合模型法的剔除率達到了10.2%。由此證明使用單一的清洗方式有一定的局限性,組合模型法可以將算法的優勢進行互補,從而實現較好的清洗療效。
3缺位值構建
在異常數據占比較高的情況下,數據清洗過程中的異常值剔除量將急劇變高,因而破壞了原始數據的完整性和寬裕度。這除了會影響新能源功率的預測模型,并且不利于數據再借助。通過對被剔除數據進行構建,才能保持數據的完整性和有效性。
采用文進言量剖析方式得出主流的缺位值構建方式有:①基于統計學的構建方式;②基于機器學習的構建方式;③基于數學特點的構建方式。
3.1基于統計學的構建方式
基于統計學的構建方式有均值構建法、多項式擬合法、級比生成法、三次樣條插補法和遞推式非鄰均值補全法等。其中最常用的為三次樣條插補法。
三次樣條插補函數通常會使用三撓度配準法去構造。當連續的異常數據點多于等于5時可以直接借助三次樣條配準函數對數據進行構建;當小于5時,則需用改進的多點三次樣條取樣法進行構建。基于統計學的構建方式較為簡便快速,而且構建的數據誤差較大,且忽視了新能源數據的時序信息。
3.2基于機器學習的構建方式
常用的基于機器學習的構建方式有KNN、回歸算法、期望最大化算法(-,EM)等。其中KNN按照歐式距離用于確定缺位數據樣本周圍近來的K個樣本,將K個值加權平均用于恐怕缺位值;回歸算法按照數據集構建回歸多項式,將缺位值的已知屬性帶入多項式去恐怕缺位值;EM假定模型對于完整樣本是正確的,通過觀察數據的邊際分布從而對缺位值進行極大殘差恐怕。
這種算法都是按照已有數據構建相應模型,之后使用模型來恐怕該樣本的缺位數據,應用較為普遍但卻未考慮相鄰數據間的時序信息。
自回歸滑動平均模型(auto,ARMA)填補了這個缺點,此算法將預測指標隨時間推移產生的數據序列看作是一個隨機序列,這組隨機變量所具有的依存關系彰顯著原始數據在時間上的延續性,進而用于缺位數據的插值。
3.3基于數學特點的構建方式
目前新能源場站都是大規模集中開發,每位電場附近就會有許多相鄰的風電場,因而新能源的出力會有一定的相關性。有學者借助相鄰電場的功率比值時間序列有一定程度的模式性構建數據,有學者借助出力的延時相關性構建數據,這兩種方式都充分借助了新能源出力的數學特點,實現通過已知的新能源場站輸出功率求得待構建電場的輸出功率,能有效改善數據構建療效。
因為目前有關風電數據構建的研究較少,且缺位數據構建的評定方式沒有一個量化的標準,本次研究將不對缺位值的構建方式進行仿真剖析。用于判定構建數據的成功率和確切率的評定技術有待進一步研究。
4展望
新能源發電機組中的異常數據會造成功率預測的精度減少,有效的數據清洗可以增強數據的質量,提高新能源功率預測結果的確切性。當前學者在新能源功率預測數據清洗領域的研究雖已展開但不健全,因而對數據清洗的研究須要愈發深入。
以下幾點問題須要進一步研究:
1)在結合幾種清洗方式同時處理數據時,方式的優勢可能會互補,也可能抵消。雖然有時互補的方式在使用次序不同時可能帶來不同的清洗療效。未來可以探究多種方式的組合形式及使用次序對數據清洗結果的影響。
2)當前學者們在數據清洗領域的研究主要分為異常值剔除和缺位值構建兩部份,范圍較窄。未來考慮將數據清洗概念進行擴充,例如當取樣數據未保持時間同步時,考慮將這種數據進行時刻糾偏,而不是直接剔除再構建,其中時刻糾偏也應屬于數據清洗的范疇。
3)現有文獻中對新能源的數據清洗和接出來功率預測的建模都進行了分離,未來可以考慮融合這兩個環節,產生清洗-建模-清洗的閉環結構。
4)功率預測前不僅要對新能源的運行數據進行清洗以外,還須要考慮氣象數據、地理誘因數據的清洗,這種數據也會由于種種誘因顯得異常或缺位。因而未來還需強化氣象數據、地理誘因數據的清洗。
6)經過多年的積累,我國早已有自主研制的功率預測系統,例如、WPPS和SPWF-3000等。開發針對新能源功率預測的數據清洗系統將成為未來的發展目標,這樣的系統可以高效且強通用性地對數據進行預處理,為功率預測提供堅強的數據支撐。
5推論
本文結合國外外最新文獻,從異常值剔除和缺位值構建兩個角度,總結了當前主流數據清洗方式的異同點。最后針對數據清洗在新能源功率預測中存在的不足,探討了數據清洗研究的關鍵性問題,并對未來的研究方向進行了展望。