應用MaxCompute實現變壓器局部放電相位分析
1 引言
隨著智能電網建設的不斷推進,智能化電力一次設備和常規電力設備的在線監測都得到了較大發展並成為趨勢,監測數據日益龐大,電力設備在線監測系統在數據存儲和處理方面面臨巨大的技術挑戰。
局部放電是高壓設備的重要監測內容。局部放電相位分析方法是目前成熟且應用廣泛的宏觀特徵提取方法。隨著感測器技術的進步,局部放電的檢測方法呈現多樣化,局部放電信號的頻率高且頻帶較寬,這就要求信號採樣率高,可以達到KHz甚至MHz(每秒採樣百萬次),加之需要監測的設備眾多,因此監測數據量呈現海量化,傳統的基於單機的存儲和相位分析已經難以滿足當前海量數據的計算需求,迫切需要大數據處理技術的支持。
筆者在前期的研究中,使用了實驗室自建的Hadoop平台,遇到的問題主要包括:1)受資金限制,集群規模較小,存儲和計算資源有限。2)集群維護困難;3)服務僅在單位內網可用;4)前期需要購買硬體資金投入高,設備的利用率又很低。5)並行程序框架限制:Hadoop的MapReduce在每一輪操作之後,數據必須存儲到分布式文件系統上或者HBase,接下去的Map任務執行了冗餘的IO操作,導致性能下降。
公有雲計算平台以按需租用的方式,將用戶從硬體採購、組網、平台搭建、系統軟硬體維護中解脫出來,將存儲資源、計算資源以Web Service的方式封裝,並對外售賣,使用戶可以專心於構建系統的業務邏輯。筆者嘗試利用阿里雲MaxCompute存儲變壓器局部放點數據,並加速相位分析過程。實驗結果表明,該方法相比於Hadoop MapReduce在計算效率上明顯提升,並在數據可靠性、服務可用性以及成本方面具有明顯優勢。
2 局部放電數據的MaxCompute表存儲
局部放電相位分析將多個工頻周期內監測所得的局部放電參數(放電次數N、視在放電量Q或放電幅值,及放電所在相位Φ)折算到一個工頻周期內,計算其統計規律性,獲取放電譜圖,統計放電特徵,用於模式識別。
MaxCompute以表(Table)為基本單元存儲數據,與Hadoop的文件系統(HDFS)以文件為單位存儲數據有明顯差別,表的模式不能直接套用HDFS文件的格式,需要重新設計存儲模式。局部放電信號採樣數據(二進位dat文件)在上傳至MaxCompute前,需要轉換成文本文件格式(.csv文件),再使用Tunnel工具將本地數據上傳至MaxCompute表。
如果使用HDFS文件存儲,可以每行存儲一個工頻周期的採樣數據(本文中,含80萬個採樣點),之後執行MapReduce分析任務時,可以將一行數據作為Map函數的輸入。但是MaxCompute表的列數和表格單元的數據類型存在限制,列的數量不能超過1024列,表格單元的數據類型目前僅支持6種數據類型(Bigint,Double,String,Boolean,Datetime,Decimal),因此無法在一行內存儲80萬個採樣值。這就需要重新設計表結構。本文中,設計了表MPD,用於存儲原始採樣數據,如圖1所示。MPD採用2級分區,其中第1級分區名名稱是DeviceID,表示設備ID。第2級分區是採集時間。
圖1 MPD表結構
Maxcompute支持分區,這裡以分區鍵作為檢索條件,可以大幅減少數據搜索範圍,並能快速定位到所需數據,有效提升訪問性能,並節省費用。
局部放電數據分析過程中,需要產生中間結果數據,因此又設計了基本參數NQF表和放電譜圖PT表,表模式如下:
表1 NQF表
SampleID | Time | Phase | Max |
樣本ID | 時間 | 相位 | 峰值(統計得到) |
其中,SampleID表示用於完成一次特徵計算的譜圖數據的編號。
表2 PT表
SampleID | Wid | TotalQ | AverageQ | Nums | Max |
樣本ID | 窗編號 | 放電總量 | 平均放電量 | 放電次數 | 峰值 |
相位分析最終產生的結果是放電波形數據的統計特徵,包含:正負半周期譜圖偏斜度Sk、陡峭度Ku、局部峰點數Pe、互相關係數Cc等,如表3所示。
表3 統計特徵表
SampleID | SkN | SkQ | KuN | KuQ | PeN | PeQ | Cc | QF | MCC |
這些特徵的含義在此不做過多解釋,請查閱相關文獻。
3 使用MR2完成放電數據的相位分析
MR2是MaxCompute的擴展MapReduce模型,可以在Reduce後面直接執行下一次的Reduce操作,而不需要中間插入一個Map操作,這可以有效減少磁碟IO。可以支持Map後連接任意多個Reduce操作,比如Map-Reduce-Reduce…。
相位分析過程需要多個MapReduce任務串聯完成,如圖2所示。
圖2 相位分析MapReduce任務關係
格式轉換是為了將採樣數據上傳至ODPS表而做的數據預處理,主要任務是將二進位採樣數據轉換成Tunnel能夠使用的文本格式。
子任務1用於提取基本統計參數n-q-φ,需要掃描MPD表指定分區,找到放電過程,並記錄放電相位和幅值。Mapper函數對逐條輸入的採樣數據,根據預先設定的縱向閾值進行數據篩選,並將大於閾值的採樣點輸出至Combiner。Combiner是本地(與Mapper在相同的節點)執行的匯總,對Mapper的輸出結果集合,尋找峰值點,並輸出至Reducer進行匯總。Combiner有效的分擔了Reducer的數據匯總工作,並且減少了Reducer所在節點傳輸的數據量,可以有效提升並行計算過程的速度。Reducer函數負責匯總由Combiner輸出來的極值點,並使用預先設定的橫向閾值進行極值點的篩選。如果兩個極值點距離「很近」(相位差小於橫向閾值),則認為是同一次放電。輸出的結果存儲於NQF表。
子任務2接收NQF表的數據作為輸入,計算放電譜圖和統計特徵。為了加快計算速度,設計了Map-Reduce1-Reduce2模式的計算過程,使譜圖數據作為中間結果緩存在Maxcompute分布式內存中,節約了磁碟讀取的開銷。Reduce1和Reduce2的連接使用了Maxcompute提供的Pipeline完成。子任務2最終的輸出是統計特徵表,可以用於後續的模式識別任務,模式識別可以寫程序完成,或者使用阿里雲機器學習平台去完成。
4 實驗分析
在實驗室完成了電暈放電、懸浮放電、氣泡放電和油中放電實驗。局部放電信號採集儀器採用TWPD-2F局部放電綜合分析儀,最大採樣頻率為40MHz,採集信號的有效頻帶為40k~300kHz。
為驗證所設計的分析演算法性能和穩定性,選取了不同大小的數據集,如表4所示。數據集1x表示1倍數據,包含50個文件(50條局放數據),本文中選用50條局放數據進行1次統計特徵的提取。
表4 實驗用數據集
數據集ID | 記錄數(dat文件數)(條) | dat(GB) | csv(GB) | MaxComputeTable(GB) | Table記錄數(萬條) | 壓縮比 |
1x | 50 | 0.305 | 0.898 | 0.203 | 4000 | 4.421 |
2x | 100 | 0.61 | 1.75 | 0.425 | 8000 | 4.118 |
4x | 200 | 1.22 | 3.5 | 0.852 | 16000 | 4.108 |
8x | 400 | 2.44 | 7 | 1.523 | 32000 | 4.596 |
16x | 800 | 4.88 | 14 | 3.447 | 64000 | 4.061 |
32x | 1600 | 9.76 | 28 | 6.394 | 128000 | 4.379 |
64x | 3200 | 19.52 | 56 | 12.688 | 256000 | 4.414 |
128x | 6400 | 39.04 | 112 | 25.972 | 512000 | 4.312 |
256x | 12800 | 78.08 | 224 | 51.952 | 1024000 | 4.427 |
分別在單機環境下、實驗室自建的Hadoop平台(6個計算節點)下和Maxcompute平台下完成放電數據的相位分析,(分別命名為S-PRPD、Hadoop-PRPD、ODPS-PRPD),測量演算法執行的時間、使用的硬體資源(CPU、內存)進行性能對比,如圖3、圖4、圖5所示。
圖3 相位分析執行任務執行時間
在圖3中,S-PRPD演算法在單機環境下運行,執行時間隨數據量增加急劇增長。只完成了4X數據集的分析任務(更大數據量耗時太長)。Hadoop-PRPD演算法在自建Hadoop平台下執行。受存儲容量和計算性能影響,實驗只完成了16x數據集的分析任務,演算法執行時間緩慢增長。ODPS-PRPD演算法運行在Maxcompute平台下,完成了256X數據集的分析(還可以更大),運行時間平穩,在數據規模成倍增長情況下,整體運行時間增長很少或不增長,甚至,在分析8X數據集時出現負增長。主要歸因於ODPS硬體的彈性伸縮,如圖4和圖5所示。
圖4 CPU核心數的消耗
圖5 內存消耗
從圖3和圖4中可以看出,隨著數據規模的增長,ODPS-PRPD使用的硬體資源總體呈現線性增長的趨勢。數據規模越大,為其分配的硬體資源越多,但也不是嚴格的線性關係。Maxcompute為並行任務分配的硬體資源有一個複雜的演算法實現,目前阿里雲尚未公開,使用者暫不能控制資源的分配。雖然底層細節對用戶透明,但是這種彈性伸縮的性質還是能夠強有力的為大數據分析助力。當數據規模達到51GB(256x)時,使用的CPU核心數達到了1093,內存達到了1639GB。這種硬體條件是目前很多數自建數據處理平台難以達到的。
最後來說一下成本費用。Maxcompute採用租用的方式,無需自行購買硬體設備和軟體,相對自建Hadoop或者其他大數據分析平台,前期投入成本極低。Maxcompute以項目(Project)為單位,對存儲、計算和數據下載三個方面分別計費。數據上傳目前暫不收取費用。存儲價格目前是0.0008元/GB/小時,計算費用是0.3元/GB。計算費用中,目前僅開放了SQL的計費,執行MapReduce暫時是免費。因此,本文實驗實際產生的費用只有存儲費用,做幾天的實驗,只花了幾元錢。


※從Facebook AI Research開源fastText談文本分類:詞向量模性、深度表徵等
※如何將機器學慣用在基於規則的驗證上
※雙向同步助力企業快速複製異地多活
※雲端深度學習框架TensorFlow讀取數據IO的高效方式
TAG:雲棲社區 |
※PI全新電源變壓器:為SCALE-iDriver門極驅動器IC系列進行補充
※施耐德電氣推出新一代智能幹式變壓器Smart Trihal
※工作溫度為 150°C且引腳布局符合 FMEA 要求的 40V、2.5A μModule 穩壓器
※利用一個串列PMBus介面控制任何DC/DC穩壓器的VOUT
※符合EN55022B 規格的58VIN、4A、低 EMI、μModule 穩壓器
※韓國LG USB PD充電器拆解:首創單變壓器實現兩路快充
※發力深度學習晶元 Hailo要成為自動駕駛汽車數據處理的渦輪增壓器
※變壓器:功能強大的乙太網PoE ++電源變壓器
※jeep大指揮官的渦輪增壓器什麼時候介入最好?
※新型雙向電流DAC可控制任何DC/DC穩壓器的輸出電壓
※低壓降(LDO)穩壓器之理想與現實
※安森美半導體推出新的多晶元模塊PWM降壓穩壓器系列,提供領先市場的電流密度和全集成的MOSFET
※太全了!124頁PPt詳解變壓器各種試驗方法
※變壓器為何總是故障?10kV配電變壓器故障案例探討分析!
※德州儀器(TI)推出兩個具有出色的抗電磁干擾(EMI)和熱性能的寬VIN同步直流/直流降壓穩壓器系列
※音頻變壓器的應用分析
※保變電氣首台出口美國500kV變壓器一次試驗成功
※10kV柱上變壓器(吊裝)標準化建設關鍵工藝解析
※25HZ軌道電路扼流變壓器磁飽和故障案例分析
※變壓器學習手冊-高頻變壓器基本工法(2)