基於DRL的數據中心任務調度與製冷管理的聯合優化

最新 07-01

冉泳屹 I 文

李磊 I 技術審稿

引言

近年來，由於雲計算、大數據分析、機器學習以及加密貨幣（例如：比特幣，以太幣）等的興起與快速發展，使得數據中心的電力消耗持續增加。表I中，根據Natural Resources Defense Council (NRDC)報告，美國數據中心在2013年消耗近910億千瓦時的電能，到2020年這一數據將增至1,400億千瓦時。這意味著一年的電力成本約達到130億美元，並且排放近1億噸碳污染物。在歐洲，數據中心的電能消耗也將持續增加。因此，優化數據中心、提高能效可以降低成本和減輕環境影響。一個典型的數據中心（如圖1所示）包含伺服器、冷卻系統、數據中心網路以及照明系統等。其中，IT部分的能耗大約佔56%，冷卻系統（cooling）部分約佔30%。也就是說，數據中心IT和cooling部分消耗了數據中心的大部分電能。因此，對IT和cooling部分進行節能優化具有很大的潛力和機遇。

表I. 歐洲和美國的電能消耗及估計

圖1. 數據中心能耗分解圖

已有的研究基本上都是從IT、cooling或者聯合兩者的角度進行優化節能的。對於聯合IT和cooling的優化，已有工作主要存在以下的一些不足和缺點：1）未考慮IT部分的任務調度和cooling系統溫度調節的不同控制粒度。任務調度需要較小的時間粒度以滿足用戶的服務質量需求，而溫度控制由於熱傳播的時滯特性則可選擇較大的調節粒度。非聯合優化或者採用相同的時間粒度聯合優化，往往都難以消除或者避免數據中心熱點（hot spot）的產生。2）已有的演算法大部分都是基於模型的或者需要建模系統的動態特性（如：伺服器負載和功耗的關係、溫度與熱傳輸之間的關係等等）。這些演算法往往計算複雜度高、建模的動態特性精度不高或者可擴展性差。3）未考慮IT和cooling系統具有不同的行動空間。IT部分的任務調度將任務分配的某個rack的某個server上運行，具有離散的行動空間，而cooling部分可以考慮調節設定溫度或者風扇風速，具有連續的行動空間。此處，我們將設計實現一個基於深度強化學習（DRL）的、具有兩個決策時間粒度的數據中心任務調度與製冷管理的聯合優化演算法。

DRL訓練環境

為了實現聯合優化，在深度強化學習（DRL）演算法中，DRL Agent根據當前數據中心IT部分的狀態和Cooling部分的狀態選擇相應的行動，訓練環境（Environment）執行相應的行動，然後返回Reward和新的狀態給Agent。通過Agent和Environment之間反覆的交互迭代，最後獲得最優控制策略。在這個過程中，訓練環境至關重要。如果利用真實的數據中心作為訓練環境，長時間的訓練過程可能會影響到數據中心的正常運行，給數據中心用戶帶來巨大風險。因此，此處我們實現了一個基於CFD軟體的模擬訓練環境，用來模擬數據中心任務的調度和溫度的控制。

如圖2所示，訓練環境包含job scheduler和CFD software兩個主要部分。Job scheduler 將模擬用戶任務到達、排隊、分配以及在數據中心的運行狀態，其中Arrival Queue用於緩存新到達的任務請求，Job Dispatching模塊接受來自Agent的行動並將job分配到相應的rack server，Data Center部分將模擬數據中心任務運行及資源狀態，並將IT部分的狀態發送給Agent。CFD software部分接受來自Agent的action對風扇分速進行調節，根據數據中心伺服器的功耗、ACU供風溫度、風扇風速等模擬數據中心的熱過程，輸出rack的inlet和outlet溫度，並將該溫度信息、風速信息等作為cooling部分的狀態發送給Agent。另外，訓練環境會根據當前數據中心的PUE、是否存在熱點（outlet溫度超過閾值）、任務是否被成功分配等信息計算reward並返回給Agent。

圖2 基於CFD的數據中心訓練環境

DRL Agent及演算法

如圖3所示，DRL Agent部分設計並實現了DRL相關演算法，如：DQN[4]， A3C[5]，Heuristic（對比演算法）等，對數據中心任務調度及cooling管理進行聯合優化，從而提高能效、節約成本。為了解決前面提出的問題，我們 1）利用model-free的DRL演算法，避免複雜的動態系統建模；2）引入一個時間刻度因子作為狀態，協調任務調度和溫度控制聯合控制；3）採用parameterized action space來解決IT和cooling子系統行動空間不一致的問題。圖4所示為DQN演算法在上述訓練環境中訓練過程的reward和loss曲線。

圖3 基於CFD的數據中心訓練環境

圖4 訓練DQN的reward和loss曲線

存在的問題

目前，訓練環境以及實現的演算法都能正常的運行和訓練，但仍存在以下一些問題：

1）DQN演算法雖然能夠在上述的訓練環境中學習到收斂，但是由於CFD軟體本身需要花費一定的時間進行模擬計算，因此整體的訓練速度還是較慢。後續可以考慮利用歷史的進行一定的離線訓練來加速整個訓練過程。

2）A3C演算法由於CFD軟體license的限制，現階段只能同時運行2個actor-learner，同樣存在速度較慢的問題，並且通過調節參數尚未運行出收斂的結果。

3）對於IT部分的任務分配，我們一次決策只分配一個任務，通過頻繁的決策實現一個較大的服務率，保證所有任務都能及時分配出去，但是這種頻繁決策並不是在任何時間段都是必須的，比如在任務到達較稀疏的時間段。如果考慮同時分配多個任務，IT部分的行動空間大小將成指數增長，演算法將很難收斂。後續可以考慮利用事件驅動的方式進行決策，從而同時避免頻繁的運行DRL演算法和較大的行動空間問題。

References:

[1] Bertoldi, P.; Hirl, B.; Labanca, N. Energy Efficiency Status Report 2012. Electricity Consumption and Efficiency Trends in the EU-27. European Commission, Joint Research Centre 2012. Available online: http://publications.jrc.ec.europa.eu/repository/handle/JRC69638

[2] Whitehead, B.; Andrews, D.; Shah, A.; Maidment, G. Assessing the environmental impact of data centres Part 1: Background, energy use and metrics. Build. Environ. 2014, 82, 151–159.

[3] Natural Resources Defense Council (NRDC) (2014). America』s Data Centers Are Wasting Huge Amounts of Energy. [Online]. Available: http://www.nrdc.org/energy/files/data-center-efficiency-assessment-IB. pdf

[4] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.

[5] Mnih, Volodymyr, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. "Asynchronous methods for deep reinforcement learning." In International Conference on Machine Learning, pp. 1928-1937. 2016.

本文版權歸作者所有。

新加坡南洋理工CAP組

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 南洋理工CAP組 的精彩文章:

※Train the Trainer：利用強化學習優化基於模型的強化學習演算法

TAG:南洋理工CAP組 |