當前位置:
首頁 > 最新 > 打造數據中心高可用性的五大步驟

打造數據中心高可用性的五大步驟

高可用性是當今存儲專業人士們最常使用的一大術語。但是,僅僅只是簡單的將資金和最新的技術投入到貴公司數據中心的存儲陣列上,並寄希望於能夠有效避免發生停機中斷顯然是行不通的。故而企業數據中心亟待實施一套行之有效的計劃。

在本文中,獨立顧問Ben Maas將為我們廣大讀者朋友們概述關於如何有效的保護企業應用程序,避免導致發生數據丟失和停機的最常見原因的五大關鍵步驟,這五大步驟分別是:

1、 了解您企業軟體的功能;

2、 了解您企業所有應用程序的運行時間要求;

3、 適當地調整您企業數據中心的環境;

4、 適當地調整貴公司數據存儲庫的規模大小和設置

5、 實施更完善的實踐方案

實踐步驟一 了解您企業的數據保護軟體

當前,許多企業其實是在不了解其全部功能或限制條件的情況下使用了某些數據保護軟體。例如,備份軟體可以使用幾種不同的方法來創建安全的恢復集。其可以在文件、應用程序、存儲卷、虛擬管理程序或操作系統級別進行複製。或者其也可以支持多種方法的組合以提供多種恢複選項。虛擬機(VM)的備份軟體就是一個很好的例子。大多數企業使用快照技術來執行該任務,儘管每家企業可能採用的是不同的技術來完成這個任務。有些企業採用無代理的方法,稱為VMware的本機虛擬機快照技術。其他某些企業採用的是部署在每台虛擬機上的軟體代理。

如果您企業的備份軟體依賴於代理執行虛擬機備份,則其將更直接地與虛擬機文件系統配合使用。在這種情況下,備份軟體可能使用微軟的卷影複製服務(Volume Shadow Copy Service,VSS)將數據合併到磁碟,然後再進行虛擬機的快照。

而如果您企業的備份軟體採用的是無代理的方式進行快照,其可能仍然部分的依賴代理進行備份。一款備份軟體在執行備份以調用微軟VSS創建快照時,會暫時將一段軟體放入虛擬機中。為此,其將使用VMware API啟動快照,然後將該軟體代碼放置在虛擬機上以創建快照。一旦完成快照,其將刪除安裝的代碼片段。

即使這種混合的虛擬機備份方法也可能是不夠的。在某些情況下,備份軟體可能需要與特定的應用程序(如微軟Exchange或SQL Server)集成,以將數據同步到磁碟。這將創建一個在恢復後可用的應用程序一致性備份。

同樣,許多備份軟體產品也使用重複數據刪除技術來最大限度地降低存儲需求。一些備份軟體產品能夠針對客戶端和其他伺服器上的數據執行重複數據刪除。一些則僅僅只是當數據到達存儲設備時才執行重複數據刪除。一些甚至提供了在這三個位置中的任何一個執行重複數據刪除的選擇,或者根本不刪除重複數據。

您企業的軟體所支持的選項將影響到您執行此操作所需的帶寬量,以及在客戶端、媒介伺服器或磁碟目標上所需要的處理能力量,以對該數據進行重複數據刪除。

了解備份軟體的這些功能和局限性是非常重要的,因為它們會影響備份和恢復所花費的時間,並最終影響備份的可靠性。

超越備份和恢復關鍵任務應用程序應始終保持在線或儘可能保持始終在線狀態。這種服務級別需要比備份軟體所能夠提供的更高級的工具。對停機中斷容忍度為零的企業應考慮針對關鍵系統採用高可用性(HA)解決方案。HA通過將系統實時複製到遠程站點來確保始終在線的服務。如果生產環境發生中斷,HA可讓您企業立即將故障轉移到次要位置,並繼續在那裡保持運行,直到您在當地的問題被解決。HA的恢復以分鐘或秒計量,故而使得數據丟失可以最小化到接近於零。

實踐步驟二 了解應用程序的正常運行時間要求

在了解了貴公司所採用的備份軟體的功能和使用限制條件後,您需要了解每款應用程序的恢複目標。一旦您確定了這些目標,您就需要將它們映射回到軟體中可用的功能,甚至是映射回您企業內部的流程中,以確保它們的一致性,並且可以根據業務需求保持這些應用程序的可用性。

例如,MySQL對於其數據的實時快照並沒有一種得到正式認可的方法。因此,您無法證明您的備份軟體能夠隨時將數據同步到磁碟,以創建可恢復的快照。

備份MySQL的唯一經過驗證的方法是關閉MySQL(這對於需要100%正常運行時間的應用程序來說是沒有意義的),或者製作該數據的副本,然後針對副本進行快照。像MySQL這樣的例子說明了企業為什麼需要了解您的數據在哪裡以及它是如何運行的,所以您企業不需要運行恢復來發現您正在丟失數據或者數據已經損壞了。

相反,諸如微軟SQL等軟體提供的API可以為您企業提供比MySQL更好的數據保護體驗。使用VSS卷影副本,企業可以避免這些問題。再次強調,企業需要確保您的備份軟體知道如何正確的調用API,以便驗證您的數據是否已寫入磁碟,從而最大限度地減少並最理想地避免數據丟失或損壞的可能性。

這一步是非常重要的,特別是如果您企業正在處理需要備份軟體來加密存儲在驅動器或內存中的數據的應用程序。加密會創建一個額外的保護級別,並且您需要確保備份軟體在數據進入驅動器之前對其進行加密。許多提供商要求企業客戶自行管理並保留自己的加密密鑰。IT專業人員們有責任保護這些密鑰。如果您企業丟失了加密密鑰,則會丟失備份,二如果丟失了備份,則會造成數據丟失。

實踐步驟三 適當地調整您企業的數據備份環境

企業需要針對兩種類型的備份進行考慮,以便正確的調整貴公司數據備份環境的規模大小。

數據中心備份

數據中心的備份可能是最容易量化和規模化的。企業往往擁有專用的網路來備份這些應用程序伺服器,而這種備份流量甚至可能無法通過企業網路。生產應用程序數據可能受基於陣列的快照技術的保護,其中備份軟體啟動數據快照,這些快照短期存儲在陣列上,並由備份軟體管理。然後,備份軟體可以將該快照備份到磁碟、磁帶或甚至雲中以進行長期保存。在企業數據中心中使用的更複雜的備份軟體往往可以更輕鬆地對託管在數據中心中的應用程序進行備份。

當企業開始探討應用程序的備份位置位於數據中心之外(無論其是您企業數據中心建築的其他位置,園區還是遠程位置)時,恰當的調整備份和恢復環境的規模將變得更加困難。

如果通過LAN連接進行本地備份,則需要驗證在備份窗口期間是否有足夠的計算機資源和網路帶寬,以避免中斷生產應用程序。由於備份是往往在下班時間運行的,所以這通常並不是一個不能克服的問題。

但是,如果您企業在核心數據中心之外運行24x7運行的應用程序,並且該應用程序沒有需求低活躍的時間段,則可能需要升級這些伺服器上的計算資源,或者需要為這些應用程序提供額外的網路帶寬,以確保其備份和恢復可以在計劃的備份窗口內發生。您可能還需要考慮更高級的備份工具,例如高可用性解決方案(HA)。 HA技術使用即時的故障轉移功能來確保任務關鍵型應用程序和數據的正常運行時間要求。

遠程備份

如果您企業需要在遠程位置通過WAN連接來備份或恢復應用程序的運行,其挑戰將變得更加嚴峻。除了確保擁有可用的計算和網路資源來備份和恢複數據外,還需要驗證是否可以及時恢複數據;否則就無法達到您企業的恢複目標。

唯一真正知道其是否可行的方法是在生產環境中進行測試。

當您企業這樣做時,請務必考慮在執行備份或恢復時可能在您備份環境中遇到的某些變數。例如,如果要通過VPN渠道運行備份或恢復,則吞吐量將會下降。另外,在通過LAN或WAN鏈接發送數據之前,是否需要加密數據?如果是這樣的話,請驗證對數據進行加密的設備是否可以及時執行以滿足您的備份或恢復服務級別協議。

還有需要注意的一點是,存儲備份數據的磁碟必須足夠快才能滿足備份和恢復需求。我曾遇到過企業有眾多機器同時寫入或讀取數據的情況,從而導致了處理速度變慢。

考慮您企業可能有24台機器需要在24小時內恢復的情況。您企業可能不會嘗試逐一的對它們進行恢復。您將要並行恢復它們。同時還需要確保從中恢複數據的存儲設備可以處理滿足這些需求所需的I / O量。再次強調,有計算器可以幫助企業執行這些類型的評估,但我發現唯一的方法是肯定的是在您企業的環境中自行測試一下。

實踐步驟四 適當地調整數據存儲庫的大小和設置

我曾遇到過這樣的情況:軟體提供商對可以存入某存儲庫的數據量有嚴格的限制。例如,備份軟體提供商可能會強制規定2 TB的限制(或對單個備份存儲庫有其他限制),這可能會迫使企業客戶需要將備份分散到多個存儲庫。

如果企業同時運行多個恢複流,這將起到作用。在這種情況下,您企業需要確保存儲庫可以快速讀取數據,以滿足您的恢復時間目標(RTO)。

有很多供應商能夠提供規模化的文檔,對於為您企業的環境適當地調整存儲庫的大小是非常有幫助的。您只需要確保您已經配置了足夠的存儲庫,並同時使其可用。

在備份過程中,對數據進行重複數據刪除時,使得這些存儲庫具備適當的規模大小尤為重要。

另外請注意,供應商使用備份代理來更接近虛擬主機上的存儲。在這種情況下,您企業需要確保已經進行了恰當的調整,以確保您企業擁有足夠的RAM、CPU和本地存儲,進而避免在備份或恢復過程中的某個時刻出現瓶頸。

我也曾經用作資料庫伺服器的虛擬機,其承載了7到8TB的數據。有時候這些規模的虛擬機會試圖從一個存儲庫中恢復這些數據。在這種情況下,由於吞吐量不足,便成了一個真正的問題。只有在將數據分發到多個存儲庫之後,才能夠及時恢複數據,因為企業用戶可以同時在多個驅動器上運行恢復。

實踐步驟五 實施更完善的實踐方案

實施更完善的實踐方案。這意味著您企業應該運行多個測試。您企業絕不會完全意識到一個恢復過程具體會涉及到多少的遷移片斷,直到您真正執行了一次恢復過程之後。也許最複雜的是那些涉及從地理上分散的備份中所執行的恢復。在這些情況下,您需要運行恢複測試來確保您所想要的一切都將發生。

大多數情況下,我在測試過程中會遇到一些我從來沒有考慮過有發生可能性的問題。有一次,我遇到了一個軟體許可的問題。在測試期間恢復應用程序之後,應用程序軟體必須核實其許可授權。在遠程預警(call-home)過程中,授權軟體檢測到自從我在測試伺服器上運行應用程序以來,託管軟體的伺服器的IP地址發生了變化。然後其使軟體許可無效。雖然這很不方便,但是這成為了一個生產問題,因為它使軟體許可證在測試和生產中運行的軟體的副本無效。這種疏忽破壞了生產環境。

從測試開始自信地恢復您企業的環境。

這導致了我如何進行災難恢複測試方面的變化。現在,當我提出測試環境時,我會關閉出站的網路流量。在這段時間裡,我會看看有什麼流量是出站的,以確保沒有軟體試圖遠程報障預警,可能會在測試或生產環境中無意中造成中斷。這可能代表了我在一定程度上的偏執,我不一定告訴其他人也要這麼極端。然而,一朝被蛇咬十年怕井繩。我個人發現在恢復過程中軟體許可是一個問題。

企業需要執行測試的另一個很好的例子是確保數據可以恢復。我曾經供職過的一家公司在其微軟SQL伺服器上創建了一款「X」驅動器或文件共享。然後每周執行一次將數據備份到該 「X」驅動器上。然而,我對此其實並不知道,而公司的另一位同事是知道這款「X」驅動器的,並清楚其用來幹什麼的,所以他決定用它來在兩台SQL Server資料庫伺服器之間執行一些複製,其在那時的運行良好。

但過了一段時間後,公司更改了備份程序,並決定其SQL 伺服器不再需要這些資料庫伺服器上的「X」驅動器。 我對系統進行了評估,並將「X」驅動器放在整個環境中。而我們結束時,那位在在兩台SQL Server資料庫伺服器之間執行複製任務的同時開始沖著我們咆哮:「為什麼複製被中斷了?」

總之,這些情況說明了為什麼測試如此重要。除了環境中經常發生的變化之外,總是存在一些細微的差別,例如「X」驅動器無法使用,這使得按照用戶的期望執行恢復很難,除非您企業經常執行恢複測試。(來源:機房360)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 騰正科技 的精彩文章:

投資獲利背後玄機 中小規模數據中心管理細節

TAG:騰正科技 |