當前位置:
首頁 > 科技 > 入職第一天,出事了!

入職第一天,出事了!

2018,畢業整十年。

從西部的無名小城到魔都上海,

從IT專員到運維經理,再到公司IT總監。

李默,今日主人公,

一通電話背後的故事就是一幅上海男子圖鑑

入職第一天,出事了!

「我是李默,您是哪裡?」

「您好,我是集團HR琳達。杭州曉帆服飾有限公司IT總監的職位,陸帆向我推薦了您…….」

本人李默,2008年武大計算機研究生畢業,當時就職於上海某電子商務公司運維部經理。IT這個職業干久了,爹媽認為你不孝,親人覺得你不親,朋友認為你很裝,已婚的以為你有外遇……其實我們只是沒日沒夜的忙,要是朋友中有做IT的,那就請他們吃個飯吧,反正他們也去不了!

一個月後的周一,杭州曉帆服飾有限公司總裁辦公室里,我第三次見到了CEO陸帆,第一次見還是在兩年前集團總部的年會上。「曉帆服飾2006年10月創辦,主打輕熟女裝品牌,2013年公司上市。而如今我們的股票市值只有三年前的一半,三年前搭建的線上平台目前看來並不成功,我們現在需要儘快上線『無限項目』(結合線上、門店零售、智能設計和魔鏡試衣)提高市場佔有率,重新獲得更高的盈利能力,開發應用總監蔣風和你直接向我彙報,我需要你們!」說著,陸帆從座位上走到了我跟前。

突然一陣緊急的敲門聲,業務部總監劉濤推門而入,「陸總,門店POS系統沒有響應!」之後,我和劉濤跟隨著陸帆疾步走進了IT部。陸帆對亂成一團的IT部門員工簡單介紹了下:「這位是李默,IT總監,這位是江浩負責網路,這位是馮斌負責運維」,然後轉身對我說,「請帶領你的團隊立即修復門店POS系統!」

馮斌走上前彙報「李總,掛在伺服器上的存儲卷無法寫入,POS資料庫掛了,初步判斷是存儲故障。」我拜託劉濤起草一封郵件,通知所有門店經理啟用門店POS系統手動備用模式。

一個工程師接了個電話後向馮斌彙報:「戴爾易安信服務經理打來電話,讓我們檢查存儲空間是否滿了,說是之前遇到過類似的事情,戴爾易安信服務經理和售前工程師都在趕來的路上。」

————

我們打開了戴爾易安信存儲Compellent的Storage Center管理界面,果然是空間已滿和若干個容量報警。轉移了備份數據重啟了伺服器,門店POS系統恢復正常運行。

戴爾易安信服務經理王偉韜和售前工程師吳梅到了,我召開了第一次部門緊急會議,查清了此次事故的原因(核心業務存儲空間被大量其它業務系統的備份數據佔據,系統告警被忽視),明確了改進日常工作比開展日常工作更重要的思路,並且從兩位戴爾易安信工程師那裡收集了廠家資源,立即啟動基礎架構主動式監控項目:

01

規範日常工作內容和步驟,本周內完成初稿,每月討論一次,不斷改進。

02

部署Dell EMC OpenManage組合:

① 安裝Dell EMC OpenManageEssentials系統管理控制台,實現發現、設置、部署、配置和監控現有的戴爾易安信機架/塔式/刀片伺服器,Powervault、Powconnect和Force 10交換機,導入第三方硬體SNMP MIB管理現有的伺服器;

② 安裝OpenManage Mobile和OpenManageEssentials結合支持ios和安卓,通過手機隨時隨地管理數據中心硬體;

③ 安裝OpenManage Power Center定義物理組或邏輯組監控數據中心能耗和成本,在夜間或周末低負載階段實施降低此時段內功耗的策略;

④ 安裝VMware vCenter的OME內嵌插件。

03

啟動戴爾易安信主動式預測服務:

① 安裝Support AssistEnterprise,結合OpenManageEssentials,在戴爾易安信伺服器及受支持的網路和存儲設備上發生問題時及時通知戴爾易安信公司;

② 在DSM(DellStorageManager)中啟用SupportAssist功能。

通過以上兩個工具,使用Dell EMC售後服務中心提供7*24*365的主動式監控,通過通知、自動化故障事件創建和主動式響應,硬體問題自動報修,加快問題解決速度,雙保險,防止員工疏漏。

04

啟動戴爾易安信月度報告:

戴爾易安信提供月度服務事件和派單分析/業務影響分析/資產管理分析,還包括緊急固件和安全漏洞需要升級更新提醒,提高運行穩定性,降低風險(第二天我拿到月度報告,1個安全漏洞,4台伺服器和2台存儲將要出保提示)。

05

啟動戴爾易安信健康巡檢服務:

馮斌配合王偉韜收集了所有設備日誌,由戴爾易安信專業團隊據此生成設備運行狀態總結及建議(一周後我拿到了健康巡檢報告)。

① 存儲主要對存儲空間/讀寫延遲/IOPS/每秒傳輸率/控制器狀態/硬碟狀態/後端連線狀態做出了說明,並且提醒了固件升級所需時間和準備工作:

入職第一天,出事了!

② 每台伺服器給出以下的建議,並告知建議使用Dell EMC Repository manager(DRM)協助升級。

入職第一天,出事了!

戴爾易安信售前工程師吳梅還告訴我,2018年年內會推出Dell EMC OpenManage Enterprise,提供Linux、Microsoft和KVM虛擬設備打包和交付,增強了許可權管理和全新的圖形用戶界面。可以使用菜單項、鏈接、按鈕、窗格、對話框、列表、選項卡、篩選框和頁面以在頁面和完成設備管理任務之間導航。諸如設備列表、環形圖、審核日誌、OpenManage Enterprise設置、系統警報和固件更新等功能將顯示在多個位置。

入職第一天,出事了!

上任IT總監的第一天,運氣似乎不太好。下班前給陸帆、劉濤發了一封快速狀態報告,保證我將不惜一切代價防止此類故障再次發生。

第一周我梳理了業務系統、基礎架構、部門員工、可用資源,開了大大小小几個會議,著重關注了戴爾易安信幾個監控工具的安裝進度,安裝完畢一切正常,監控工具里列明了所有設備,各類儀錶盤井然有序,我稍稍放下了心。

周日我攜妻子和爸媽逛了靈隱寺和西湖,陽春三月,楊柳夾岸,水光瀲灧,好久沒有這麼滋潤了。晚上我祭出幾樣拿手小菜,獲得一致的讚賞,我心中默默為自己回杭的決定點了個大大的贊。

第二周的周二,我收到了戴爾易安信公司半年一次的健康檢查報告,下午2點我們邀請了王偉韜和吳梅參與討論會議,對健康檢查報告中的風險進行評估,最後決定對一個有可能會引起重啟的標註緊急的部件固件進行批量升級。

OpenManage Essentials可以實現批量固件升級,默認情況下,所有的固件信息來源是Dell EMC官方的catalog,但由於網速的原因,我們並不能控制下載的時間,從而沒法預估停機的時間,這給更新固件帶來了麻煩。

吳梅給出了建議「通過Dell EMC Repository manager(DRM),我們可以預先把固件下載到本地,做成本地目錄源,再進行固件更新,做到時間和停機窗口的可控,並且可以形成自己的固件資源庫」。

入職第一天,出事了!

DRM分為Client版本和Datacenter版本,我們這次用到的是datacenter版本:

入職第一天,出事了!

點擊My repositories,選擇OME inventory:

入職第一天,出事了!

輸入OME的IP點擊connect,DRM會把OME管理的設備信息添加進來:

入職第一天,出事了!

選擇Windows x64版本的bundles後點擊Finish:

入職第一天,出事了!

創建了一個屬於OME的repository,例子中有包換R640/R740/R940的三種機型。勾選所有的bundles,點擊Create Deployment Tools,用來本地目錄源:

入職第一天,出事了!

選擇本地文件存放的目錄:

入職第一天,出事了!

下載結束雙擊confirmed一下。

通過選取Dell EMC Repository manager(DRM)里穩定可靠的固件版本,對所有的戴爾易安信伺服器建立了一個固件基線標準,合標/非緊急不合標/緊急不合標的設備對應綠色/黃色/紅色通過一個環形圖顯示出來,點擊環形圖可以查看任意一台設備具體的不滿足項,評估後進行逐一升級。

入職第一天,出事了!

入職第一天,出事了!

下午5點半,會議室里,吳梅翻開了筆記本:「OME還可以建立BIOS/遠程管理卡IDRAC/網卡/RAID卡/HBA卡等設置的基線標準。」馮斌略有所思:「的確是個好功能,不過現在我們還用不上,現在還缺一個應用監控平台,你們有嗎?」吳梅笑道,「這個我們沒有,不過OpenManage Enterprise未來會提供API和客戶應用監控平台提供無縫對接。」

送走了戴爾易安信的兩位工程師,我打開了吳梅演示的PPT:

入職第一天,出事了!

總結了Dell EMC OpenManage組合具備如下功能:

  • 查找和管理數據中心環境中的設備。
  • 分組和管理設備。
  • 監測設備的運行狀況。
  • 管理設備固件版本,設置固件基線標準,批量升級固件。
  • 創建和部署設備配置模板(僅限伺服器),批量升級配置。
  • 批量安裝操作系統。
  • 查看和管理系統警報和警報策略(僅限伺服器)。
  • 查看硬體資源清冊和符合性報告。
  • 監測和報告保修及許可證,自動化報修。
  • 監控能源消耗,節能設置。
  • 可集成到第三方管理平台。
  • 管理方式多樣,支持網頁管理和手機APP管理。

點開Outlook新郵件提醒▼

收件人:馮斌

抄送:李默

您好!

SupportAssist已檢測到您的設備之一報告的硬體問題,並且已就此問題開啟支持案例。

SupportAssist主機:SQ-SAE-190-188

問題詳細信息:172.16.16.77

03/18/2018(16:25:55 PM UTC)

MEM0001 - 2265 : Multi-bit memory errors detected on a memory device at location.

案例ID:958344309

Support Assist已檢測到您的設備之一報告的硬體問題,並且已就此問題開啟支持案例。

為了確保該問題得到及時解決和糾正,我們將通過以下方式與您聯繫:馮斌 15676473736

發件人:Dell EMC SupportAssist

Dell EMC OpenManage組合功能強大有效降低數據中心宕機風險,讓我安枕無憂,合上筆記本下班!

註:文中人物和故事情節純屬虛構,如有雷同,純屬巧合。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

Pivotal上市後首季度業績表現強勁
看本田汽車如何利用AI、大數據和機器人為第四次工業革命做好準備

TAG:至頂網 |