當前位置:
首頁 > 科技 > IT災難的8個早期預警信號

IT災難的8個早期預警信號

至頂網CIO與應用頻道 02月07日 編譯:你的IT部門可能存在一些潛在問題,如果你不及時處理,可能會在你的手中發生一場災難。

現在看起來情況也許不錯,但已經出現警告信號了,你只是沒有注意到。

網路突然出現問題,簡單的問題卻需要更長的時間才能解決,而有些問題則一直在重複著。每一次大規模的代碼發布之後,都是一場修復漏洞的行動。「影子IT」依然存在。而你是最後一個聽到商業戰略變化的人。

當你的員工離職,你的網站離線,你的用戶已經把他們自己的數據中心放到了雲端,黑客已經把你的客戶記錄放到暗網上出售,一切都已經太遲了。

下面就讓我們來看看這些潛在厄運的早期預警信號,以及如何避免這些問題。忽略這些問題,你將面臨危險。

1、用戶停止抱怨

你可能認為投訴減少是件好事。但Alvaka Networks公司首席執行官Oli Thordarson說,你可能是錯的。這家公司為中型企業提供全天候運行的IT服務。

他說,投訴減少,意味著用戶已經放棄了解決問題的希望,這會導致各種不良後果。

「幫助請求的減少並不總是意味著IT經理做得更好了。這通常意味著用戶群已經對這個IT團隊失去了信心,接下來是越來越多的影子IT、備用用戶支持機制、以及潛在的解僱和人員洗牌。」

Thordarson說,當用戶抱怨的時候,這意味著他們期望IT團隊能夠響應他們的需求。訣竅是建立一個投訴的基準線,你要密切關注看看數據是否發生大幅變化。

投訴的增加可能是由於發生了重大升級或其他重大變化,支持請求的減少,可能是由於重大的流程改進或一些長期存在的問題得到解決。

他說:「但如果你不能回答這些增加和減少的問題,那就意味著你面對著一個很大的問題。」

2、午餐廳突然出現了很多陌生人

如果你正用工作午餐,周圍有很多你不認識的人,那麼你所在的企業組織可能收購了其他公司卻沒有人告訴你。

這種收購對於企業組織來說可能是件好事,也可能不是。無論如何,你的團隊可能需要擱置一些戰略項目,花時間整合新收購公司的系統和數據。這會削減你的創新能力。

房地產網站Trulia的工程副總裁Deep Varma在21世紀20年代中期曾在雅虎工作時看到了這一點。當時正值這家搜索門戶網站收購了技術公司Overture以及其他一些小的公司。

他說:「雅虎收購了許多大大小小的公司,所以我們大部分時間都花在了整合上,而不是尋求改進搜索關鍵詞和質量相關性上。我的員工總是這樣說,"天哪,我花了太多時間去做整合。』這大大減緩了創新步伐。」

當然,有很多事情是你無法控制的——你不能確切地告訴CEO停止收購公司。但是,你可以將業務領導者真正需要的部分(如分析)集成到一起,同時將產品、路線圖和業務單元分開。

他說:「Zillow Group(Trulia的母公司)多年來進行了很多次收購,但是我們的戰略一般是建立一個能夠獨立運作的品牌組合上。」

雖然Varma仍然忠於他曾經工作過的雅虎公司,但他表示,雅虎並沒有在戰略上思考每一次收購如何融入其整體業務,結果就是使創新停滯下來,這導致了最終的消亡。

3、你一直在解決相同的問題

很少有一次重大故障就讓一個企業組織的IT團隊倒下;更多時候,是那些細微的是技術債務的必然積累所導致。

通信與協作公司xMatters運營總監Adam Serediuk表示:「深夜進行的各種工作,短暫但無法解釋的中斷故障,簡單的任務需要越來越長的時間才能完成——突然之間的消亡在企業組織中常常發生。」

Serediuk坦言,任何組織都存在一定程度的低效率,大多數流程都是為了效率而犧牲效率。但是,當同樣的系統不斷地出現問題,沒有人採取主動措施來防止這種情況發生時,就會產生一個難以想像的漏洞,其結果通常是員工的職業倦怠和高消耗。

他說:「總會有那麼一個時刻,有員工決定離職,比如當他們花了整整一周的時間處理了10次同樣的問題,招聘人員在LinkedIn上給他們發消息,『你知道嗎?我已經受夠了。』他們會離開這裡繼續工作下去。」

如果可以的話,最好的解決辦法是把舊的、有問題的系統拋開,並用新的系統重新開始。

他表示:「陷入沉沒成本謬誤的陷阱很容易,當正確的方法擺在你眼前:用已有的經驗知識進行重建和改善。技術變化太快,快得無法承擔過去的錯誤。」

4、你發布的代碼太多了

當你發布了龐大的一批代碼時,你會大大增加出現問題的幾率,並冒著可能導致整個系統崩潰的級聯效應風險,LinkedIn站點可靠性團隊工程副總裁Bruno Connelly這樣表示。

他說:「雖然很容易一下子把所有的東西都做出來,但是大量有著微小變化的代碼,處理起來的話要複雜得多。而當出現問題時,就會引發其他更多系統性的故障。」

他說,最好是更頻繁地發布少量的、帶有較少變化的代碼。

「我們已經優化了我們的系統,儘可能頻繁地發布代碼。我們試圖不斷地發布少量代碼,這也確實讓我們很好地驗證了一切仍然有相同的性能特徵和下游依賴性。」

這個面向專業人士的社交網路也通過模擬來確保為意外的系統故障做好準備。去年11月,LinkedIn推出了LinkedOut框架,該框架允許可靠性工程師人為地觸發應用中的故障,以查看服務如何處理這些故障。

LinkedIn每天都會強制其中一個主要數據中心進行故障轉移,以確保其具有足夠的容量和自動化機制以抵禦實際發生的數據中心災難。

他補充說:「如果你對自己的故障恢復能力很強的信心,這就是另一個警告信號。你需要不斷地為故障做演練,才能適應故障的發生。」

5、員工不再找你提出各種想法

當你向團隊關於解決棘手問題或制定新策略發起挑戰的時候,你所聽到的只是一片歡樂,你就知道你面臨著嚴重的士氣問題。

Thordarson說:「如果管理人員和用戶向CIO提出一些想法和充滿熱情的解決方案建議,那麼說明這位經理在領導和管理方面做得非常好。當用戶不再提出新想法的時候,表示他們已經失去了對CIO的信心,或者他們已經造成了影子IT。」

這可能源於管理者未能推動製造合作、試驗的文化氛圍,缺乏成熟度,或者太自我。

他補充說:「我看到了整個IT團隊似乎都蔑視其他人。如果你開始認為你的僱主只是一個東道主讓你進行交易和尋找新技術的話,你對於你的公司來說就不是一個很好的角色,可能是時候換一個新的領導者了。」

Serediuk說,員工可能不願意提出新的想法,因為他們已經筋疲力盡了。

Serediuk說:「當團隊被過度消耗的時候,你會發現大多數人不願意改變,即使這一改變可以讓他們的生活變得更好。他們會覺得這一改變會失敗,因為那是他們一直以來在經歷著的。每次變化都使他們的生活變得更糟,那為什麼這次變化會有所不同?你需要能夠看到這一點,並對此做出適當的回應。」

6、你已經不在抄送名單之列了

有了IT管理,沒有什麼消息是絕對的壞消息。如果你不能參與到重要的管理決策或參與C級戰略會議的話,問題就出現了。

Thordarson說:「沒有得到邀請參加高級管理層會議是一個關鍵跡象,說明你已經被排除在外了,不再與公司有關係。很顯然,他們不相信你,也不認為你有什麼貢獻。」

有些人指責IT管理人員沒有意識到,為了得到管理層的尊重,他們需要根據業務成果制定技術問題框架,Thordarson補充道。

「你不能只是說『我們需要新的路由器,因為網路速度很慢;或者是需要新的軟體,因為你必須每晚重建資料庫。』但如果你告訴他們,每晚重建資料庫的每年花費是200萬美元,你就知道他們會做出回應的。」

ThoughtSpot是一家以人工智慧驅動的分析公司,該公司首席數據佈道官Doug Bordonaro說,CIO經常迷戀於基礎架構,而不關心更宏觀的業務前景。

他說:「通常來說,CIO主要關注安全性、合規性、數據管理和其他基礎任務。在當前的數字經濟中,這還不夠。如果你不花相同的時間來實現數據變現、開展業務、並在整個組織中傳播數據的力量,那麼你可能就不再合適當CIO了。」

7、你的團隊對各種警報已經疲勞了

IT經理們知道,他們需要實時、持續監控關鍵業務系統。但是警報太多,和幾乎沒有警報一樣糟糕。

Serediuk說:「你可能有100台伺服器或5000台伺服器,但是你的監控儀錶板總是有30個打開的警報。這些警報可能只是已知的問題,但是你仍然有這30個紅色標誌在盯著你,所以當一個關鍵的警報彈出時,你怎麼能把它從其他30個警報中區分出來呢?」

SignalFx是一個基於雲的監測平台,該平台解決方案工程負責人John Bruce說,警報疲勞會引發兩個潛在的嚴重問題。一個是IT經理最終忽略這些嘈雜的警報,其中就包括可能是最嚴重的那個警報。另一個是倦怠和消磨。

他回憶說,他曾經拜訪了一個SignalFx客戶,這個客戶仍然在使用傳統工具來監控動態雲託管平台。

Bruce說:「他們所做的監測系統太『嘈雜』了,他們的操作人員筋疲力盡。如果你不停地在凌晨3點或4點發出假警報,這感覺是很糟糕的。」

經理們需要處理積壓的問題並列出優先順序,那些能夠影響客戶、反過來影響他們自己的問題最重要,Serediuk說。

Bruce說,關鍵是要積極主動,在問題開始影響用戶之前使用指標作為早期預警信號。

「你需要早期的指標,說:『好吧,這項服務看起來正在走下坡路,我該怎麼做才能防止這個情況呢?』而不是「伺服器和客戶端服務已經關閉了,我們需要加入這場戰鬥。』」

8、FBI出現在你家門口

數據泄漏和安全漏洞是每個CIO和CISO最關心的事情,BugCrowd網路安全專家、顧問Paul Moreno說,發生巨大的安全問題之前,常常會出現很多小的信號。

例如:難以解釋的系統性能問題,或者高於平常的數據流出量,可能意味著攻擊者正在嘗試泄露你公司的信息。來自新地點的登錄嘗試突然激增,可能意味著有人正在企圖破壞你的客戶資料庫。對API或管理端點的異常請求,可能說明某人正試圖破解你的網路。

他說:「如果你沒有監控到上述任何一項的話,那將是一個很好的開端。就內部管理端點而言,具有更高靈敏度的監控甚至是自主觸發(如鎖定),對於任何安全裝備來說都是至關重要的。」

積極主動也是有幫助作用的。實施雙因素認證可以防止竊賊使用被盜密碼。錯誤賞金程序可以在壞人之前找出漏洞,特別是如果你的企業組織公布了責任範圍和披露了準則。另外,安全情報提供者可以掃描暗網,如果他們發現黑客可以利用的危害跡象,就會發出警報。

但哪個是最可靠的(和最糟糕的)信號呢?

Moreno說:「當聯邦調查局特工或安全提供商與你的企業組織聯繫,檢查他們最近獲得的數據是否與你資料庫中的任何數據相匹配時,這通常說明已經發生了數據泄漏。」

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

IDC發布首份大數據及分析平台廠商分析報告 Splunk和IBM被評為領導者
躋身Gartner超融合基礎設施挑戰者象限 華為FusionCube「勢如破竹」

TAG:至頂網 |