淺談「黑匣子思維」
原標題:淺談「黑匣子思維」
2005年3月29日,37歲的伊萊恩要進醫院了。她患鼻竇疾病已經有幾年,今天要去動手術徹底治癒。這種手術醫院已經進行過很多次,從來沒有出過問題,主刀醫生有三十多年的經驗,麻醉師也有十六年的經驗。看起來,一切都應當會很順利。
手術開始,麻醉順利進行。伊萊恩進行麻醉之後,身體的許多機能會停止運作,為保證呼吸不停頓,醫生需要把一個設備從病人口中插入,固定在呼吸道上方,這樣氧氣就可以直抵肺部。
可是這一次,主刀醫生髮現,伊萊恩的下頜肌肉太緊張,設備塞不進她的嘴裡。在嘗試了幾分鐘無果之後,醫生換了個辦法,給病人注射鬆弛劑,於是嘴鬆開了。不幸的是,伊萊恩的軟齶擋住了呼吸道,醫生完全看不到呼吸道在哪。
因為一直不能輸送氧氣,伊萊恩的血氧飽和度已經降低到了40%,通常來說,這個值低於90%就很危險了。40%,已經是儀器能夠測量的最低值。情況危險,於是另一位麻醉師也來幫忙了。現在,一共有一名醫生、兩名麻醉師,外加三名護士。
不過,醫生們仍然沒法把氧氣輸送設備插進伊萊恩的呼吸道。事關緊急,按照規定,此時應當採用氣管切開手術救命,於是一名護士飛快地拿來了設備,並向醫生建議應當進行氣管切開。
但是,醫生們似乎沒有聽見護士的建議,他們仍然執著地嘗試,一次又一次把設備插到病人的呼吸道中……
最終,醫生們成功了,血氧飽和度也恢復到90%。然而為時已晚,大腦和機體的嚴重損傷已經造成。伊萊恩在重鎮監護病房躺了13天之後,遺憾地離開了人世。
故事到此告一段落。美國沒有那麼緊張的醫患關係,也沒有醫鬧,所以醫生很迅速也很直接地告訴了伊萊恩的丈夫馬丁,表達了遺憾:對不起,麻醉過程中出現了一些意外。發生這樣的事情,我們無能為力。我們已經儘力了,非常抱歉。
看起來,雖然有遺憾,也不會以鬧劇結束。大家應當互相信任,互相體諒。
然而這次,醫生們遇到的情況不一樣。伊萊恩的丈夫馬丁是一名飛行員,身為飛行員,他非常清楚航空業是如何對待事故,保證安全的。對於妻子的逝世,他沒有憤怒,因為他充分相信醫生的經驗。但是出於飛行員的職業習慣,他忍不住想要知道,到底問題出在什麼地方。
馬丁找到了重症監護室的負責人,希望還原事情的來龍去脈,找出到底有哪些問題,這些問題該如何改進。為了讓對方放心,他還介紹了航空業的普遍做法。可惜,他得到的答覆是:對不起,我們醫療衛生行業不是這麼做事的。如果你執意要調查,可以去法院起訴。
馬丁覺得無法理解。在他所在的行業,2014年以來,每100萬次飛行的事故率僅有0.23,創下歷史新低。而對於國際航空運輸協會成員公司來說,這個數字更是低到了0.12。也就是說,每飛行830萬次,才會出現一次事故。這背後當然有航空業時刻緊繃的神經,更重要的是,航空業堅持對事故和潛在事故進行細緻周密的復盤,勇於曝光事故,習慣對問題深挖,甚至對尚未造成事故的隱患,也要曝光和深挖。
相比之下,醫療行業的事故率要高得多。據美國《患者安全季刊》統計,每年死於可預防傷害的患者多達40萬人——相當於每24小時就有兩架波音747墜毀。即便如此,無論在哪個國家,對於醫療事故的調查仍然困難重重。醫生們總是覺得:被調查表達的是不信任、不尊重。
幾周以前我在文章里提到了《黑匣子思維》,這本書開篇就講了上面的故事,凸顯出不同行業對事故的不同態度和處理方式。航空業的處理方式,作者稱為「黑匣子思維」。或者換種說法,就是「形成閉環」:對事故和潛在事故進行細緻的分析,不斷找到可以改進的點,加以完善,確認問題得到解決,各項指標變化如預期。
在平常人看來,面對事故時,「黑匣子思維」當然要更好。那麼這麼簡單的道理,為什麼在航空領域可以落地,在醫療行業施行起來卻困難重重呢?
我相信,並不是醫療衛生行業的每一個人,都排斥事後進行詳細周密調查的。我也相信,不是航空業的每一個人,都樂於坦然接收調查,進行詳細分析的。許多人是身不由己,被習俗、慣例「裹挾」著這麼做的。看來,真正重要的是建立這樣的習慣和共識。
那麼,在其他行業培養這樣的習慣容易嗎,比如IT行業?可以想見,很不容易。
我曾經嘗試在一些的軟體開發團隊里推行這種「勇於曝光自我問題,勇於剖析其他人問題」的工作習慣。雖然之前設想過可能有阻力,但是無論如何,程序員的接受難度應當比醫生小吧,畢竟程序員處理的不是「人命關天」的事情,「系統」也比病人更容易背鍋。
結果,遇到的阻力遠遠超出我的想像。儘管再三重申不追究責任,只做客觀探討,結果仍然很不樂觀——當事人默不作聲,其他人顧慮重重,會場只剩空蕩蕩的煎熬。唯一「敢於」發言的反而是新人。不過,除非新人有足夠的技術素養,講的話讓人挑不出毛病,否則很容易被不友好的反問和質問給嚇到,下次也不敢作聲了。
說句題外話,如果你「有幸」一直身在大廠,或者在技術氛圍很不錯的環境里,估計不會遇到這種困難。但是在「大廠」和「小而美團隊」之外,還有大量的團隊都存在這樣的問題。
這引起了我的好奇,航空業是如何實現黑匣子思維的?航空事故是如何調查的,我一直沒看到詳細的資料。不過,最近我在一部關於航天的紀錄片里看到了有趣的細節。雖然航空和航天不是同一回事,「黑匣子思維」卻是可以借鑒的。
這部紀錄片是2008年的When We Left Earth,講述的NASA(美國宇航局)成立50周年來對太空持續不斷的探索。其中有一集,花了不少篇幅講解1986年「挑戰者」號太空梭的事故。今天許多人大概都知道,1986年1月28日,「挑戰者」號太空梭在升空73秒之後爆炸,是航天史上的一大悲劇。
在紀錄片中我看到,「挑戰者」號太空梭爆炸之後,地面指揮中心立刻對所有現場人員發出了這樣的指令。
站立者為時任美國宇航局局長(NASA Director)Gene Kranz,之前在多次航天任務中擔任飛行總指揮(Flight Director)。
原來,即便是極為在乎降低事故率的航天領域,「黑匣子思維」也不是完全靠自覺進行的,明確的指令、嚴格的規範,都是不可或缺的。在太空梭爆炸這麼大的事故面前,沒有面面相覷或者亂成一團,而是第一時間下達明確指令,這明顯不是「靈機一動」能做到的。
NASA做得還不只這些,為了確定事故的原因,碎片搜索的範圍達到了1600平方千米,最深處是在370米深的海底。整個搜索過程持續三個多月,直到判斷基本可以定位問題的根源,碎片搜索行動才告結束。
看到這裡,我想起自己經歷過不少IT系統的災難,它們的嚴重程度當然趕不上「挑戰者」號失事,處理過程卻沒有NASA的規範:IT災難更多仍然靠高手來力挽狂瀾,現場數據的保存並沒有明確的要求,事後的分析和還原工作,也因為證據不足或者成本太高無疾而終。最終,或許有一個形式上的結論,卻不是「根本原因」。
NASA做得這麼好,是不是應當稱為學習的榜樣?非也,根據調查結論,NASA仍然受到大量的批評。
事後美國成立了總統調查委員會,主席是前國務卿威廉·羅傑斯(所以也稱為「羅傑斯調查委員會」),成員還有宇航員尼爾·阿姆斯特朗(第一個登上月球的人)、物理學家裡查德·費曼(大名人)等等。可以說,沒有讓NASA自行調查,而是包含了那麼多「局外人」的潛台詞之一就是:信不過。
經過幾個月的調查,調查委員會不但指出了技術原因是發射時溫度太低導緻密封圈失效,還進一步挖出了宇航局工作文化中的問題:與供應商溝通不夠,決策流程有重大缺陷…… 費曼並且非常直白地指出:要想在技術上獲得成功,必須把事實放在公關之上,因為大自然是不可欺騙的。美國總統里根更是直接下令,宇航局必須在三十天內落實全部整改措施。
這種「打破砂鍋問到底」的追尋,最終取得了什麼結果?32個月之後,宇航局才進行了下一次太空梭發射,檢查更嚴格,後續發射的頻率更低,花里胡哨的任務也沒有了——要知道,正是之前持續發射成功導致了盲目的樂觀情緒,「挑戰者」號搭載女中學教師的一部分考慮正是吸引公眾的注意力。結果,之後的太空梭任務確實沒有再出現事故。
然而,17年後悲劇再一次發生,「哥倫比亞」號太空梭在返航時解體。「哥倫比亞」號事故的調查委員會毫不客氣地指出:「NASA未能從挑戰者的事故中學到足夠多的教訓,特別是未能真正的設立獨立作業的安全監督小組」,「NASA對羅傑斯委員會的回應並沒有達到委員會的初衷」。「造成對挑戰者號(事故)負有責任的制度失效原因並未消除」。
這個故事說明了什麼?在我看來,它說明了:即便對於有開放精神的行業和團隊,「黑匣子思維」的建立和維持也不是件容易的事情,時常需要藉助外力來刺激,否則就容易退化。
前段時間我和一位做開發的朋友聊天,他講了個很有意思的故事。他供職於一家以溫暖、人性化的文化著稱的大廠,大家都很認同自己公司的企業文化。前不久,公司從某講究「狼性」的公司引進了一名技術人才,這名新同事說話做事都不太講究,與公司文化不太合拍,不過大家也還能忍。更麻煩的是,新同事的「狼性」十足,遇到問題根本不顧及面子,也不怕得罪人,「挖地三尺」也要把根源找出來。
一開始,大家都特別不適應這種方式。無可否認,大家的職業素養本來就很高,但也要顧忌同事關係和團隊配合,所以許多問題和故障的分析「適可而止」了。新同事來了之後,就再沒有發生過「適可而止」的事情,牽連出來的變數、挖出來的關係鏈條都比之前大大增加。大家表面上不說,內心都相當不屑,認為是小題大做。
再過一段時間,神奇的變化出現了。以前認為過於複雜的問題,現在逐漸有了分析的思路;以前認為太過困難的問題,現在發現不那麼困難了…… 這時候,大家才終於意識到,原來挖得深一點,問得緊一些,是真正能看到好處的。
聽到這個故事的事後,我想到了兩點:
第一,許多人反感「狼性」,其實適當的「狼性」是需要的,但這種「狼性」應當是對事深挖三尺,而不是對人窮追猛打;
第二,許多團隊即便已經「足夠優秀」,只要能夠容忍「對事不對人」的狼性,面對問題勇於曝光、敢於深挖——尤其是面對新鮮血液時——仍然是能挖掘潛力,取得更大成績的。
如果團隊還沒有那麼多「黑匣子思維」,又沒有引入合適的新鮮血液?如何建立「黑匣子思維」的意識和習慣?我覺得,多提問題是個好辦法。
以前我寫過《豐田生產方式的啟發》,其中沒有提的一點是,豐田生產方式要求「遇到故障一定要問五個為什麼」。比如車門出現了某種缺陷,提問方式大概是這樣的:
為什麼車門出現這種缺陷?因為螺絲沒有擰緊。為什麼螺絲沒有擰緊?因為工人不敢用太大的力氣。為什麼工人沒有用太大的力氣?因為沒有扭力扳手,力度沒有明確指示。為什麼沒有扭力扳手?因為五個人只配備了兩把扭力扳手,沒有機會使用。為什麼五個人只配備兩把?因為扭力扳手很貴,生產部門不知道會出現這種故障,從節省成本的角度考慮,沒有給每個人都配備。
最終的解決之道,就是明確向生產部門提出需求,要求給每個人都配備扭力扳手。在這之前,無論是要求工人擰緊螺絲,還是要求工人每次用適當的力氣,或者是要求大家輪換用扭力扳手,都沒有解決問題的根源。
這種場景,相信許多程序員也不陌生。為什麼沒有預料到故障的發生?因為缺乏監控。為什麼缺乏監控?因為不了解具體情況,不知道要監控什麼。為什麼不了解具體情況?因為數據量太大了。為什麼數據量太大是問題?因為缺乏分析手段。那麼,為什麼不抽樣調查?…… 所以,結論就是抽樣調查。許多問題只要追問到這個程度,就不再是「不可解決」的,就不再有抽象的困難。
為什麼一定要這樣追問才能解決問題呢?坦白說,最早看到豐田生產方式要求問「五個為什麼」的時候,我也有同樣的疑惑。後來我才明白了:「黑匣子思維」,探究問題的根源,說起來容易做起來難,許多時候甚至有悖於人性,所以當事人很容易就給自己找個借口中止了。多問幾個為什麼,其實是逐個擊穿自我設置的障礙,努力接近最終答案的過程。
本文源自:http://www.weilai9.com/article/149.html


TAG:未來久科技 |