當前位置:
首頁 > 知識 > 現代信息技術能為生命科學做什麼?

現代信息技術能為生命科學做什麼?

清華大學電子工程系副教授沈淵

演講 | 沈 淵 (清華大學電子工程系副教授)

整理 | 呂浩然

  

我來自清華大學電子工程系,之所以會到求是西湖學會結構生物學的專場來做一個電子工程相關的報告,這其中還有些淵源。兩年前一次求是的活動中我同李雪明老師聊起彼此的研究,第一次近距離了解冷凍電鏡以及結構生物學這個「時髦」的領域。李老師提到他們利用冷凍電鏡重構三維蛋白質的過程中遇到了一些數學問題,而我認為解決這些問題,電子系的很多數學工具正好能用上。所以,通過電鏡、通過蛋白質重構,我們開始了合作。

今天我主要想介紹我經歷的兩個現代信息技術應用於生命科學中的實例,它們也和結構生物學中緊密相關。

首先我們回顧一段歷史,這裡面也體現出信息技術和其他學科的結合。在上世紀60年代美蘇冷戰期間,兩國都開始了太空探索,而美國NASA水手號計劃擔負起了行星系探索的任務。1964年,水手4號成功飛越了火星,並傳回了第一張人類近距離拍攝火星的照片。

水手4號傳回的火星表面照片

五年之後,水手6號問世,相比之前的水手4號,水手6號整體質量從兩百六十千克上升到了四百千克,這也就是說火箭的運載能力變強了,能把更重的東西推向外太空;

第二,水手6號上通信設備的發射功率提高了一倍,這也使得它的回傳數據率從每秒33比特升到了270比特,回傳數據的能力提高了八倍,八倍的提升意味著什麼?意味著,世界第一次能清晰地看到火星表面的細節。

水手6號傳回的火星表面照片

發射功率的提高意味著科學家們需要不斷突破物理的限制。發射功率若想提高一倍,在1960年需要花費約為300萬美元,這代價還是很高的。不僅如此,因為它的載荷有限,人們也不可能無限制提高它的發射功率。但是水手6號的回傳能力仍提高了八倍,這歸功於很多新的通信和編碼技術。科學家們事後估算了一下物理學和數學對水手6號性能提高的貢獻比,差不多是50%對50%——物理學家能把更重的東西推向火星,能夠把更大的通信設備、電池等裝備到6號上;而數學家通過基於資訊理論的新型通信手段,大幅提高回傳數據的可靠性。

如果把水手6號的例子映射到結構生物學的冷凍電鏡上,生物學和電子工程的合作可以概括為:在提升硬體的同時,我們也可以在演算法上改進,幫助冷凍電鏡得到更高精度的照片,恢復出一些更高精度的結構。所以說,物理上我們已經有了很好的冷凍電鏡,是不是我們可以在數學方法上找到一些突破?這也是我跟李老師合作的主要目的:提供更好的演算法,進而提升冷凍電鏡重構的性能。

我今天簡單舉兩個例子,說明電子工程領域的一些工具和理論,怎麼樣來解決生物學中的問題。一個是DNA的高通量測序,如何從資訊理論的視角出發,提高用碎片重構DNA序列的性能;第二個是蛋白質的三維重構,我們怎麼樣用統計推斷的技術來解決蛋白質三維重構的一些問題。

資訊理論視角下的DNA測序

首先是DNA的高通量測序,這其中涉及到了資訊理論的意義。DNA鏈條通常非常長,比如說由10的9次方個鹼基組成(我不是生物專業,所以我講述不準確的地方請大家指出)。我們測序的時候一般會得到很多碎片,將這些碎片整合成原來的DNA。而資訊理論,可以簡單地看作在打電話時將聲音進行編碼變成數字信號,再通過無線傳輸送到另一端。另一端會進行解碼,最後恢復出音頻信息。

理解這一資訊理論的問題,首先需要建模,把這個問題轉化成一個嚴謹的數學問題。1948年,資訊理論的鼻祖Claude Shannon在他的經典文章中提到一個關於資訊理論的數學模型,主要闡述怎麼用一種非常簡單的數學模型來建模一個複雜問題,並通過數學分析來給實際系統一些很好的指導。基於數學模型,資訊理論回答了兩個問題。首先涉及信息傳輸的一個理論極限,即通信中所謂的信道容量,這個理論極限任何系統都不可能打破;第二個問題是傳輸方式的設計,如何通過精巧的編碼方式來接近信息傳輸的理論極限。

所以,資訊理論的意義就在於它能指導通信系統的設計,有了Shannon資訊理論的指導,工程師們不再是盲人摸象,可以知道距離那個理論極限還有多遠,進而評價一種方法有多好。

實到DNA高通量測序上,我們得到了一些碎片信息,怎樣把它組裝起來,進而得到原來的DNA。從資訊理論的視角看,那我們要問的問題是:我們至少需要多少片段才能以高概率來恢復這個DNA。

首先,這些片段必須能夠覆蓋整個DNA,如果中間有片段缺失,則將會失去一些遺傳信息。數學家隨即進行建模,假設DNA序列的長度為G,每個鹼基位由獨立同分布的隨機變數組成,每個DNA片段的長度固定為L,切割點位也是均勻分布。在這種情況下,數學家Lander和Waterman給出了一個需要片段數目的最小值:

即如果少於這個數目則片段無法以大概率覆蓋整條DNA,更遑論恢復了。

這個公式描述的是高概率

意義下的覆蓋,並不是說多於這個數量就肯定能夠進行重組,也有可能找不到其中一段DNA,只不過這個概率可能隨著片段數越來越多而變得越來越小,但還是有著一個概率。

加州大學伯克利分校電子工程系的一組研究者在2012年又對單個DNA片段的長度給出了最短公式,它至少要大於:

其中

是信息中比較經典的Renyi信息測度。

我們再來看一張圖:

圖中的橫軸是片段的長度,縱軸是歸一化的片段數量。圖中左上和右下打叉的區域分別是因重複數量過多導致無法區分以及片段數量過少導致無法覆蓋整段DNA,從而無法進行DNA重構。所以,可以重構區域只能是綠色的部分,也就是說,在理論上可能進行重構的部分,這個邊界就是資訊理論告訴我們的。

在得知理論極限後,我們怎麼重構一組DNA?最簡單的方法是運用貪心演算法。貪心演算法把短的片段都接起來,將重複的部分去掉之後得到期望中的DNA序列,這也是最直觀的方法,卻也有一些弊端。另一種演算法叫de Bruijn圖演算法,我們將每一段序列打碎成圖上的節點,然後將有連接關係的全聯起來得到一個有向圖,再通過圖的方式結合起來,此時DNA重構的問題就變成了怎麼樣在這個圖上找到一條最長的通路,這個圖的演算法可以有一個唯一的歐拉通路,它能夠得到最長的可重構的序列。這個演算法已經被證明性能要優於貪婪演算法,就是利用了一些圖的結構。

回到2012年伯克利研究組的工作。假設兩個片段在原始的DNA上就是重複的,在重構時,如果片段不夠多或者片段太短,就會導致無法區分兩個重複片段哪個在前,哪個在後。研究組的工作告訴我們在這種情況下還需要更多的測量,才能夠把它們區分開,形成非常直接的一條通路。這樣的話能解決更多的問題。

資訊理論可以讓我們衡量一個演算法到底夠不夠好,如果不夠好,我們應該怎麼去進一步改進。所以,從資訊理論的視角來看DNA測序可能跟生物學家看DNA測序的視角不太一樣,可稱得上是一塊他山之石。當然,資訊理論視角在實際的應用中也存在一些挑戰,如果建模的工作做得不好,可能理論給出的極限就有偏差,所以一定要把模型建好;其次,讀取片段時存在誤差、演算法不夠縝密進而出錯,這些都是更進一步的數學問題。這些就是資訊理論和DNA高通量測序之間的一些聯繫,或者說一些探索。

統計推斷與蛋白質重構

第二個可能大家更熟一點,就是統計推斷和蛋白質重構的之間的關係。我們可以利用所謂的統計推斷方法來進行蛋白質重構:從一堆冷凍電鏡拍攝的照片裡面能夠重構出一些蛋白質的三維結構。

一句話來概括統計推斷,即基於系統模型利用未知參數的間接測量與先驗知識去推斷未知參數。就是說我們不知道明天會不會下雨。只能根據最近的天氣情況去推斷明天下雨的概率是多少。因為我看不到明天,看得到明天的話就不是預測了。

在蛋白質重構方面,它的未知參數是什麼?未知參數就是我們想要知道的三維的結構。我們的觀測、測量是什麼?是冷凍電鏡得到的二維投影圖片。我們的模型是什麼?因為我們的測量是通過一個投影矩陣和一些高斯雜訊組合而成的,我們得到一些圖片。

下圖是我們的一個系統模型,通過這個模型測量,可以推測一個未知的結構,也就是說我們能將一個蛋白質重構。所以說,從統計推斷的角度來看,蛋白質重構可以建模成一個比較經典的問題。

們通過冷凍電鏡觀察蛋白質的二維照片,這些照片是經過積分投影矩陣和觀測雜訊作用而成的,科學家要通過這些二維圖片,重構出這個蛋白質的三維結構,這就是蛋白質的重構問題。在投影的時候,蛋白質雖然被凍住了,但它凍住的「姿態」都不太一樣,所以它的投影、偏移和雜訊也不盡相同,這些都是未知參數。在這個過程中,難點在於二維投影圖片的信噪比相當低,僅-10dB,而且未知的參數空間非常大。如果要用傳統方法來統計推斷的話,計算量很大,這也是為什麼之前在進行三維重構的時候都需要運用計算機集群的原因。

而我們則採用了一種電子工程領域的粒子濾波技術來解決這個難題。這個粒子不是圖片,而是一些離散的樣本點,用這些離散的樣本點來逼近計算中所需要的概率分布曲線。這樣做的好處在於我們不再需要用一個非常規整的格點來描述一個帶有權重的樣本,而是用一種隨機採樣的粒子濾波方法,用一句俗話來說就是好鋼要用在刀刃上。在做參數、姿態估計的時候,應該在最有可能的方向上進行高精度的分辨,而不需要去用同樣的力度全盤採樣,這就是粒子濾波技術大致的含義。

我們通過粒子濾波技術重新估計每張圖片的投影角度和中心偏移,主要用到了三個方法:首先是隨機粒子採樣,它使得採樣的速度更快,樣本數也更少;其次,還有對圖片進行加權,我們評估一張圖片是否更像一個蛋白質的實際結構,這樣可以將一些拍攝質量較差和非目標蛋白質的圖片去除;最後,通過粒子濾波的方法還能不斷地進行精確校準,可以將結構的旋轉、平移和高度等結構校準出來。經過多輪迭代之後,得到的結果會越來越聚集到正確的一個方向上,它的結構信息的細節也越來越多。

我們和李(雪明)老師在粒子濾波技術的應用方面已經取得了階段性的成果,實驗顯示,蛋白質重構的質量得到了很大提升。下一步,我們將嘗試使用其他現代信號處理的方法來改進蛋白質重構演算法,例如稀疏信號的處理。

如何理解稀疏信號處理?大家都知道我們可以對JPG圖片進行壓縮,文件大小大大降低,為什麼?因為壓縮的過程通過對整個信號進行傅里葉變換之後,其實大的係數都是在低頻段,在頻譜上集中在前段。所以,我們用一些低頻的信號就可以很好的恢復一幅圖片的原貌。也就是說,稀疏信號處理可以很好的解決欠定的逆問題,同時提升雜訊下演算法的魯棒性。

從蛋白質的結構上來看,在結構中各原子之間也存在著一個稀疏性的問題,比如在一個100*100*100的結構中,它裡面真正有蛋白質或者原子的地方可能僅有5%~10%,存在著稀疏性。所以,我們用演算法再重構的時候不需要去將每個點都等效地來看,因為如果有些點不太像信號的話,就很可能是雜訊。所以在工作過程中,我們嘗試用稀疏信號處理來指導蛋白質的重構。我們已經對現有的演算法作出了一定的改進,演算法的結果仍還在測試中。

總結一下,我主要講了兩個信息科學領域的方法在生物工程方面的應用,一個是資訊理論和DNA高通量測序之間的關係,它能給生物學家們帶來一個新的視角,告訴他們演算法的一些邊界;另一個就是運用統計推斷去指導蛋白質重構,通過演算法上的改進提升重構的蛋白質解析度。這兩個例子展示了信息科學的一些方法去幫助解決一些生命科學的問題的可行性。

反過來看,生命科學中的很多問題也會給信息科學以啟發,使得信息科學產生一些新的方法,或者將一些已有的方法進行拓展,幫助我們更好地發展演算法及相關的硬體、軟體,對我們來說也產生了積極的作用。這也是交叉學科的一個意義所在,不同學科之間進行交流,了解真正的問題在哪,接著學科之間互相幫助,解決實際問題。所以,我覺得中國各學科之間需要一個比較長期、充分的交流和溝通。

製版編輯:呂浩然丨

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

歡迎轉發朋友圈


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知識分子 的精彩文章:

外國學者主導中國病人資源進行研究引發爭議
更正聲明 | 7月18日
腦科學研討會:從基礎研究到臨床 | 預告
學術氣氛和天文界軼事 | 「天問」專欄開篇

TAG:知識分子 |

您可能感興趣

區塊鏈技術究竟能為食品行業做些什麼?
維生素C能為我們做什麼?
作為技術人,我們能為世界做些什麼?
科學家發現土星最大衛星存在大氣層,它將能為生命衍生提供保障
美術教育能為我們的孩子做什麼?
太陽還能為人類提供多久能量?科學家:未來或能出現新能源代替!
匯聚世界級骨科大師,這家國際骨科醫生平台能為患者、醫生帶來些什麼?
軍事教育技術專業裝備能為手機充電,戰時可應急保障單兵通信設備
咖啡渣成新型生物燃料,科學家深入研究,發現其能為汽車提供動力
藝術不等於科學,沒有人能為你打分
實力科普!什麼樣的妖可以修鍊成人?會法術的妖就能為所欲為?
王立銘:不是科學家,也能為孩子做好科學教育
外星生命藏身地心?以核能為生,科學家擔憂其進化後威力驚人
什麼能為試管嬰兒的「優生」保駕護航!
一個服裝品牌能為瀕危動物做什麼?
邦瀚斯加碼香港市場,任命王子能為現當代藝術新主管
我們的設計師能為您做些什麼?
艾弗森職業生涯最恐怖的紀錄,養生詹姆斯感到無能為力
3D列印技術,能為我們帶來什麼?
智能機械都無能為力,中電科首席技能專家出手,助中國再獲重器