構建ctDNA腫瘤標記物資料庫

最新 03-19

這是去年我在學校學習期間抽出業餘時間，對我之前（16年中旬）在樂普醫療做實習生階段的項目的一個復盤。我想這個復盤的意義也越來越明確，那就是數據是可以告訴我們知識的，尤其是你擁有可觀的數據之後。

在研究任何一份數據之前，你必須明確兩個指標：

對於醫療的數據而言，這兩點尤為重要。首先，你的研究基準在哪裡；其次，你的數據是否足夠支持你論證結論，簡言之，統計假設是否成立，是否可以回溯歷史和支持推斷。在今天，我們還得額外考慮，是否可以探索意料之外的知識。

簡單理解下標題，生物標記物，ctDNA（circulating tumor DNA) 即遊離於血液中的，由癌細胞釋放出來的DNA 片段。這些片段上帶有人體DNA在細胞癌變後，隨機遭遇到的突變（variance）、甲基化（『--H』-->『--CH3』）等的各種可能的修飾，據說蛋白質的修飾方式有400多種，當然，DNA至少也應該有這麼多種不同的修飾。

介紹基礎背景知識和研究背景，最後就是我在這件事情上的進度。

自然而言，談到液體活檢，我們不免感到陌生，可是實際上我們去醫院都會有液體活檢的流程，抽血化驗，尿檢，糞便檢查，都是Liquid Biopsy。畢竟現在醫院裡都是基於分子實驗室的配套設施在做這些檢查，Biopsy 沒問題。

由於ctDNA 是位於血液當中的cfDNA（Cell-free DNA）中的一部分，我們關注的就是血液中的遊離DNA，並且希望藉助它們獲得我們對身體各處細胞的情況進行探查。研究意義不明覺厲。

由於DNA的甲基化能夠抑制基因在相應位置的表達水平，從而進一步抑制某些蛋白的表達水平，從而導致細胞發生不可修復的病變，比如癌變，細胞凋亡，細胞焦亡，細胞壞死等情況。所以，DNA的甲基化水平是我們額外關注的問題。如何檢測呢？

目前，主流的幾種檢測手段。

既然意識到ctDNA的重要性，基於此，我們在現有大量樣本的數據前提下，是否可以做出一些基礎性的探索和嘗試呢？一下，我的工作在準備數據和的階段做了很多嘗試，在演算法和計算呈現上，也在不斷嘗試。

組學研究的整體思路。

我所使用到的各類組學研究支持的資料庫。

各類組學分析的辦法。

我的工作準備，數據獲取部分。

數據重構，對10000樣本的數據進行重構，規制數據到16種癌症中，用直方圖體現每個甲基化位點在16種癌症患者的分布情況。直方圖如下，這樣的圖一共有45萬張。每張的數據位點有10000個。

相應採取的分類和聚類演算法介紹（略）

通過簡單統計就可以找到潛在的標記物（DNA片段）,以在臨床上驗證過的SEPTIN9 基因（結腸癌ctDNA標記物片段）圖中藍色線段顯著在結腸癌患者中高表達。

最後感謝大家！也歡迎大家能夠提供更多支持和建議！我想這個事情做起來還是很有意義的，至少可以幫助醫生提供更多信息，早點診斷，癌症患者的預後會好很多，也會節約很多醫療和人力成本。我希望這個課題或者項目能夠以資料庫的方式，結合機器學習演算法的辦法，去不斷優化，能夠給我們國家的醫療提供相應的數據支持，對液體活檢試劑盒的開發夜能夠做出貢獻。

也歡迎對此項目有興趣的企業、醫院、個人聯繫我，我願意提供數據，演算法支持，目前我在北京。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自腫瘤的精彩文章:

※腫瘤糖尿病患者的健康教育
※腫瘤科主任告訴你：桌子上經常出現這3種蔬菜，小心癌症找上門！快告訴家人

TAG:腫瘤 |