當前位置:
首頁 > 最新 > 構建ctDNA腫瘤標記物資料庫

構建ctDNA腫瘤標記物資料庫

這是去年我在學校學習期間抽出業餘時間,對我之前(16年中旬)在樂普醫療做實習生階段的項目的一個復盤。我想這個復盤的意義也越來越明確,那就是數據是可以告訴我們知識的,尤其是你擁有可觀的數據之後。

在研究任何一份數據之前,你必須明確兩個指標:

對於醫療的數據而言,這兩點尤為重要。首先,你的研究基準在哪裡;其次,你的數據是否足夠支持你論證結論,簡言之,統計假設是否成立,是否可以回溯歷史和支持推斷。在今天,我們還得額外考慮,是否可以探索意料之外的知識。

簡單理解下標題,生物標記物,ctDNA(circulating tumor DNA) 即遊離於血液中的,由癌細胞釋放出來的DNA 片段。這些片段上帶有人體DNA在細胞癌變後,隨機遭遇到的突變(variance)、甲基化(『--H』-->『--CH3』 )等的各種可能的修飾,據說蛋白質的修飾方式有400多種,當然,DNA至少也應該有這麼多種不同的修飾。

介紹基礎背景知識和研究背景,最後就是我在這件事情上的進度。

自然而言,談到液體活檢,我們不免感到陌生,可是實際上我們去醫院都會有液體活檢的流程,抽血化驗,尿檢,糞便檢查,都是Liquid Biopsy。畢竟現在醫院裡都是基於分子實驗室的配套設施在做這些檢查,Biopsy 沒問題。

由於ctDNA 是位於血液當中的cfDNA(Cell-free DNA)中的一部分,我們關注的就是血液中的 遊離DNA,並且希望藉助它們獲得我們對身體各處細胞的情況進行探查。研究意義不明覺厲。

由於DNA的甲基化能夠抑制基因在相應位置的表達水平,從而進一步抑制某些蛋白的表達水平,從而導致細胞發生不可修復的病變,比如癌變,細胞凋亡,細胞焦亡,細胞壞死等情況。所以,DNA的甲基化水平是我們額外關注的問題。如何檢測呢?

目前,主流的幾種檢測手段。

既然意識到ctDNA的重要性,基於此,我們在現有大量樣本的數據前提下,是否可以做出一些基礎性的探索和嘗試呢?一下,我的工作在準備數據和的階段做了很多嘗試,在演算法和計算呈現上,也在不斷嘗試。

組學研究的整體思路。

我所使用到的各類組學研究支持的資料庫。

各類組學分析的辦法。

我的工作準備,數據獲取部分。

數據重構,對10000樣本的數據進行重構,規制數據到16種癌症中,用直方圖體現每個甲基化位點在16種癌症患者的分布情況。直方圖如下,這樣的圖一共有45萬張。每張的數據位點有10000個。

相應採取的分類和聚類演算法介紹(略)

通過簡單統計就可以找到潛在的標記物(DNA片段),以在臨床上驗證過的SEPTIN9 基因(結腸癌ctDNA標記物片段)圖中藍色線段顯著在結腸癌患者中高表達。

最後 感謝大家!也歡迎大家能夠提供更多支持和建議!我想這個事情做起來還是很有意義的,至少可以幫助醫生提供更多信息,早點診斷,癌症患者的預後會好很多,也會節約很多醫療和人力成本。我希望這個課題或者項目能夠以資料庫的方式,結合機器學習演算法的辦法,去不斷優化,能夠給我們國家的醫療提供相應的數據支持,對液體活檢試劑盒的開發夜能夠做出貢獻。

也歡迎對此項目有興趣的企業、醫院、個人聯繫我,我願意提供數據,演算法支持,目前我在北京。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 腫瘤 的精彩文章:

腫瘤糖尿病患者的健康教育
腫瘤科主任告訴你:桌子上經常出現這3種蔬菜,小心癌症找上門!快告訴家人

TAG:腫瘤 |