當前位置:
首頁 > 知識 > 為了找出被研究次數最多的基因,他和《自然》一起做了個「明星基因」排行榜

為了找出被研究次數最多的基因,他和《自然》一起做了個「明星基因」排行榜

K. Krause and J. Krzysztofiak/Nature

作者 Elie Dolgin

來源 Nature

翻譯 梁珩

審校 阿金 魏瀟

Peter Kerpedjiev 需要一門基因學速成課。作為一名接受過生物信息學培訓的軟體工程師,他正在攻讀博士學位(PhD),覺得如果能掌握一些生物學的基礎知識會對自己的學業有很大幫助。他自問道:「如果想達到能夠討論學術問題的水平,我需要了解哪些基因?」。

於是,Kerpedjiev 直奔資料庫。多年來,美國國家醫學圖書館(US National Library ofMedicine,NLM)在自己著名的 PubMed 資料庫中系統標記了幾乎每一篇涉及基因的文章。而 Kerpedjiev 則摘錄下了所有關於基因結構、功能、位置,或者由基因編碼的蛋白質的文章。

通過對這些數據進行分類,Kerpedjiev 製作了一份有史以來被研究得最多的基因排行榜——「最熱門」的人類基因,以及一些其它物種的基因。

他發現榜單上排名第一的是TP53基因。三年前,Kerpedjiev 剛開始他這項分析工作時,詳細研究TP53和其編碼的蛋白 p53 的文章已有 6600 篇。今天,這個數字達到約 8500 篇,並且還在不斷增加,平均每天約有兩篇介紹TP53新生物學特性的文章發表。

對大多數生物學家而言,TP53的熱門程度並不令人意外。它是抑癌基因,並作為「基因組守護者」廣為人知,且在幾乎半數的人類癌症中存在變異。「這解釋了它的持久影響力,」 Bert Vogelstein 答道,他是一位來自位於美國巴爾的摩約翰霍普金斯大學醫學院(Johns Hopkins University School of Medicine,Baltimore)的癌症遺傳學家。在癌症領域,他宣稱:「沒有比它更重要的基因了」。

但有些名列前茅的基因卻沒有那麼出名——包括一些在早期基因研究領域中佔主要地位的基因,它們隨技術的進步而遭淘汰。「這個排行令人驚訝,」Kerpedjiev 說道,他現在在位於馬薩諸塞州波士頓的哈佛醫學院(Harvard Medical School in Boston, Massachusetts)做博士後,致力於基因組數據可視化。「一些基因上榜是可預見到的,而另一些則出乎意料。」

為了深入研究,Kerpedjiev 與《自然》雜誌(Nature)展開合作,分析歷史上所有的熱門基因(參看『THE TOP 10』)。這項工作並不是為了增加閑聊的談資:它披露了生物醫學領域研究的重要趨勢,反映出對特殊疾病或公共衛生問題的關注如何改變基因研究的優先順序。同時,也揭示了佔據研究大頭的基因大部分涉及跨學科和疾病領域。

十大熱門基因,圖片來源: Peter Kerpedjiev/NCBI-NLM

人類基因組包括兩萬多個能夠編碼蛋白質的基因,對其中約 100 個基因的研究佔據了 NLM 標記文章的 1/4。同時,還有數以千計的基因未被研究。「這說明因不願投入使得我們對某些基因有多麼地不了解,」 Helen Anne Curry 答道,他是來自英國劍橋大學(University of Cambridge, UK)的科學史學家。

熱門和過時

2002 年,第一份人類基因組的草圖剛發表不久,NLM 開始系統地在文章上添加「基因引用功能(gene reference into function, Gene RIF)」的標籤,並把範圍擴大到上世紀 60 年代的文章,有時候還利用別的資料庫來補充信息。這並不是一個完美的整合數據。「總而言之,數據集仍然存在一些干擾信息,」 Terence Murphy 答道,他是馬里蘭州貝塞斯達(Bethesda, Maryland)NLM 的一名科學家。他提醒說,2002 年前發表的文章可能存在樣本偏倚:意思是某些基因統計過多而另一些則錯誤地遺失了。「但這並不糟糕,」 Murphy 說道。「當你整合多個基因數據時,能夠潛在地減少部分偏倚。」

如上所述, PubMed 的記錄顯示,在一些特定的歷史時期,那些與基因相關的文章試圖聚焦某些熱點問題(參看下錶『Fashionable genes through the years』)。比如,在 80 年代中期之前,許多遺傳學研究專註於血紅蛋白(haemoglobin),這是一種血細胞中運輸氧氣的分子。在 1985 年之前,超過 10% 的關於人類遺傳學的文章在某種程度上都涉及到血紅蛋白。

熱門基因年代圖,圖片來源:Peter Kerpedjiev/NCBI-NLM

同時,研究者仍繼續為 Linus Pauling 和 Vernon Ingram 的工作添磚加瓦。這兩位先驅者領導了一項分子層面的疾病研究——他們在 40、50 年代發現畸形血紅蛋白引起鐮刀型血細胞綜合症的機制。另外,分子生物學家 Max Perutz 因其研究血紅蛋白 3D 結構作出的貢獻,與 John Kendrew 共同獲得了 1962 年的諾貝爾化學獎,並在後續的幾十年專註於血紅蛋白的形態與其功能的相關性研究。

Alan Schechter 是美國國立衛生研究院(US National Institutes of Health, NIH)的一位內科醫生、科學家兼高級歷史顧問,據他所述,血紅蛋白基因——當時的熱度超過很多其他基因——提供了「一條理解甚至可能治癒分子疾病的途徑」。

作為一名鐮刀型血細胞的研究者,Schechter 稱,在 70 年代至 80 年代早期舉行的重要遺傳學會議和血液疾病會議上,這類基因是討論重點。但當研究者獲得基因測序和基因編輯等新技術後,他們開始把目光投向其它基因和疾病,包括當時在男同性戀中流傳甚廣的「神秘感染疾病」。

在 1983 年研究發現艾滋病是由 HIV 病毒引發之前,臨床免疫學家 David Klatzmann 就注意到病人體內存在某種奇怪的模式。現就職於巴黎皮埃爾和瑪麗居里大學(Pierre and Marie Curie University,Paris)的 Klatzmann 回憶道: 「我很驚訝地發現病人體內不含 T4 細胞。」他利用細胞培養實驗證明,HIV 病毒選擇性地感染和破壞免疫系統中 T 細胞的某些亞型。那麼,問題來了:這些病毒是怎麼進入細胞的呢?

Klatzmann 解釋道,免疫學家們曾經用來定義 T 細胞類型的表面蛋白(後來被稱作 CD4)同時也能作為 HIV 病毒進入細胞的受體。他說對了。Klatzmann 在 1984 年十二月報告了這項研究成果,同時期的還有分子病毒學家 Robin Weiss 的一篇類似文章。隨後,他和同事還在倫敦的癌症研究所(Institute of Cancer Research)作了報告。

在 3 年內,CD4 成為生物醫學領域最火的基因,在 1987 到 1996 年間,它貢獻了當時 NLM 所有標記文章的 1-2% 。

這份關注度部分基於科學家們解決艾滋病(AIDS)危機的共同努力。例如,在 80 年代後期,多個公司合作設計治療類型的 CD4 蛋白,這類蛋白能在 HIV 病毒感染健康細胞之前將其清除乾淨,但小規模的臨床試驗證實該技術「失敗」了, Jeffrey Lifson 答道,他是位於馬里蘭州弗雷德里克(Frederick,Maryland)的美國國家癌症研究所(US National Cancer Institute)「艾滋病和癌症病毒」項目的主任。

CD4 變得更為熱門的另一個原因與基礎免疫學相關。1986 年,研究者意識到表達 CD4 的 T 細胞應該分為兩個不同的亞型:一類減少感染細胞的細菌和病毒,另一類則保護細胞免受蠕蟲等寄生蟲的傷害,因為有些寄生蟲蟲能在不入侵細胞的情況下引起疾病。「這是一個激動人心的時刻,因為我們過去懂得太少,」Dan Littman說道,這是一位來自紐約大學醫學院(NewYork University School of Medicine)的免疫學家。1986 年以前,他曾參與克隆編碼 CD4 蛋白的基因並把它插入細菌基因組內,從而製造了大量實驗用的蛋白質。

十年後,Littman 與同事共同領導了一個實驗小組,並與其他兩個小組合作,證明了 HIV 病毒利用異於 CD4 受體的另一個受體進入細胞:這個蛋白受體就是 CCR5。這類受體,以及另一類稱為 CXCR4 的共受體(co-receptor),自那以後一直是全球大規模 HIV 研究的焦點,其最終目標是(雖然至今仍未實現):阻止病毒進入細胞。

15 分鐘的榮譽

早在 90 年代初,TP53已經聲名在外。但在它爬到人類基因階梯頂端之前,有幾年大家聚焦於另一個不那麼出名的基因GRB2

當時,研究者們開始識別細胞通信所涉及的特定蛋白質間的相互作用。得益於細胞生物學家 Tony Pawson 的開拓性工作,大家認識到一些小的胞內蛋白包含有一類名為 SH2 的結構域,這類蛋白結構域能夠與細胞表面被激活的受體結合,從而將信號傳遞到細胞核內。

1992 年,來自康涅狄格州紐黑文(New Haven, Connecticut)耶魯大學醫學院(Yale University School of Medicine)生物化學專家 Joseph Schlessinger 發現,GRB2基因(growth factor receptor-bound protein 2,生長因素受體結合蛋白2)編碼的蛋白質是個信息中轉站。它包括 SH2 結構以及兩個能激活與細胞生長和存活相關的蛋白的結構域。「這是個『分子紅娘』,」 Schlessinger 認為。

其他研究者迅速填補了這一空白,開啟了細胞信號轉導的研究領域。雖然許多細胞信號通路的其他結構單元被迅速發現,最終帶來對癌症、自身免疫性疾病、糖尿病和心臟疾病的治療方案,在 90 年代末期,GRB2基因仍有過連續三年霸佔研究最前沿和最受關注基因寶座的歷史。

來自加利福尼亞州福德莫(California.Furthermore)聖地亞哥州立大學(San Diego State University)的生物化學家 Petervan der Geer 稱:「就某種程度而言,因為GRB2是第一個被發現的銜接兩條不同信號轉導通路的物理連接點,它涉及了多個方面的細胞調控過程。」

GRB2是最熱門基因隊伍中的「怪胎」。它既不是直接的致病基因,也不是藥物靶點,這也解釋了它的曇花一現。「你能發現,某些基因因為沒有臨床價值,最終在熱門排行榜上只出現了一小段時間就消失了,」在卡羅琳學院索爾納分院(KarolinskaInstitute in Stockholm)及皮埃爾和瑪麗居里大學(Pierreand Marie Curie University)工作的TP53基因資深研究專家 Thierry Soussi 答道。有著持久吸引力的基因通常表現出某些臨床治療潛力,從而吸引投資人的支持。「這就是事實,」 Soussi 稱。「基因的重要性與它的臨床價值大大相關。」

這也能與某些基因的特點聯繫起來,比如表達水平、人群個體差異和基因自身的結構特點。根據來自伊利諾伊州埃文斯頓(Evanston,Illinois)西北大學(Northwestern University)的系統生物學家 Thomas Stoeger 分析,他只用把上述因素歸類加入到演算法中,便可預測哪些基因會成為最熱門基因。他 11 月曾在德國海德堡(Heidelberg,Germany)的一場研討會上作該類報告。

Stoeger 認為上述聯繫存在的原因,很大程度上要歸結於他所稱的「可發現性」。熱門基因只是碰巧處於生物學的熱門領域,並在該時期有合適的工具進行研究。「因為研究某個基因相對容易,」 Stoeger 說道。但也帶來問題。因為存在大量未被分類或探索的基因,所以,在理解人類健康和疾病領域方面還是存在很大的空白。

Curry 也指出,由政治家、葯企和患者代言人導致的「錯綜複雜的技術、社交和經濟因素」,也會對某個基因的「熱門程度」產生影響。

天時地利

Stoeger 也在追溯熱門基因的特點是如何隨著時間改變的。他發現,在八十年代,研究者們比較看重那些有著細胞外蛋白產物的基因,很可能是因為這些蛋白質最容易被分離和研究。直到最近,研究熱點才轉向那些製造細胞內蛋白的基因。

這個轉變與人類基因組圖譜的公布同時發生,Stoeger 提到。這一進步使得一大部分新基因能夠被研究。

然而,許多已發現的基因並不符合這個趨勢,例如,TP53基因就是活躍在細胞核內的,而它早在 2000 年左右就成為被研究次數最多的基因。如同許多主導生物學研究的基因一樣,TP53起初被發現之後並未得到人們的正確認識,這也解釋了為什麼 1979 年其蛋白特性被公布後,TP53花了數十年才成為生物學文獻中的焦點。

開始的時候,TP53一度被誤認為是致癌基因:該類基因突變後會導致癌症的發生。直到 1989 年,來自貝爾特·福格爾斯泰因實驗室(Vogelstein』s lab)的研究生 Suzanne Baker 發現它事實上是腫瘤抑制基因。自此之後,TP53的功能性研究才真正開始蒸蒸日上。「你可以通過查閱文獻發現,很多人對此確實有著濃厚的興趣,」Baker稱,她現在是田納西州孟菲斯(Memphis,Tennessee)聖裘德兒童研究醫院(St.Jude Children』s Research Hospital)的一名腦部腫瘤研究員。

隨著對人類癌症研究的深入,科學家們把目光投向TNF ——熱門人類基因中TP53基因的最有力追趕者。根據 NLM 的數據,有著超過 5300 篇文章涉及TNF基因(參見下圖)。它可編碼一種蛋白質——腫瘤壞死因子( tumour necrosis factor)—— 1975 年,它因其能殺死腫瘤細胞的能力而得此名。但抗癌能力並不是TNF基因的主要功能,治療型 TNF蛋白在臨床測試中顯示出極高的毒性。

圖片來源: PeterKerpedjiev/NCBI-NLM

該基因其實是炎症的調節基因;殺死腫瘤的效用倒是次要的。1980 年代中期,這一效用一經發現,研究者便把目光迅速投向抑制 TNF 蛋白功能的抗體。如今,anti-TNF 治療是炎症性疾病——比如風濕性關節炎(rheumatoid arthritis)的首選治療方法,並開始在全球範圍內帶來數百億美元的年銷售額。

「這個例子說明對基因和基因產物的認知如何迅速改變全世界人民的健康。」在紐約曼哈塞特(Manhasset,New York)范斯坦醫學研究所(Feinstein Institute for Medical Research)工作的腦外科醫生和免疫學家 Kevin Tracey 如是說。

TP53的領先地位曾被APOE基因短暫取代過。上個世紀 70 年代中期,該基因首先被發現能編碼血液中清除膽固醇的載體蛋白,因此 APOE 蛋白被「認真考慮」作為預防心臟疾病的降脂治療方案,來自加州大學舊金山分校(University of California, San Francisco,UCSF)的 Robert Mahley 講述道,他是該研究領域的先驅人物,曾在兔子上做了相關實驗。

最終,八十年代末,他汀類藥物的出現把 APOE 類藥物掃進了歷史的垃圾桶。但隨後,神經科學家 Allen Roses 和同事們發現,APOE 蛋白與阿茲海默病人(Alzheimer』s disease)腦內的黏性斑塊的形成密切相關。1993 年,他們展示了這一基因的特殊形式——APOE4,它和阿茲海默病患病率的增加有關。

由此,科研人員產生了對APOE基因更廣泛的興趣。然而,要想成為研究最多的基因之一,仍需要時間。「這樣的反饋很好,」 Ann Saunders 回憶道,她是一位神經遺傳學家,同時還在位於北卡羅納州教堂山(ChapelHill, North Carolina)的Zinfandel製藥(Zinfandel Pharmaceuticals)擔任行政主管,並和後來成為她丈夫的 Roses 合作。澱粉樣蛋白(Amyloid)假說在當時的阿茲海默病研究者中風靡一時,他們認為,一種名為澱粉樣蛋白-β(Amyloid-β)的蛋白片段是導致該疾病的罪魁禍首,但同時很少有研究者會有興趣找出一個膽固醇轉運蛋白與阿茨海默病的關聯性。但 Mahley 稱,APOE4與阿茲海默病患病風險的聯繫是「不容置疑的」。並且在 2001 年,APOE的研究熱度短暫地超越了TP53。隨後,APOE一直在前五之列,至少對人類基因來說。

和其他熱門基因一樣,APOE基因因其與一個仍未解決的人類健康大問題密切相關而被廣泛研究。加之抗澱粉樣蛋白治療在臨床測試中大多失敗了,因此研究APOE基因變得十分重要。「我討厭這樣說,但不得不說,試驗失敗促使我進步,」 Mahley 說道。今年,他為自己的公司 E-ScapeBio 籌集了 6.3 千萬美金的資金,用以發展針對 APOE4 蛋白的靶向藥物。同時,這些失敗也推動了工業界和科學基金會重新思考阿茲海默病的治療方案。

人類之外

美國國家醫學圖書館(US National Library of Medicine,NLM)追溯了幾十個物種的基因,包括小鼠,果蠅及其它重要的模式生物,也包括病毒。在所有基因中,過去 50 年內超過 2/3 的前 100 位熱門基因是屬於人類基因組的。但非人類基因在榜單中也有著一席之地。通常來說,這些基因與人類健康有著明確的聯繫,如小鼠版本的TP53基因,或者env——一種病毒基因,其編碼的蛋白用於形成病毒包膜,從而進入細胞。

圖片來源 Peter Kerpedjiev/NCBI-NLM

其它基因對更廣泛的基因研究也有著重要意義。果蠅Drosophila melanogaster的white基因曾是約 3600 篇文章的重點研究對象,這得追溯到 1910 年的某天,生物學家 Thomas Hunt Morgan 在紐約市哥倫比亞大學(Columbia University in New York City)工作,他通過手持放大鏡觀察到一隻果蠅有著不同尋常的白色複眼。因為該基因的產物能引起果蠅身上一個容易觀察的改變,所以,white基因成為被科學家們廣泛用作記錄和編輯果蠅基因組的標記物。該基因涉及許多基本的發現,例如證明配對染色體之間的不相等交換使得大量的 DNA 可被複制。

長久以來,最火熱的非人類基因莫過於小鼠基因組,而這一物種的基因組仍缺乏研究。Rosa26來自一篇於 1991 年出版的實驗論文,在該實驗中,細胞生物學家 Philippe Soriano 和 Glenn Friedrich 利用病毒,把重組基因隨機地導入到小鼠胚胎幹細胞中。在細胞株系 ROSA26 中,重組基因有著高表達,並在近乎所有細胞種類中皆是如此。這個發現為創造轉基因小鼠工具的出現奠定了基礎。「人們開始瘋狂地應用這項技術,」在紐約市西奈山醫學院(Icahn School of Medicine at Mount Sinai)工作的 Soriano 回憶道。至今為止,被稱為Rosa 26的基因位點涉及將近 6500 項功能性研究,僅次於TP53,排在第二。

任何基因,想要比其他基因獲得更多的研究機會,都需要考慮一系列包括生物、社會壓力、商業機遇和臨床需求等因素。但是,一旦它進入最熱門前列,則會遇到『某種程度上的保守化』,來自英國利茲大學(University of Leeds)的科學史學家 Gregory Radick 稱:「某些基因作為低風險研究模式出現,這種情況會一直持續,直到條件發生改變。」

現在的問題在於情況會如何改變。什麼樣的新發現會把一個新基因送上榜單,將當今的熱門基因踢下「寶座」呢?

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科研圈 的精彩文章:

年度最酷的七大分子
2017年,你最喜歡的學術傳播文章是哪篇?
2017年度學術傳播文章、新銳網路學術工具評選同步開啟,歡迎提名!
經歷變性、面對死亡,這位斯坦福教授依然在為我們探索大腦的秘密
特別的新年禮物:鯨魚眼球

TAG:科研圈 |