從零開始學轉錄組:軟體安裝
生信技能樹的轉錄組學習開班了, 第一個任務是安裝軟體, 於是我花了一個下午時間和Linux鬥智斗勇。
系統準備
windows10: Unbuntu on windows10. 至於如何win10上開啟Linux子系統,百度會有無數教程的。
建議搭配cmder,界面更好看,用的更開心。
但是直接在cmder里啟動ubuntu不能使用方向鍵,需要做一些修改,即在cmder的setting的startup的command line添加
軟體準備(conda)
1.下載miniconda https://conda.io/miniconda.html Linux Python2.7
根據提示,最後會安裝到下。
2.添加bioconda channel, 目前還沒有國內源
3.用conda安裝軟體sratoolkit,fastqc,hisat2,samtools,htseq-count, 與網路有著密切的關係
查詢可供安裝的軟體, https://bioconda.github.io/recipes.html#recipes
拓展: 了解conda的命令
註:conda只有一個問題,就是看網路條件,國內源似乎還在製作中。
R語言和Rstudio就看下面的講解。
軟體準備(麻煩的編譯篇)
我的習慣:
家目錄下創建src文件夾,用於存放軟體包
家目錄下創建biosoft文件夾,用於安裝軟體
為了提高下載速度,我們需要替換中默認鏡像源。方法參考自中國科學技術大學開源鏡像站
選擇合適的鏡像站,讓你的速度飛起來
sratookit
功能: 下載,操作,驗證NCBI SRA中二代測序數據
網址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
步驟:
閱讀官方文章進一步了解:
如何開啟ascp加速下載
vdb-config更改基本設置
fastqc
功能: 可視化展示二代測序數據質量
網站:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
步驟:
拓展:
了解fastqc結果中各個圖的含義
掌握如何從fastqc的結果中提取數據
學習sed的用法,http://dongweiming.github.io/sed_and_awk/
samtools
SAM: 存放高通量測序比對結果的標準格式
功能: Reading/writing/editing/indexing/viewing SAM/BAM/CRAM format
網站: http://samtools.sourceforge.net/
安裝:
順便安裝bcftools
因為用的是github,所以以後更新就用下面命令
吐槽: 編譯的時候需要安裝好多前置包,真麻煩!
HISAT2
功能: 將測序結果比對到參考基因組上
網站: http://ccb.jhu.edu/software/hisat2/index.shtml
安裝:
吐槽: 居然沒有make install !!!
拓展:
HISAT2支持,也就是可以集成SRATOOLS的,但是需要安裝額外包,可以看文章自己折騰。
HTSeq
功能: 根據比對結果統計基因count
教程:
http://www-huber.embl.de/users/anders/HTSeq/doc/tour.html#tour
推薦:
推薦安裝一個ipython,學習ipython如何使用
將軟體包安裝到當前用戶目錄下
R
Ubuntu 14.04的自帶R版本跟不上時代的變化,然後自己編譯的坑有太多,所以先用Linux處理數據,然後在Windows下分析數據。這樣就很輕鬆了。一些需要編譯的軟體包,還可以用RTools。
R:https://cran.r-project.org/
Rstudio: https://www.rstudio.com/
二進位版本: R官方提供了Ubuntu最新版本更新方法,如下
安裝之後建議修改一下R包鏡像源,提高下載速度。
編譯部分:新手階段不要輕易嘗試,如果你能順利搞定,你的Linux能力已經過關了
如何處理中出現的問題:
configure: error: No F77 compiler found
configure: error: —with-readline=yes (default) and headers/libs are not available
configure: error: —with-x=yes (default) and X11 headers/libs are not available
configure: error: pcre >= 8.20 library and headers are required
注: 上面安裝其他軟體時用到的包,其實也有一部分是R所需要的,如果出錯的話,也是谷歌+必應+百度一個一個解決。
最後配置成功後會出現如下結果:
這些警告無傷大雅,畢竟CLI看不了PDF。
然後我發現一個錯誤
原因是之前的無頭, 不完整,所以需要重新安裝一個完整的
然後重新
我以為自己不會遇到問題了,結果
MDZZ!本來就沒有考慮到x11模塊,不能搞pdf,你和我說報錯!於是我默默去百度一下,給出的方法是忽略錯誤
謝天謝地,終於通過了!!!添加環境變數測試一下吧
真麻煩!我要去Y叔的小密圈問下,看看他有沒有其他更好的方法
一點經驗
以後在Ubuntu安裝軟體之前,先保證如下被安裝了。
R編譯需要的Java必須是完全體,所以必須是 openjdk-9-jdk,不然無限報錯
可以忽略系統報錯,繼續走下去,很多時候一點小錯是沒有關係的
如果寫錯了,然後最後安裝的地方錯了, 不能簡單的把軟體包挪個位置就行了,至少要把目錄內的和的路徑進行修改。
make得要好好學習,有些時候不能一套走下來,有點作者可能沒有定義install
我們遇到的問題基本上無數前人已經填坑了,所以谷歌百度必應總能找到, 如果你想偷懶,那你可以加入我的小密圈,向我提問。


TAG:生信媛 |
※轉錄組項目文章四連發
※「零基礎」學習單細胞轉錄組測序
※PNAS:鐘上威、鄧興旺研究組合作揭示出土幼苗形態建成的轉錄調控網路
※科學家解析結核桿菌轉錄起始複合物的晶體結構
※科學家繪製造血幹細胞擴增組織的3D轉錄組圖譜
※星油藤的主要組織器官轉錄組研究取得進展
※蛋白組+轉錄組:揭示乳腺癌藥物治療靶點
※北林分子育種團隊在新型非編碼RNA轉錄調控機制方面取得新進展
※轉錄組分析工具最優組合
※布尼亞病毒RNP:病毒轉錄和翻譯的機械
※PLOS ONE:西方飲食誘導的非酒精性脂肪性肝炎的脂質組學和轉錄組學分析
※研究揭示噬菌體蛋白調控宿主轉錄的分子機制
※明星產品系列——轉錄組
※單細胞轉錄組分析揭示原發複發頭頸癌生態系統
※植物所等揭示葉綠體基因轉錄調控的新機制
※利用單細胞轉錄組學揭示成神經管細胞瘤不同亞型細胞組成
※單細胞轉錄組測序在眼科研究領域中的應用
※表觀轉錄組:新興領域的機會和挑戰
※廈大/UCB周強組揭示相分離對基因轉錄調控的分子機制——剛柔並濟的分子調節及藥物開發新理論
※童明漢/湯富酬/李勁松合作組完成小鼠精子發生過程轉錄組動態變化圖譜