手把手教你學習R語言
作者:NSS
翻譯:楊金鴻
術語校對:韓海疇
全文校對:林亦霖
本文約3000字,建議閱讀7分鐘。
本文為帶大家了解R語言以及分段式的步驟教程!
人們學習R語言時普遍存在缺乏系統學習方法的問題。學習者不知道從哪開始,如何進行,選擇什麼學習資源。雖然網路上有許多不錯的免費學習資源,然而它們多過了頭,反而會讓人挑花了眼。
為了構建R語言學習方法,我們在Vidhya和DataCamp中選一組綜合資源,幫您從頭學習R語言。這套學習方法對於數據科學或R語言的初學者會很有用;如果讀者是R語言的老用戶,則會由本文了解這門語言的部分最新成果。
R語言學習方法會幫助您快速、高效學習R語言。
前言
在開始學習之前,第一個要回答的問題是:為什麼要用R語言?或者R語言為何如此有用?
R語言是一門快速發展的開源軟體,是SAS、STATA和SPSS這類商業軟體的競爭對手。就業市場對R語言的需求正在迅速上升,微軟等公司也同時承諾將致力讓R語言成為數據科學通用語言。
看看由Revolution Analytics製作的90秒視頻(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R語言的用處。順便說下,微軟剛剛收購了Revolution Analytics。
步驟一:配置計算機環境
建立R語言學習環境最簡單方法是通過綜合R語言歸檔網路(CRAN)下載(https://cran.r-project.org/)到您的本地計算機上。可以選擇Linux、Mac和Windows對應二進位文件下載。
您可能會考慮使用R語言自帶的控制台,但我們建議您安裝R語言集成開發環境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能讓R語言編碼更容易、更快,還能讓您輸入多行代碼、處理圖形、安裝和維護程序,有效引導您的編程環境。RStudio此外可以選用基於eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安裝圖形用戶界面(GUI),請選擇R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)。
課後作業
安裝R和RStudio。
安裝Rcmdr、rattle和Deducer程序包。以及推薦或依賴的程序包,包括GUI。
使用庫命令載入安裝程序,並打開GUI。
步驟二:R語言基礎學習
您應該首先了解語言、庫和數據結構基礎知識。
如果您更傾向於在線交流方式學習R語法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免費在線R教程是很好的資源。還可以選擇後續課程:中級R編程(https://www.datacamp.com/courses/intermediate-r)。另一種學習方法是在線版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能讓您在類似RStudio環境中學習R語言。
在互動學習環境中,您可以選擇參加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc課程。
除了上述在線資源,您還可以考慮以下優秀資源:
CRAN免費教學R語言(https://cran.r-project.org/doc/manuals/R-intro.pdf)。
Jared Lander』s R for Everyone(http://www.jaredlander.com/r-for-everyone/)
Quick-R(http://statmethods.net/)
專門學習:閱讀、數據幀、表、概述、描述、載入和安裝包、使用繪圖命令可視化數據。
課後作業
使用DataCamp免費在線R教程,熟悉基本的R語法。
創建Github(http://github.com/)賬號。
通過google幫助,解決安裝過程中出現的問題。
安裝swirl包並學習R編程(見上文)。
步驟三:了解R社
強大社區的存在是R語言發展迅速、大獲成功的主要原因。社區中核心的是R語言的「包」生態系統。R語言程序包可以在CRAN、bioconductor、github和bitbucket中下載。在Rdocumentation(http://www.rdocumentation.org/)中,您可以輕鬆搜索來自CRAN、github和bioconductor中能滿足您當前工作需要的程序包。與在R語言程序包生態系統同樣重要的是,您可以在R endeavours上輕鬆獲得幫助與反饋。首先,R內置幫助系統,您可以通過命令來訪問。同時,在Analytics Vidhya Discussions,Stack OverflowR語言是增長最快語言。R-bloggers(http://www.r-bloggers.com/)彙集許多R語言愛好者寫的博文。
課後作業:
訪問CranTask Views了解R語言生態系統。
在http://r-bloggers.com上註冊並訂閱每日新聞。
步驟四:數據導入和操作
導入和操作數據是數據科學工作流程中重要步驟。R語言允許使用特定包導入不同數據格式,從而使您工作更輕鬆,如下:
readr:導入平面文件。
Readxl package:將excel文件轉化為R語言。
haven package包:讓您將SAS、STATA和SPSS數據文件導入R語言。
Databases:連接通過像RMySQL和RpostgreSQL包,使用DBI訪問和操作。
rvest: 網頁數據抓取。
一旦數據在工作環境中可用,您就可以使用下面程序包操作:
整理數據的tidyr程序包。
stringr包處理字元串操作。
對象數據幀,可以學習dplyr包輸入和輸出(https://www.datacamp.com/courses/dplyr-data-manipulation)。
需要執行繁重數據爭用任務?試試data.table程序包。
執行時間序列分析?嘗試一下像zoo,xts和quantmod程序包。
課後作業
通過「導入數據進入R語言」課程,或閱讀文章1、2、3、4。掌握導入數據軟體包。
通過RStudio觀看Data Wrangling with R 。(https://www.rstudio.com/resources/webinars/data-wrangling-with-r-and-rstudio/)
閱讀並練習如何使用dplyr、tidyr和data.table程序包。
步驟五:有效數據可視化
自己創建數據可視化作品是一件很自豪的事情。然而,數據可視化既是一項技能,也是一門藝術。許多學者閱讀Edward Tufte 的「可視化定量數據」原理,或者StephenFew的 「pitfalls on dashboard design」。也可以閱讀NathanYau在FlowingData 寫的博文,來獲得創建R語言可視化靈感。
1.平面圖無處不在
R語言提供了多種創建圖形方法,使用原理圖創建圖形是標準的方法。然而,有一些好的工具(或包)使用更簡單的方式來創建,查看圖形。
在R語言中學習基本圖形語法是數據可視化中一種實用方法。
在R語言中ggplot是數據可視化中最重要的包,並且很受歡迎,網上有很多它的學習資源,比如在線ggplot2教程,cheatsheet ,和以及一本由哈德利韋翰編寫的教學書。
ggvis程序包允許您使用基本圖形語法創建互動式web圖形(參見教程)。
您知道Hans Rosling ted課程嗎?教您如何的用googleVis(一個帶有谷歌圖表介面)來重建圖表。
如果您遇到了繪製數據的問題,這篇文章會對您有所幫助。在這個CRAN任務視圖中可以查看到更多的可視化資源。或者查看R語言數據可視化指南。
2. 地圖無處不在
您對分析空間可視化數據感興趣嗎?學習本教程:介紹R語言空間數據,您會輕鬆地使用這些包。
源自Google maps和ggmap開放街道的靜態圖片,可用來創建可視化空間數據和模型。
Ari Lamstein』s中的choroplethr程序包。
tmap 程序包
3. HTML插件
HTML插件是R語言可視化產品中非常有前景的插件,您可以用簡單的方式創建互動式web可視化(參見RStudio教程),掌握這種可視化方法將會成為R語言學習中必備技能。其帶來的視覺效果會給您朋友和同事留下深刻印象。
leaflet創建動態圖片。
使用dygraphs生成時間序列數據圖表。
互動表(datatable)。
DiagrammeR創建圖和流程圖。
MetricsGraphics創建散點圖、線圖和直方圖。
課後作業
理解基本圖形語法原理。
學習ggplot2教程。
使用RStudio環境學習html插件。
步驟六:數據挖掘、機器學習
對於新的統計數據學習方法,我們推薦下列資源:
Andrew Conway』s課程:R語言統計數據簡介。
杜克大學數據分析和統計推斷。
R語言實用數據科學。
約翰霍普金斯大學數據科學專業課程。
R語言數據科學使用指南。
如果您想提高機器學習能力,可以考慮從以下教程開始學習:
機器學習演算法要點。
自行車共享大賽--一套R語言完整解決方案。
Kaggle上的機器學習課程。
掌握機器學習。
介紹機器學習。
確保在相關的CRAN任務視圖中查看到R語言可用的機器學習資源。
課後作業
從統計學課程開始入門。
學習Kaggle上免費機器學習課程。
看Rattle中的一些R語言數據挖掘書。
可以從這本小冊子上學習時間序列——A Little Book for Time Series in R .
步驟七:報告結果
與數據科學愛好者交流成果,分享見解是一件很重要的事情。幸運的是,R語言針對這個問題有一些非常實用工具。
第一個工具是R Markdown,採用knitr和pandoc複製方式生成您的數據分析結果報告。使用R markdown工具,R語言最終生成文檔,替換R語言代碼。文檔可以是html、word、pfd、ioslides等格式。您可以通過本教程學到更多知識並使用cheatsheet作為參考資料。
第二個工具是ReporteRs,它是個創建Microsoft(Worddocx和Powerpoint pptx)和html R語言文檔程序包,並可以在Windows、Linux、Unix和Mac OS系統上運行。像R Markdown工具一樣自動生成R語言報告,點擊這裡我們來看看如何操作。
第三個是Shiny,目前R語言中最令人興奮的工具。使R語言構建互動式web應用程序變得非常容易。您可以把分析報告轉換為互動式web應用程序,您不需要了解HTML、CSS或Javascript相關知識。如果您想要學習Shiny ,請點擊RStudio learning portal。
課後作業
使用RMarkdown或ReporteRs創建第一個互動式報告。
嘗試構建一個Shiny應用。
練習
只有通過大量練習才能成為優秀R語言程序員。因此,要定期解決數據科學中的問題。我們的建議是趕緊開始與Kaggle上的數據科學家交流。
在解決問題中測試自己的R語言水平--練習中的問題。
步驟八:時間序列分析
R語言有一個用於專屬任務視圖時間序列。如果你想在R語言中做一些時間序列分析,這將是您開始的地方。您很快會發現工具的強大。
想要從在線資源中掌握時間序列分析是件不容易的事情。好的切入點是一本關於時間序列的書或者選擇《原理與實踐》這本書。在程序包方面,您需要熟悉Zoo與xts程序包。Zoo為您提供了常用的保存時間序列對象格式,而xts供了操作時間序列的數據集工具。
輔助資源:時間序列綜合教程。
課後作業
選擇上述列出的時間系列教程,開始您的分析。
使用quantmod或quandl程序軟體包下載財務數據,開始您的時間序列分析。
使用諸如dygraphs的程序包創建您的可視化時間序列數據和分析。
文本挖掘一個重要工具
學習文本挖掘,您可以從edge課程中學習。雖然課程已經結束,但是您仍然可以訪問這些課程。
練習
文本挖掘競賽--一套R語言的完整解決方案。
步驟九:成為R語言大師
現在您已經掌握了大部分R語言數據分析,是時候給出一些高級課程資源了。您很可能已經知道其中的一些內容,但不妨看看這些教程。
Hadley Wickham的高級R語言教程。
在Hadoop、MongoDB或NoSQL中使用R語言。
微軟的RevoScaleR 程序包
https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/
楊金鴻,北京護航科技有限公司員工,在業餘時間喜歡翻譯一些技術文檔。喜歡閱讀有關數據挖掘、資料庫之類的書,學習java語言編程等,希望能在數據派平台上熟識更多愛好相同的夥伴,今後能在數據科學的道路上走的更遠,飛的更遠。
轉載須知
如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派ID:datapi),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。
發布後請將鏈接反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。
為保證發文質量、樹立口碑,數據派現設立「錯別字基金」,鼓勵讀者積極糾錯。
若您在閱讀文章過程中發現任何錯誤,請在文末留言,或到後台反饋,經小編確認後,數據派將向檢舉讀者發8.8元紅包。
同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。
感謝一直以來您的關注和支持,希望您能夠監督數據派產出更加高質的內容。
TAG:數據派THU |