引 言
自本人的Spark+R編程系列教程發布以來,很多讀者來信詢問Spark+Python開發環境的搭建方法,並希望由我一篇如何在個人PC和Windows上搭建Spark+Python開發環境的指導書。為此,我們撰寫了本文.....
準備工作
查看操作系統的版本信息:計算機>>右鍵「屬性」>>查看版本信息,如Windows10專業版64位。
1
安裝Anaconda
1.1 下載
注意選擇與操作系統匹配的版本,截止寫本教程時,官方版本為Anaconda5.0.1,內部封裝的為Python3.6,也可根據需要下載封裝其他版本Python的Anaconda3
下載地址為:https://www.anaconda.com/download/
1.2 安裝
根據安裝嚮導逐步進行,注意安裝路徑中的文件夾名稱不要存在空格
1.3 配置環境變數
配置系統變數PATH,添加…Anaconda3Scripts及…Anaconda3(根據安裝路徑確定)
【注意】此圖PATH變數中也顯示了後續安裝過程中添加的信息
1.4 測試
測試Python:在cmd中輸入Python命令,查看Python版本信息
測試Conda:在cmd中輸入conda或pip命令,查看具體信息
2
安裝Java
2.1 下載
下載JDK8,選擇與操作系統匹配的版本,注意勾選同意其使用協議後下載
下載地址為:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
2.2 配置環境變數
新建系統變數JAVA_HOME,值為Java安裝路徑
新建系統變數CLASSPATH,值為「.%JAVA_HOME%lib;%JAVA_HOME%lib ools.jar」(注意最前面的圓點)
配置系統變數PATH,添加%JAVA_HOME%in及%JAVA_HOME%jrein
2.3 測試
在cmd中輸入java –version命令,查看Java版本信息
3
安裝Spark
3.1 下載
3.2 安裝
只需解壓程序包,並拷貝至存放路徑,注意安裝路徑中的文件夾名稱不要存在空格
3.3 配置環境變數
新建系統變數SPARK_HOME,值為Spark安裝路徑
配置系統變數PATH,添加%SPARK_HOME%in及%SPARK_HOME%sbin
3.4 配置日誌顯示級別
選擇…sparkconf目錄下log4j.properties.template,複製為log4j.properties
將log4j.properties中,"INFO, console"改為"WARN, console"
4
配置Hadoop支持模塊
4.1 下載
下載Hadoop支持模塊
下載地址為:https://github.com/LemenChao/Introduction-to-Data-Science/blob/master/Hadoop/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64-master.zip
4.2 安裝
只需解壓程序包,並拷貝至存放路徑,注意安裝路徑中的文件夾名稱不要存在空格
4.3 配置環境變數
新建系統變數HADOOP_HOME,值為Hadoop安裝路徑
配置系統變數PATH,添加%HADOOP_HOME%in
5
測試Spark
5.1 測試spark
在cmd中輸入spark-shell,查看Spark版本信息
5.2 測試pyspark
在cmd中輸入pyspark,查看Pyspark版本信息
6
運行示例代碼
6.1 將...sparkpythonpyspark文件夾拷貝至...Anaconda3Libsite-packages文件夾下(注意安裝路徑)
6.2 安裝python的py4j庫,Py4j可以使運行於python解釋器的python程序動態的訪問java虛擬機中的java對象。
6.3 運行示例代碼
END
喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!
本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧! 請您繼續閱讀更多來自 Python 的精彩文章:
※十年開發Python老程序員教你學習Python的幾大秘訣
TAG:Python |