當前位置:
首頁 > 最新 > 1-Hadoop搭建單個節點

1-Hadoop搭建單個節點

目的

這個文檔描述了如何搭建和配置安裝Hadoop,讓你可以快速執行一些簡單的操作來使用Hadoop MapReduce 和Hadoop的分散式文件系統。


預備知識

支持的平台

作為開發和生產平台的GNU/Linux是完全被支持的,Hadoop曾經用2000個節 點來搭建過集群。

Windows 也是被支持的平台,但是下面的步驟僅適用於Linux。為了能夠在Windows搭建Hadoop,請參看wiki page


對於Linux的平台需要的軟體包括如下:

必須安裝Java,推薦的Java版本已經在HadoopJavaVersion中進行描述了。

ssh 必須被安裝和..此處未翻譯..,此外,它也推薦pdsh最好被安裝到ssh資源管理中去。


如果你的集群當中沒有所需的軟體,你需要去安裝它。

在Ubuntu Linux 執行如下命令:

$ sudo apt-get install ssh

$ sudo apt-get install pdsh


下載

為了獲得Hadoop distribution,從Apache Download Mirrors中下載一個最穩定的版本。


準備開始安裝Hadoop集群

解壓已下載的Hadoop distribution,在這個目錄中,編輯文件etc/hadoop/hadoop-env.sh中的內容,定義如下一些參數:

//set to the root of your Java installation

export JAVA_HOME=/usr/java/latest

嘗試執行如下命令:

$bin/hadoop

這個將會顯示Hadoop Script 的用例文檔。

現在你可以使用以下三種模式當中的一個啟動Hadoop。

本地(單節點)模式

偽分散式模式

完全分散式模式


單節點模式的操作

默認情況下,Hadoop是以沒有分散式的模式運行的,就像是一個單進程java程序,進行debug調試是很有幫助的。

按照下面的案例,複製解壓的conf目錄中的文件到input目錄 然後 篩選匹配出給定的正則表達式內容並輸出到指定目錄。


偽分散式模式的操作

Hadoop 也可以用單節點來實現偽分散式模式,即每個Hadoop進程在分離的java進程中運行。

使用如下 etc/hadoop/core-site.xml:

etc/hadoop/hdfs-site.xml:


使用 ssh localhost,檢查是否可以使用免密。

如果你不能使用免密登錄,執行如下命令:


以下的操作是運行一個本地的MapReduce job,如果你想要在YARN上執行job,請參看YARN on SIngle Node.

格式化文件系統:

啟動名稱節點和數據節點進程

Hadoop 進程日誌的輸出會寫到$HADOOP_LOG_DIR目錄中(默認是$HADOOP_HOME/logs)

瀏覽數據節點網頁版的入口,默認這個地址是可用的: http://localhost:9870/

創建HDFS目錄,需要執行MapReduce jobs:

複製輸入的文件到分散式文件系統

運行如下提供的一些例子:

查看輸出文件:從分散式文件系統中複製輸出文件到本地的文件系統中並查看它們:

或者在分散式文件系統中直接查閱它們:

當你所有都做完了,你可以使用如下命令來結束進程:


你可以設置一些參數以使用偽分散式模式在YARN之上運行MapReduce job ,此外也可以運行資源管理器和節點管理器。

跟隨下面的步驟並確認上述1~4的步驟已經操作並執行通過:

按如下進行參數配置:

etc/hadoop/mapred-site.xml:

etc/hadoop/yarn-site.xml:

啟動資源管理器進程和節點管理器進程

3.瀏覽資源管理器WEB UI,默認如下地址是可用的: http://localhost:8088/

運行一個MapReduce Job

當你完成以上所有步驟,可以運行如下命令來停止進程。


完全分散式模式

關於搭建完全分散式模式集群的更多信息,請參看Cluster Setup


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據猿群 的精彩文章:

TAG:大數據猿群 |