如何使用Hadoop捆綁的低級工具進行數據提取？

知識 10-22

在之前的幾個章節，我們已經掌握了如何將數據從其他系統導入Hadoop。一旦企業使用Hadoop執行某些關鍵功能，無論是數據挖掘還是數據聚合，下一步通常是將該數據外部化到其他系統。例如，通常依靠Hadoop對從實時系統中提取的數據執行離線聚合，然後將派生數據反饋到實時系統中。

本節將介紹一些希望從Hadoop獲取數據的常見方案，以及可幫助完成這項工作的工具。我們首先看一下現有的低級工具，其中大多數工具都內置在Hadoop中，然後繼續研究如何將數據推送到關係資料庫和HBase。

首先，我們將介紹如何使用命令行從Hadoop中複製文件。

5.3.1 Roll your own egress

本節介紹Hadoop中用於從HDFS複製數據的一些內置機制。這些技術可以手動執行，也可以使用Azkaban，Oozie甚至cron等調度系統自動執行。

實踐：使用CLI提取文件

想像一下，你在Hadoop中運行一些工作來聚合數據，現在想要把它拿出來，可以使用的一種方法是HDFS命令行界面(CLI)，用於將目錄和文件提取到本地文件系統。此技術涵蓋了一些可以幫助你的基本CLI命令。

問題

希望使用shell將文件從HDFS複製到本地文件系統。

解決方案

HDFS CLI可用於一次性移動，或者相同的命令可以合併到腳本中，以便更頻繁地使用移動。

討論

通過hadoop命令可以將文件從HDFS複製到本地磁碟：

$ hadoop fs -get hdfs-file.txt local-file.txt

Hadoop put命令的行為與Linux中的Linux cp命令不同，如果目標已存在，則被覆蓋; 在Hadoop中，副本失敗並顯示錯誤：

put: `hdfs-file.txt": File exists

必須添加-f選項以強制覆蓋文件：

$ hadoop fs -get -f hdfs-file.txt local-file.txt

與Linux cp命令相似，可以使用相同的命令複製多個文件。在這種情況下，最後一個參數必須是HDFS文件複製到本地文件系統的目錄：

$ hadoop fs -get hdfs-file1.txt hdfs-file2.txt /local/dest/

通常，一個是將大量文件從HDFS複製到本地磁碟——例如，MapReduce作業輸出目錄包含每個任務的文件。如果使用的是可以連接的文件格式，則可以使用-getmerge命令組合多個文件。默認情況下，在連接期間，在每個文件的末尾添加換行符：

$ hdfs fs -getmerge hdfs-dir/part* /local/output.txt

fs命令支持更多操作——查看完整列表，運行命令時沒有任何選項。

使用CLI的挑戰在於它非常低級，並且無法滿足自動化需求。當然，我們可以在shell腳本中使用CLI，但是一旦升級到更複雜的編程語言，為每個HDFS命令分配進程並不理想。在這種情況下，可能希望查看使用REST，Java或C HDFS API。下一個技術著眼於REST API。

實踐：使用REST提取文件

使用CLI對於快速運行命令和編寫腳本非常方便，但是會產生為每個命令分配單獨進程的開銷，這可能是希望避免的，特別是如果在編程中與HDFS連接。該技術涵蓋了使用Java以外的語言處理HDFS。

問題

如何讓沒有HDFS本機介面的編程語言與HDFS進行交互。

解決方案

使用Hadoop的WebHDFS介面，該介面為HDFS操作提供全功能的REST API。

討論