資源｜簡單快捷的數據處理，數據科學需要注意的命令行

新聞 05-27

對很多數據科學家而言，他們的數據操作經常需要使用 Pandas 或者 Tidyverse。理論上，這個說法沒有任何錯誤，畢竟這就是這些工具存在的原因。然而，對於分隔符轉換這樣的簡單任務而言，這些工具往往是大材小用，我們可以直接使用命令行快速處理。

命令行應該是每個開發者都希望掌握的，尤其是數據科學家。熟悉終端的來龍去脈可以毫無疑問地可以讓我們變得更加有效率，因此命令行還是計算機技術中的一個很棒的歷史課。例如，awk 這個數據驅動的腳本語言是 1977 年在 Brina Kernighan 的幫助下首次出現的，Brina Kernighan 就是 K&R 這本書中的 K。在 50 年後的今天，每年仍然能夠出現與 awk 相關的新書。因此，我們可以相對保守地假設：一項針對命令行才能的投資在任何新近的時間內都不會貶值。

我們將會涉及以下內容

ICONV
HEAD
TR
WC
SPLIT
SORT & UNIQ
CUT
PASTE
JOIN
GREP
SED
AWK

ICONV（用來轉換文件的編碼方式）

文件編碼可能是比較棘手的。現在的多數文件都是 UTF-8 編碼，然而有時候我們拿到的文件並不是這個格式的。這可能導致交換編碼格式時的一些不靠譜的嘗試。這裡，iconv 是一個拯救者，它能以一種編碼的文本為輸入，輸出另一種編碼的文本。

# Converting -f (from) latin1 (ISO-8859-1)
# -t (to) standard UTF_8
iconv -f ISO-8859-1 -t UTF-8 < input.txt > output.txt

可選參數：

iconv -l 列出所有已知的編碼字符集合
iconv -c 忽略不能轉換的非法字元，靜默地丟棄

HEAD（用於顯示文件的開頭內容）

如果你是一個頻繁使用 Pandas 的用戶，那麼你會比較熟悉 df.head()。默認情況下 head 命令顯示文件的前 10 行內容，當然我們也可以選擇不同的參數確定列印的行數或字元數。

# Prints out first 10 lines
head filename.csv
# Print first 3 lines
head -n 3 filename.csv

可選參數：

head -n <數字> 列印特定數目的行數
head -c <字元數> 列印特定數目的字元

TR（對字元進行替換、壓縮和刪除）

tr 與轉譯比較類似，它的強大能力是文件清理的主要工具。例如以下交換文件中的分隔符：

# Converting a tab delimited file into commas
cat tab_delimited.txt | tr "\t" "," comma_delimited.csv

tr 的另一個功能是由我們控制的內置 [:class:] 參數，這些用法包括：

[:alnum:] 所有的字母和數字
[:alpha:] 所有的字母
[:blank:] 所有的水平空格
[:cntrl:] 所有的控制字元（非列印）
[:digit:] 所有的數字
[:graph:] 所有的可列印字元，不包含空格
[:lower:] 所有的小寫字母
[:print:] 所有的可列印字元，包含空格
[:punct:] 所有的標點符號
[:space:] 所有的水平或垂直空格
[:upper:] 所有的大寫字母
[:xdigit:] 所有的十六進位字元

我們可以將它們連接在一起組成強大的程序。下面是一個基本的字數統計程序，我們可以用它來檢查 README 文檔。

使用基本正則表達式的另一個例子是：

# Converting all upper case letters to lower case
cat filename.csv | tr "[A-Z]" "[a-z]"

可選參數：

tr -d 刪除字元
tr -s 壓縮字元（將連續重複的字元用一個字元表示）
空格
f 換頁符
v 垂直製表符
NNN 八進位字元 NNN

WC（用來計數的命令）

它的值主要來自於 -l flag，它會提供文檔的行數。

# Will return number of lines in CSV
wc -l gigantic_comma.csv

這個工具可以方便地確認各種命令的輸出。所以，如果我們轉換了文件中的分隔符，那麼運行 wc -l 就可以查看總行數是不是相同，不同就是出了問題。

可選參數：

wc -c 列印 Bytes 數目
wc -m 列印出字元數
wc -L 列印出最長行的字元數
wc -w 列印出單詞數目

SPLIT（把一個大文件分割成小文件的命令）

文件大小可以使用這個命令大幅度改變。根據任務的不同，分割文件可能會有所幫助，所以就有了 split 命令。split 的基本語法如下：

# We will split our CSV into new_filename every 500 lines
split -l 500 filename.csv new_filename_
# filename.csv
# ls output
# new_filename_aaa
# new_filename_aab
# new_filename_aac

兩個怪異的地方是命名約定和文件的擴展名。後綴約定可以通過-d 標誌來約定為數字。為了添加文件擴展名，您需要運行下面的 find 命令。它會改變當前路徑下的所有文件名，給每個文件後面擴展.csv，所以，謹慎使用。

find . -type f -exec mv "{}" "{}".csv ;
# ls output
# filename.csv.csv
# new_filename_aaa.csv
# new_filename_aab.csv
# new_filename_aac.csv

可選參數：

split -b 通過確定的位元組大小分割
split -a 生成長度為 N 的後綴
split -x 使用十六進位後綴分割

SORT & UNIQ（sort：文件排序；uniq：報告或忽略文件中的重複行，與 sort 結合使用）

這兩個命令提供了唯一的單詞計數，這是因為 uniq 僅僅在重複的相鄰行上運行。因此，這就是在輸出之前進行排序的原因。一個有趣的注意事項是：sort -u 會與 sort file.txt | uniq 有著相同的結果。

對於數據科學家而言，排序具是一種潛在有用的能力：即基於特定列對整個 CSV 文件進行排序的能力。

# Sorting a CSV file by the second column alphabetically
sort -t, -k2 filename.csv
# Numerically
sort -t, -k2n filename.csv
# Reverse order
sort -t, -k2nr filename.csv

這裡的-t 選項將逗號作為我們的分隔符，通常會採用空格或者製表符。此外，-k flag 用於指定關鍵詞。

可選參數：

sort -f 忽略大小寫
sort -r 以相反的順序排序
sort -R 亂序
uniq -c 統計出現的次數
uniq -d 僅僅列印重複行

CUT（cut 命令用來顯示行中的指定部分，刪除文件中指定欄位。）

cut 用於刪除列。舉例來說，如果我們要刪除第一列和第三列，可以使用 cut：

cut -d, -f 1,3 filename.csv

選擇除了第一列之外的每一列：

cut -d, -f 2- filename.csv

與其他命令結合使用的時候，cut 作為一個過濾器：

# Print first 10 lines of column 1 and 3, where "some_string_value" is present
head filename.csv | grep "some_string_value" | cut -d, -f 1,3

找到第二列中某個特定值出現的次數：

PASTE（用於將多個文件按照列隊列進行合併）

paste 是一個簡潔命令，具有一個有趣的功能。如果您有兩個需要合併的文件，並且它們已經排序，paste 能夠實現這些功能。

# names.txt
adam
john
zach
# jobs.txt
lawyer
youtuber
developer
# Join the two into a CSV
paste -d "," names.txt jobs.txt > person_data.txt
# Output
adam,lawyer
john,youtuber
zach,developer

更具 SQL 風格的變體，請參見下文。

JOIN（連接併合並文件）

join 命令是一個簡單的、擬正切的 SQL。最大的區別在於 join 將返回所有列，並且只能在一個欄位上進行匹配。默認情況下，join 將嘗試使用第一列作為匹配鍵。對於不同的結果，必須使用以下語法:

# Join the first file (-1) by the second column
# and the second file (-2) by the first
join -t, -1 2 -2 1 first_file.txt second_file.txt

標準 join 是內部連接。但是，外部連接也可以通過- a flag 實現。另一個值得注意的現象是- e 標誌，如果找到丟失的欄位，它可以用來替換值。

# Outer join, replace blanks with NULL in columns 1 and 2
# -o which fields to substitute - 0 is key, 1.1 is first column, etc...
join -t, -1 2 -a 1 -a2 -e " NULL" -o "0,1.1,2.2" first_file.txt second_file.txt

雖然不是最便於用戶使用的命令，但是絕望的時候自有絕望的措施。

可選參數：

join -a 列印不能匹配的行
join -e 替換丟失的輸入欄位
join -j 等價於 -1 FIELD -2 FIELD

GREP（這是一種強大的文本搜索工具）

全面搜索正則表達式並列印（grep），這很可能是最出名的命令。grep 有很多強大的能力，尤其是在大型代碼庫中以我們自己的方式尋找欄位。在數據科學領域，它充當著其它命令的細化機制。

# Recursively search and list all files in directory containing "word"
grep -lr "word" .
# List number of files containing word
grep -lr "word" . | wc -l

統計包含單詞/模式的總行數

grep -c "some_value" filename.csv
# Same thing, but in all files in current directory by file name
grep -c "some_value" *

使用|運運算元進行多值操作

grep "first_value|second_value" filename.csv

可選參數：

alias grep="grep --color=auto" 使 grep 色彩化
grep -E 使用擴展的正則表達式
grep -w 只匹配全字元
grep -l 列印出匹配的文件名
grep -v 反轉匹配

SED（流編輯器）

sed 是一個逐行運行的流編輯器。它擅長替換，但是也可以用於所有的重構（refactoring）。

最基本的 sed 命令包含 s/old/new/g。這指的是搜索舊值，並用新值替換。如果沒有/gour 命令，終端將在第一次出現這個值之後停止。

為了快速體驗這種能力，讓我們來舉個例子。若我們有以下文件:

balance,name
$1,000,john
$2,000,jack

我們想做的第一件事就是去掉美元符號。-i flag 指的是位置，""標誌指的是零長度的文件擴展名，然後覆蓋初始文件。理想情況下，我們可以單獨測試其中的每一個，然後輸出到新文件。

sed -i "" "s/$//g" data.txt
# balance,name
# 1,000,john
# 2,000,jack

接下來，我們處理 balance 中的逗號

sed -i "" "s/([0-9]),([0-9])/12/g" data.txt
# balance,name
# 1000,john
# 2000,jack

AWK（不僅僅是一個命令）

awk 不僅僅是一個簡單的命令：它是一種成熟的語言。在本文所涉及的所有內容中，awk 是最酷的。如果你發現自己對 awk 印象深刻，也可以找更多的資源。

awk 的用例包括：

文本處理
格式化文本報告
執行數學運算
執行字元串操作

最新版的 awk 可以與 grep 並行使用。

awk "/word/" filename.csv

或者使用一些技巧將 grep 和 cut 結合起來。這裡，對於所有我們要查找的 word 行，awk 列印第三列和第四列和分隔符。-F，僅將分隔符改為逗號。

awk -F, "/word/ { print $3 " " $4 }" filename.csv

awk 內置了許多優秀的變數。例如，NF -欄位數，NR -記錄數。要在文件中獲取第五十三條記錄，代碼如下:

awk -F, "NR == 53" filename.csv

一個額外的功能是基於一個或多個值進行過濾的能力。下面的第一個示例將列印第一列等於 string 記錄的行數和列數。

awk -F, " $1 == "string" { print NR, $0 } " filename.csv
# Filter based off of numerical value in second column
awk -F, " $2 == 1000 { print NR, $0 } " filename.csv

多數值表達式：

# Print line number and columns where column three greater
# than 2005 and column five less than one thousand
awk -F, " $3 >= 2005 && $5 <= 1000 { print NR, $0 } " filename.csv

對第三列求和：

awk -F, "{ x+=$3 } END { print x }" filename.csv

對第一列等於『something』的所有行，對它們的第三列求和。

awk -F, "$1 == "something" { x+=$3 } END { print x }" filename.csv

得到文件的維度：

awk -F, "END { print NF, NR }" filename.csv
# Prettier version
awk -F, "BEGIN { print "COLUMNS", "ROWS" }; END { print NF, NR }" filename.csv

列印出現兩次的行：

awk -F, "++seen[$0] == 2" filename.csv

刪除重複的行：

# Consecutive lines
awk "a !~ $0; {a=$0}"]
# Nonconsecutive lines
awk "! a[$0]++" filename.csv
# More efficient
awk "!($0 in a) {a[$0];print}

使用內置函數 gsub() 替換多值：

awk "{gsub(/scarlet|ruby|puce/, "red"); print}"

這個 awk 命令將合併多個 CSV 文件，忽略文件頭，然後將其附加到末尾。

awk "FNR==1 && NR!=1{next;}{print}" *.csv > final_file.csv

需要縮減大量文件？awk 可以在 sed 的幫助下處理這個問題。具體而言，這個命令可以基於行數將一個大文件拆分為多個小文件。

sed "1d;$d" filename.csv | awk "NR%NUMBER_OF_LINES==1{x="filename-"++i".csv";}{print > x}"
# Example: splitting big_data.csv into data_(n).csv every 100,000 lines
sed "1d;$d" big_data.csv | awk "NR%100000==1{x="data_"++i".csv";}{print > x}"

結語

命令行擁有無窮無盡的能力。本文中介紹的命令足以讓您在短時間內從小白變成高手。除了這些內容之外，還有許多用於日常數據處理的程序需要考慮。如果你想深入了解命令行數據科學，可以多找一些詳細的資源。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※CVPR 2018 | 商湯科技提出GeoNet：用無監督學習感知3D場景幾何
※重磅 | 阿里宣布收購中天微，晶元戰略布局初成規模

TAG:機器之心 |