當前位置:
首頁 > 科技 > 資源 | 簡單快捷的數據處理,數據科學需要注意的命令行

資源 | 簡單快捷的數據處理,數據科學需要注意的命令行


選自Medium


作者:Kade Killary

機器之心編譯


參與:

Nurhachu Null、思源





對很多數據科學家而言,他們的數據操作經常需要使用 Pandas 或者 Tidyverse。理論上,這個說法沒有任何錯誤,畢竟這就是這些工具存在的原因。然而,對於分隔符轉換這樣的簡單任務而言,這些工具往往是大材小用,我們可以直接使用命令行快速處理。




命令行應該是每個開發者都希望掌握的,尤其是數據科學家。熟悉終端的來龍去脈可以毫無疑問地可以讓我們變得更加有效率,因此命令行還是計算機技術中的一個很棒的歷史課。例如,awk 這個數據驅動的腳本語言是 1977 年在 Brina Kernighan 的幫助下首次出現的,Brina Kernighan 就是 K&R 這本書中的 K。在 50 年後的今天,每年仍然能夠出現與 awk 相關的新書。因此,我們可以相對保守地假設:一項針對命令行才能的投資在任何新近的時間內都不會貶值。






我們將會涉及以下內容






  • ICONV



  • HEAD



  • TR



  • WC



  • SPLIT



  • SORT & UNIQ



  • CUT



  • PASTE



  • JOIN



  • GREP



  • SED



  • AWK




ICONV(用來轉換文件的編碼方式)




文件編碼可能是比較棘手的。現在的多數文件都是 UTF-8 編碼,然而有時候我們拿到的文件並不是這個格式的。這可能導致交換編碼格式時的一些不靠譜的嘗試。這裡,iconv 是一個拯救者,它能以一種編碼的文本為輸入,輸出另一種編碼的文本。




# Converting -f (from) latin1 (ISO-8859-1)


# -t (to) standard UTF_8


iconv -f ISO

-8859

-1

-t UTF

-8

< input.txt > output.txt



可選參數:






  • iconv -l 列出所有已知的編碼字符集合



  • iconv -c 忽略不能轉換的非法字元,靜默地丟棄




HEAD(用於顯示文件的開頭內容)




如果你是一個頻繁使用 Pandas 的用戶,那麼你會比較熟悉 df.head()。默認情況下 head 命令顯示文件的前 10 行內容,當然我們也可以選擇不同的參數確定列印的行數或字元數。




# Prints out first 10 lines


head filename.csv

# Print first 3 lines


head -n

3

filename.csv



可選參數:






  • head -n <數字> 列印特定數目的行數



  • head -c <字元數> 列印特定數目的字元




TR(對字元進行替換、壓縮和刪除)




tr 與轉譯比較類似,它的強大能力是文件清理的主要工具。例如以下交換文件中的分隔符:




# Converting a tab delimited file into commas


cat tab_delimited.txt | tr

"\t"

","

comma_delimited.csv



tr 的另一個功能是由我們控制的內置 [:class:] 參數,這些用法包括:






  • [:alnum:] 所有的字母和數字



  • [:alpha:] 所有的字母



  • [:blank:] 所有的水平空格



  • [:cntrl:] 所有的控制字元(非列印)



  • [:digit:] 所有的數字



  • [:graph:] 所有的可列印字元,不包含空格



  • [:lower:] 所有的小寫字母



  • [:print:] 所有的可列印字元,包含空格



  • [:punct:] 所有的標點符號



  • [:space:] 所有的水平或垂直空格



  • [:upper:] 所有的大寫字母



  • [:xdigit:] 所有的十六進位字元




我們可以將它們連接在一起組成強大的程序。下面是一個基本的字數統計程序,我們可以用它來檢查 README 文檔。




cat README.md | tr

"[:punct:][:space:]"

"
"

| tr

"[:upper:]"

"[:lower:]"

| grep . | sort | uniq -c | sort -nr



使用基本正則表達式的另一個例子是:




# Converting all upper case letters to lower case


cat filename.csv | tr

"[A-Z]"

"[a-z]"




可選參數:






  • tr -d 刪除字元



  • tr -s 壓縮字元(將連續重複的字元用一個字元表示)



  •  空格



  • f 換頁符



  • v 垂直製表符



  • NNN 八進位字元 NNN




WC(用來計數的命令)




它的值主要來自於 -l flag,它會提供文檔的行數。




# Will return number of lines in CSV


wc -l gigantic_comma.csv



這個工具可以方便地確認各種命令的輸出。所以,如果我們轉換了文件中的分隔符,那麼運行 wc -l 就可以查看總行數是不是相同,不同就是出了問題。




可選參數:






  • wc -c 列印 Bytes 數目



  • wc -m 列印出字元數



  • wc -L 列印出最長行的字元數



  • wc -w 列印出單詞數目




SPLIT(把一個大文件分割成小文件的命令)




文件大小可以使用這個命令大幅度改變。根據任務的不同,分割文件可能會有所幫助,所以就有了 split 命令。split 的基本語法如下:




# We will split our CSV into new_filename every 500 lines


split -l

500

filename.csv new_filename_

# filename.csv


# ls output


# new_filename_aaa


# new_filename_aab


# new_filename_aac




兩個怪異的地方是命名約定和文件的擴展名。後綴約定可以通過-d 標誌來約定為數字。為了添加文件擴展名,您需要運行下面的 find 命令。它會改變當前路徑下的所有文件名,給每個文件後面擴展.csv,所以,謹慎使用。




find . -type f -

exec

mv

"{}"

"{}"

.csv ;

# ls output


# filename.csv.csv


# new_filename_aaa.csv


# new_filename_aab.csv


# new_filename_aac.csv




可選參數:






  • split -b 通過確定的位元組大小分割



  • split -a 生成長度為 N 的後綴



  • split -x 使用十六進位後綴分割




SORT & UNIQ(sort:文件排序;uniq:報告或忽略文件中的重複行,與 sort 結合使用)




這兩個命令提供了唯一的單詞計數,這是因為 uniq 僅僅在重複的相鄰行上運行。因此,這就是在輸出之前進行排序的原因。一個有趣的注意事項是:sort -u 會與 sort file.txt | uniq 有著相同的結果。




對於數據科學家而言,排序具是一種潛在有用的能力:即基於特定列對整個 CSV 文件進行排序的能力。




# Sorting a CSV file by the second column alphabetically


sort -t, -k2 filename.csv

# Numerically


sort -t, -k2n filename.csv

# Reverse order


sort -t, -k2nr filename.csv



這裡的-t 選項將逗號作為我們的分隔符,通常會採用空格或者製表符。此外,-k flag 用於指定關鍵詞。




可選參數:






  • sort -f 忽略大小寫



  • sort -r 以相反的順序排序



  • sort -R 亂序



  • uniq -c 統計出現的次數



  • uniq -d 僅僅列印重複行




CUT(cut 命令用來顯示行中的指定部分,刪除文件中指定欄位。)




cut 用於刪除列。舉例來說,如果我們要刪除第一列和第三列,可以使用 cut:




cut -d, -f

1

,

3

filename.csv



選擇除了第一列之外的每一列:




cut -d, -f

2

- filename.csv



與其他命令結合使用的時候,cut 作為一個過濾器:



# Print first 10 lines of column 1 and 3, where "some_string_value" is present


head filename.csv | grep

"some_string_value"

| cut -d, -f

1

,

3




找到第二列中某個特定值出現的次數:




cat filename.csv | cut -d, -f

2

| sort | uniq | wc -l

# Count occurences of unique values, limiting to first 10 results


cat filename.csv | cut -d, -f

2

| sort | uniq -c | head



PASTE(用於將多個文件按照列隊列進行合併)




paste 是一個簡潔命令,具有一個有趣的功能。如果您有兩個需要合併的文件,並且它們已經排序,paste 能夠實現這些功能。




# names.txt


adam
john
zach

# jobs.txt


lawyer
youtuber
developer

# Join the two into a CSV


paste -d

","

names.txt jobs.txt > person_data.txt

# Output


adam,lawyer
john,youtuber
zach,developer



更具 SQL 風格的變體,請參見下文。




JOIN(連接併合並文件)




join 命令是一個簡單的、擬正切的 SQL。最大的區別在於 join 將返回所有列,並且只能在一個欄位上進行匹配。默認情況下,join 將嘗試使用第一列作為匹配鍵。對於不同的結果,必須使用以下語法:




# Join the first file (-1) by the second column


# and the second file (-2) by the first


join -t,

-1

2

-2

1

first_file.txt second_file.txt



標準 join 是內部連接。但是,外部連接也可以通過- a flag 實現。另一個值得注意的現象是- e 標誌,如果找到丟失的欄位,它可以用來替換值。




# Outer join, replace blanks with NULL in columns 1 and 2


# -o which fields to substitute - 0 is key, 1.1 is first column, etc...


join -t,

-1

2

-a

1

-a2 -e

" NULL"

-o

"0,1.1,2.2"

first_file.txt second_file.txt



雖然不是最便於用戶使用的命令,但是絕望的時候自有絕望的措施。




可選參數:






  • join -a 列印不能匹配的行



  • join -e 替換丟失的輸入欄位



  • join -j 等價於 -1 FIELD -2 FIELD




GREP(這是一種強大的文本搜索工具)




全面搜索正則表達式並列印(grep),這很可能是最出名的命令。grep 有很多強大的能力,尤其是在大型代碼庫中以我們自己的方式尋找欄位。在數據科學領域,它充當著其它命令的細化機制。




# Recursively search and list all files in directory containing "word"


grep -lr

"word"

.

# List number of files containing word


grep -lr

"word"

. | wc -l



統計包含單詞/模式的總行數




grep -c

"some_value"

filename.csv

# Same thing, but in all files in current directory by file name


grep -c

"some_value"

*



使用|運運算元進行多值操作




grep

"first_value|second_value"

filename.csv



可選參數:






  • alias grep="grep --color=auto" 使 grep 色彩化



  • grep -E 使用擴展的正則表達式



  • grep -w 只匹配全字元



  • grep -l 列印出匹配的文件名



  • grep -v 反轉匹配




SED(流編輯器)




sed 是一個逐行運行的流編輯器。它擅長替換,但是也可以用於所有的重構(refactoring)。




最基本的 sed 命令包含 s/old/new/g。這指的是搜索舊值,並用新值替換。如果沒有/gour 命令,終端將在第一次出現這個值之後停止。




為了快速體驗這種能力,讓我們來舉個例子。若我們有以下文件:



balance,name
$

1

,

000

,john
$

2

,

000

,jack



我們想做的第一件事就是去掉美元符號。-i flag 指的是位置,""標誌指的是零長度的文件擴展名,然後覆蓋初始文件。理想情況下,我們可以單獨測試其中的每一個,然後輸出到新文件。




sed -i

""

"s/$//g"

data.txt

# balance,name


# 1,000,john


# 2,000,jack




接下來,我們處理 balance 中的逗號




sed -i

""

"s/([0-9]),([0-9])/12/g"

data.txt

# balance,name


# 1000,john


# 2000,jack




AWK

(不僅僅是一個命令)




awk 不僅僅是一個簡單的命令:它是一種成熟的語言。在本文所涉及的所有內容中,awk 是最酷的。如果你發現自己對 awk 印象深刻,也可以找更多的資源。




 awk 的用例包括:






  • 文本處理



  • 格式化文本報告



  • 執行數學運算



  • 執行字元串操作




最新版的 awk 可以與 grep 並行使用。




awk

"/word/"

filename.csv



或者使用一些技巧將 grep 和 cut 結合起來。這裡,對於所有我們要查找的 word 行,awk 列印第三列和第四列和分隔符。-F,僅將分隔符改為逗號。




awk -F,

"/word/ { print $3 " " $4 }"

filename.csv



awk 內置了許多優秀的變數。例如,NF -欄位數,NR -記錄數。要在文件中獲取第五十三條記錄,代碼如下:




awk -F,

"NR == 53"

filename.csv



一個額外的功能是基於一個或多個值進行過濾的能力。下面的第一個示例將列印第一列等於 string 記錄的行數和列數。




awk -F,

" $1 == "string" { print NR, $0 } "

filename.csv

# Filter based off of numerical value in second column


awk -F,

" $2 == 1000 { print NR, $0 } "

filename.csv



多數值表達式:




# Print line number and columns where column three greater


# than 2005 and column five less than one thousand


awk -F,

" $3 >= 2005 && $5 <= 1000 { print NR, $0 } "

filename.csv



對第三列求和:




awk -F,

"{ x+=$3 } END { print x }"

filename.csv



對第一列等於『something』的所有行,對它們的第三列求和。




awk -F,

"$1 == "something" { x+=$3 } END { print x }"

filename.csv



得到文件的維度:




awk -F,

"END { print NF, NR }"

filename.csv

# Prettier version


awk -F,

"BEGIN { print "COLUMNS", "ROWS" }; END { print NF, NR }"

filename.csv



列印出現兩次的行:




awk -F,

"++seen[$0] == 2"

filename.csv



刪除重複的行:



# Consecutive lines


awk

"a !~ $0; {a=$0}"

]

# Nonconsecutive lines


awk

"! a[$0]++"

filename.csv

# More efficient


awk

"!($0 in a) {a[$0];print}




使用內置函數 gsub() 替換多值:




awk

"{gsub(/scarlet|ruby|puce/, "red"); print}"




這個 awk 命令將合併多個 CSV 文件,忽略文件頭,然後將其附加到末尾。




awk

"FNR==1 && NR!=1{next;}{print}"

*.csv > final_file.csv



需要縮減大量文件?awk 可以在 sed 的幫助下處理這個問題。具體而言,這個命令可以基於行數將 一個大文件拆分為多個小文件。




sed

"1d;$d"

filename.csv | awk

"NR%NUMBER_OF_LINES==1{x="filename-"++i".csv";}{print > x}"


# Example: splitting big_data.csv into data_(n).csv every 100,000 lines


sed

"1d;$d"

big_data.csv | awk

"NR%100000==1{x="data_"++i".csv";}{print > x}"




結語




命令行擁有無窮無盡的能力。本文中介紹的命令足以讓您在短時間內從小白變成高手。除了這些內容之外,還有許多用於日常數據處理的程序需要考慮。如果你想深入了解命令行數據科學,可以多找一些詳細的資源。





原文鏈接:


https://medium.com/@kadek/command-line-tricks-for-data-scientists-c98e0abe5da






本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者/實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告&商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

業界|AI技術不是趨同,而是正在放大差距
北京大學提出新型分層式端到端模型,整合文本摘要和情感分類

TAG:機器之心 |