No.71 單詞出現行計數
GIF
轉載聲明
本文為燈塔大數據原創內容,歡迎個人轉載至朋友圈,其他機構轉載請在文章開頭標註:轉自:燈塔大數據;微信:DTbigdata
編者按:燈塔大數據將每周持續推出《從零開始學大數據演算法》的連載,本書為哈爾濱工業大學著名教授王宏志老師的扛鼎力作,以對話的形式深入淺出的從何為大數據說到大數據演算法再到大數據技術的應用,帶我們在大數據技術的海洋里徜徉~每周五定期更新
上期回顧&查看方式
在上一期,我們學習了適於迭代並行計算的平台——Spark初探的相關內容。PS:了解了上期詳細內容,請在自定義菜單欄中點擊「燈塔數據」—「技術連載」進行查看;或者滑到文末【往期推薦】查看
No.71
單詞出現行計數
Mr. 王 :我們可以試試用 Python 終端來實現一個最簡單的功能——單詞出現行計數。
首先創建一個文件,在裡面寫一段話。
小可 :我就在 Spark 文件夾里寫一個名為 HelloWorld 的文件吧!
Mr. 王 :好,我們現在就讓 Spark 來執行一個在文本處理中非常簡單卻非常常用的功能。
首先求出整個文本文件有多少行,然後求出有某個關鍵詞出現的行數,為進行其他處理打下基礎。
首先載入 HelloWorld 文件,使用命令 :
程序會有一些輸出,顯示程序的運行情況。
然後通過查看文件的第一行,看看是不是正確地載入了這個文件。輸入下面的命令 :
小可 :嗯,程序輸出結果的最後一行顯示了 Hello World !。對照我之前輸入的文件來看,這的確是文件的第一行。
Mr. 王 :現在可以嘗試用它來統計行數了。
小可 :最後顯示出了正確的結果!在一些運行情況信息後面,顯示了一個 4,這個 4 就是行數的統計結果吧?也就是說,HelloWorld 文件有 4 行,這和我之前輸入的文件是相符的。
Mr. 王:下面可以執行最後一步了,使用 filter 和 count 函數來實現最後的功能。使用命令:
程序的執行結果如下 :
小可 :最後這個 2 表示的就是出現過 Spark 的行數有兩行吧?
小可對照了一下前面寫過的 HelloWorld 文件。
小可 :沒錯,結果是對的!的確有兩行出現過 Spark 這個詞!
Mr. 王 :好了,我們想要實現的一個簡單功能完成了。執行到這裡,可以在單機上運行的Spark 平台就已經搭建好了。不難比較出,我們使用 Spark 的單機模式基本上沒有進行過配置,而且實現一些基本的文本處理功能是幾乎不需要任何程序設計的,只要簡單地使用一些命令或者只有一行的程序,就可以完成我們在 Hadoop 中需要幾十行代碼才能實現的功能,體現了它的使用是非常的簡便容易的。
小可 :是啊,實現這個功能只用了 3 ~ 5 行代碼,的確非常的方便啊。
Mr. 王 :我們休息一下,退出 Spark-Shell。
小可疑惑不解地說 :咦?「Ctrl+C」快捷鍵為什麼不好使了?
Mr. 王 :哦,Python 的 PySparkShell 的快捷鍵不太一樣,要使用「Ctrl+D」快捷鍵關閉它。關閉之後,Spark 還會停止一些內存和塊的管理程序,程序會輸出一些信息 :
如果重新出現了 Shell 提示符,則說明我們已經成功地退出了 Spark。
下期精彩預告
TAG:燈塔大數據 |