小白學習大數據測試之主流程和關鍵步驟
轉發是對小編的最大支持
回顧
萬變不離其宗,不論是什麼測試ta的主流程基本都是一樣的,就是我們剛開始學習測試的那一套流程。也許你會覺得簡單,但你要明白,無規不成方圓,有時候沒有推行好或者結果不好不一定是因為技術不行,也許是沒有好的流程。就好像,一輛汽車的生產,如果沒有好的流程你覺得最終出來的汽車質量會好嗎?
明白這個道理之後,我們就先來看看大數據測試的主流程是個神馬樣子的。
知道主流程之後我們就來看看重點,在大數據測試中的關鍵步驟,這也是和傳統資料庫測試的區別。
1、pre-Hadoop階段驗證(預處理驗證階段),主要是對輸入的數據進行處理並存儲到hdfs上。
在這個階段可能由於各種原因造成數據不正確,一般要進行如下的測試:
輸入文件與源文件對比,保證正確性
根據需求確認獲得數據的正確性
驗證正確的文件被存入HDFS且被分割、複製到不同的節點
2、MapReduce驗證階段
當文件存入HDFS之後就要通過MapReduce進行處理了。這個階段可能出現的問題包括但不限於編碼不對、節點配置錯誤、聚合不正確、輸出格式不對等問題。一般需要進行如下的測試:
MapReduce進程正常工作
數據處理完成,輸出文件正確
驗證map時生成的key-value是否正確
驗證reduce結束後聚合是否正確
輸出格式是否符合要求
3、輸出階段驗證
此階段主要是生成處理過的最終數據文件以及存放到數據倉庫。一般需要進行如下的測試:
檢查轉換規則被正確應用
檢查數據載入到目標系統中且完整
通過將目標數據與HDFS文件系統數據進行比較來檢查沒有數據損壞
這些過程中,你可以通過Hive得到分析報告來做進一步的驗證。
hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
你一定覺得是天書,各種不清楚,但是沒關係,先做了解和記憶,等後續隨著知識的積累自然就明白了,學習就是這樣的,需要一個過程,不能太強求。
最後放一張圖,總結上面的內容(一圖勝千言)
其中ETL其實就是數據的處理、清洗、轉換等,具體見文章《ETL大數據測試介紹》
微信二維碼 QQ群二維碼
安裝荔枝FM手機APP,搜索「挨踢脫口秀」,可收聽技術、娛樂、行業、爆料等語音,播放量已經破百萬了哦


TAG:測試幫日記 |