小白學習大數據測試之主流程和關鍵步驟

最新 01-15

轉發是對小編的最大支持

回顧

萬變不離其宗，不論是什麼測試ta的主流程基本都是一樣的，就是我們剛開始學習測試的那一套流程。也許你會覺得簡單，但你要明白，無規不成方圓，有時候沒有推行好或者結果不好不一定是因為技術不行，也許是沒有好的流程。就好像，一輛汽車的生產，如果沒有好的流程你覺得最終出來的汽車質量會好嗎？

明白這個道理之後，我們就先來看看大數據測試的主流程是個神馬樣子的。

知道主流程之後我們就來看看重點，在大數據測試中的關鍵步驟，這也是和傳統資料庫測試的區別。

1、pre-Hadoop階段驗證（預處理驗證階段），主要是對輸入的數據進行處理並存儲到hdfs上。

在這個階段可能由於各種原因造成數據不正確，一般要進行如下的測試：

輸入文件與源文件對比，保證正確性

根據需求確認獲得數據的正確性

驗證正確的文件被存入HDFS且被分割、複製到不同的節點

2、MapReduce驗證階段

當文件存入HDFS之後就要通過MapReduce進行處理了。這個階段可能出現的問題包括但不限於編碼不對、節點配置錯誤、聚合不正確、輸出格式不對等問題。一般需要進行如下的測試：

MapReduce進程正常工作

數據處理完成，輸出文件正確

驗證map時生成的key-value是否正確

驗證reduce結束後聚合是否正確

輸出格式是否符合要求

3、輸出階段驗證

此階段主要是生成處理過的最終數據文件以及存放到數據倉庫。一般需要進行如下的測試：

檢查轉換規則被正確應用

檢查數據載入到目標系統中且完整

通過將目標數據與HDFS文件系統數據進行比較來檢查沒有數據損壞

這些過程中，你可以通過Hive得到分析報告來做進一步的驗證。

hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。

你一定覺得是天書，各種不清楚，但是沒關係，先做了解和記憶，等後續隨著知識的積累自然就明白了，學習就是這樣的，需要一個過程，不能太強求。

最後放一張圖，總結上面的內容（一圖勝千言）

其中ETL其實就是數據的處理、清洗、轉換等，具體見文章《ETL大數據測試介紹》

微信二維碼 QQ群二維碼

安裝荔枝FM手機APP，搜索「挨踢脫口秀」，可收聽技術、娛樂、行業、爆料等語音，播放量已經破百萬了哦

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 測試幫日記 的精彩文章:

TAG:測試幫日記 |