當前位置:
首頁 > 最新 > 小白學習大數據測試之主流程和關鍵步驟

小白學習大數據測試之主流程和關鍵步驟

轉發是對小編的最大支持

回顧

萬變不離其宗,不論是什麼測試ta的主流程基本都是一樣的,就是我們剛開始學習測試的那一套流程。也許你會覺得簡單,但你要明白,無規不成方圓,有時候沒有推行好或者結果不好不一定是因為技術不行,也許是沒有好的流程。就好像,一輛汽車的生產,如果沒有好的流程你覺得最終出來的汽車質量會好嗎?

明白這個道理之後,我們就先來看看大數據測試的主流程是個神馬樣子的。

知道主流程之後我們就來看看重點,在大數據測試中的關鍵步驟,這也是和傳統資料庫測試的區別。

1、pre-Hadoop階段驗證(預處理驗證階段),主要是對輸入的數據進行處理並存儲到hdfs上。

在這個階段可能由於各種原因造成數據不正確,一般要進行如下的測試:

輸入文件與源文件對比,保證正確性

根據需求確認獲得數據的正確性

驗證正確的文件被存入HDFS且被分割、複製到不同的節點

2、MapReduce驗證階段

當文件存入HDFS之後就要通過MapReduce進行處理了。這個階段可能出現的問題包括但不限於編碼不對、節點配置錯誤、聚合不正確、輸出格式不對等問題。一般需要進行如下的測試:

MapReduce進程正常工作

數據處理完成,輸出文件正確

驗證map時生成的key-value是否正確

驗證reduce結束後聚合是否正確

輸出格式是否符合要求

3、輸出階段驗證

此階段主要是生成處理過的最終數據文件以及存放到數據倉庫。一般需要進行如下的測試:

檢查轉換規則被正確應用

檢查數據載入到目標系統中且完整

通過將目標數據與HDFS文件系統數據進行比較來檢查沒有數據損壞

這些過程中,你可以通過Hive得到分析報告來做進一步的驗證。

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

你一定覺得是天書,各種不清楚,但是沒關係,先做了解和記憶,等後續隨著知識的積累自然就明白了,學習就是這樣的,需要一個過程,不能太強求。

最後放一張圖,總結上面的內容(一圖勝千言)

其中ETL其實就是數據的處理、清洗、轉換等,具體見文章《ETL大數據測試介紹》

微信二維碼 QQ群二維碼

安裝荔枝FM手機APP,搜索「挨踢脫口秀」,可收聽技術、娛樂、行業、爆料等語音,播放量已經破百萬了哦


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 測試幫日記 的精彩文章:

TAG:測試幫日記 |