大數據環境下，對於建模工作和數據可持續性發展的構建

科技 09-28

在大數據爆發的時代，數據挖掘的工作涉及人員、角色眾多，連接的行業也紛繁複雜。這就需要建立良好的協作和協同關係。單打獨鬥能做一兩個模型，但是落地應用就需要多方參與，以共贏為基調才有可能推進模型在業務流程中的有效應用。共贏不難，只要清楚自己的定位和能力。這樣餐能全面接入和做好大數據工作。

數據模型

常規的模型在日常運行過程中，檢查批處理的輸入數據採集、加工及運行過程的處理效率，檢查模型輸出結果的時效性和準確性。

1）確定數據處理用到的軟硬體運行環境，分析其運算效率；

2）進行完整的數據批處理過程（數據採集、加工及預測）並記錄耗時，檢查是否有耗時較長的步驟，並尋求可改進的方法（編碼改進，軟體選擇，設備更改）；

3）檢查模型運行結果是否滿足前端業務應用需求，跟蹤模型運行情況，定期進行模型結果分析，並適時啟動模型優化更新。

4）外部接入數據的驗證和數據的有效回饋率及故障收集。

）整合數據源並成為可以進一步發散的根部數據源。

數據源

在大數據的數據挖掘中，指定製定的流程機制的建立過程中要充分實現工程化管理，同時注意加強知識技能的共享和傳導。模型開發對應的是實驗室機制，數據科學家發揮應有的核心作用。模型部署則是工廠化的概念，需要嚴格的驗證測試過程，確保模型在生產環境穩定高效運行。模型運行結果在業務應用中發揮應有的數據價值，同時業務發展催生新的建模需求。模型管理在整體上發揮監督指導作用，負責數據挖掘全生命周期的管理。

數據更新

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 深度數據挖掘 的精彩文章:

※大數據項目針對數據應用的技術升級與內部戰略部署
※大數據應用的競爭市場定位與數據環境的進一步部署

TAG:深度數據挖掘 |