蘇寧易購大數據平台運維實踐
蘇寧大數據平台基本介紹
大數據平台運維的痛點及解決方案
痛點1. 部署及運維複雜痛點2. 無資源使用視圖
痛點3. 任務相互影響,資源隔離性差
痛點4. 排查問題耗時長,應用優化門檻高
解決1. 平台化、自動化
大數據管理平台:主機管理,集群管理自動化
元數據管理:數據字典,許可權申請審批實施自動化
數據流管理平台:集成Flume,智能擴縮容,插件式
數據開發平台:支持10種不同的任務類型,支持任務流/任務管理,解決複雜依賴問題,可擴展
解決2.資源可視化、人民幣化
存儲/計算資源計量計費
資源池使用可視化
任務展板
解決3.差異化服務、物理隔離
解決4. 智能診斷、優化建議
平台優化及增強
穩定
Hive metaserver 連接數過高的問題
修改bonecp的配置:maxConnectionsPerPartition=1
Spark Streaming & Druid System CPU過高的問題
設置vm.zone_reclaim_mode=0
透明大頁導致System CPU過高的問題
echo never >/sys/kernel/mm/transparent_hugepage/defrag
安全
賬戶/許可權體系:每個系統一個賬戶,不允許跨賬戶寫
Hive metaserver 密碼加密
基於User/IP的訪問控制策略:RPC層面控制,白名單
skipTrash禁用:防止誤刪數據
擴展性
結合HDFS的壓力、瓶頸問題的逐步優化:
程序優化,掃全表: Hive慎用unix_timestamp方法
小文件合併
YARN日誌降低副本至1
YARN日誌單獨放在另一個集群
Federation + Alluxio 實現統一命名空間
DOING & TO DO
Flink推廣OLAP平台建設
流計算消息回溯
多活&災備
資源統一管理


TAG:IT觀察 |