當前位置:
首頁 > 知識 > 我為什麼建議自建Hbase集群的都應該遷移過來?

我為什麼建議自建Hbase集群的都應該遷移過來?

引言

最近雲HBase商業化了,HBase在業界應用還是比較廣泛。在雲上環境下中,不少客戶都自建了HBase集群,還有一部分用戶是把HBase集群放在Hadoop離線集群內部。此文主要對比下雲HBase資料庫跟自建HBase的差異。另外,在成本上,雲HBase資料庫跟自建基本差不多,目前雲HBase在推廣打折階段,比自建還便宜不少

自建HBase與ApsaraDB HBase對比

自建目前在雲上,基本是基於ecs去自己構建,ApsaraDB HBase我們還是做了不少事情的:

  • ApsaraDB HBase的內核在阿里集團使用5年,還是有不少的沉澱的,在一些場景有300%的性能提升,大部分場景都至少有30%的提升,在穩定性恢復恢復速度快3倍左右。阿里現在有3個hbase pmc,6個committer了,有將近25+個人弄hbase

  • ApsaraDB HBase的內核會主動修復bug,改進功能,升級的,把高版本有價值的patch打到我們的ApsaraDB HBase內核版本上。自己建設 往往要去下載新版本弄,有時候搞不好數據還丟了

  • 安全機制比較健全,如:白名單、VPC、訪問UI的賬號密碼,還有安全部門非得讓弄成https加密的。後續會接阿里雲的ak,支持共享環境訪問ApsaraDB HBase,比如ODPS,開源版本是不行的

  • 9月份會支持公網開放:比較方便支持線下測試開發連接環境。(不需要vpn、自建線下搭建或者proxy了)

  • 運維還是比較便利的:5分鐘全自動部署新集群、 可以在線擴容磁碟、容量報警、添加節點、修改配置、指標可視化、自動守護進程、鏈路監控報警 、熱點檢測轉移、大scan過期清理 ………………

可以說這個是 ApsaraDB HBase的大概層次圖:

我為什麼建議自建Hbase集群的都應該遷移過來?

關於把Hbase放到離線集群的壞處

之前阿里雲沒有提供ApsaraDB HBase的產品,在EMR我們包裝了一個開源的HBase,不少用戶就使用了這個HBase,後續造成EMR運維上很大的困難,hbase經常是由於離線作業跑的時候會掛掉,但是這個時候正式需要訪問hbase的時候,如果這個時候有實時入庫或者查詢的操作,則影響非常大。另外,我們還不得不分配一定的資源給Regionserver,RS還是非常吃內存的,造成離線任務根本不夠用的情況。為此,我們就把單獨做了ApsaraDB HBase這個產品,做成全託管的方式,以取代EMR中的HBase

關於節約資源

在用戶自建HBase集群時,不少客戶基於CDH把HBase放在Hadoop中,想法主要是節約一些資源或者麻煩單獨弄一個HBase。其實在雲上環境中,磁碟及CPU及內存都是可以在線直接擴容的,比如ApsaraDB HBase的磁碟可以最低每次8G的擴容,計算資源也可以單獨添加節點。 資源本身基本是很小粒度可以增加的。整體資源其實是相當的(因為HBase需要起著就佔資源),另外,如果把分析按量跑,其實成本反到下降不少(EMR支持定時按需跑job)。另外,還可以享受穩定及高性能的服務。

關於性能

spark訪問hbase,再hbase放在hdfs。其實spark並不能享受本地化的好處,spark往往訪問region的,region往往不在這個機器上,比如你有10台機器,則在這個上面的概率是10%,再region訪問hdfs,則又只有10%(好的情況可能高點),一算下來,只有1%的概率可以本地化訪問。且要走2次進程轉化(一般hbase要解壓、反編碼等一些列的操作),其實這個時間遠大於帶寬的傳輸的時間。帶寬傳輸時間基本可以忽略。

ApsaraDB HBase跟客戶的ECS或者EMR連接,採取的是點到點的連通方式,走的是跟ECS自建集群一樣的內網帶寬(完全免費),完全沒有區別,其實就跟訪問集群內部一樣。 跟一些有中轉節點的模式不一樣,ApsaraDB HBase的regionserver都是可以直連客戶端的。

我為什麼建議自建Hbase集群的都應該遷移過來?

帶來的好處

  • 離線可以按需話 - emr提供按需跑的spark,比如晚上跑2個小時等,此極大降低成本

  • 離線基本不影響在線或者近線 - 比如入庫、訪問等不受影響

  • 如果把HBase遷移到ApsaraDB HBase,則享受ApsaraDB HBase的高性能、運維服務及專家服務

寫在最後

如果你想遷移,直接使用copytable拷貝吧,還是挺快的。如果你的數據超過10T,可以聯繫我們。 如果你想來試用下,那就直接按需買一個跑跑,最低6元左右一個小時。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲棲社區 的精彩文章:

了解人工智慧之分類和預測-數據科學中的預測,分類和回歸分析
Terraform助力ECS實例藉助RAM管理阿里雲產品
擁抱API經濟:教你三步使用SDK玩轉阿里雲API
聽阿里雲CDN安防技術專家金九講SystemTap使用技巧

TAG:雲棲社區 |

您可能感興趣

如何搭建 Redis 集群
Redis集群搭建
構建 Hadoop 集群
搭建Elasitc stack集群需要注意的日誌問題
用戶吐槽 Azure Kubernetes,因其搞砸了集群!
docker zookeeper 集群搭建
Storm集群搭建小結
SpringCloud如何實現Eureka集群、HA機制?
Docker Compose搭建MySQL主從複製集群
快速安裝與配置kubernetes集群搭建
離線環境快速搭建ElasticSearch集群
Keepalived+LVS+nginx搭建nginx高可用集群
SpringCloud實現Eureka集群配置
docker kafka 集群搭建實戰
如何構建一個安全的Glusterfs分散式文件系統集群?
Kubernetes大集群怎麼管?基於監控的彈性伸縮方法
大規模集群下的Hadoop NameNode
Redis集群配置詳解
如何在Kubernetes中管理和操作Kafka集群
如何在本地數據中心安裝Service Fabric for Windows集群