Twitter 大數據實時計算的經驗分享
生活中,有很多事務需要實時分析處理:展示實時的趨勢;基於某個名人明星發布的 Tweet 話題的公開會話討論;實時為用戶推薦最新資訊;用戶的實時搜索……以上都是 Twitter 實時服務涵蓋的實時場景。對於 Twitter 而言,實時性就是其產品的基石。
Twitter 每天要接收和處理用戶發送的數十億條推文。實時分析這些推文是一個巨大的挑戰。為了保證每條推文處理的實時性和高效性,Twitter 在分散式流計算系統 Storm 的基礎之上,投入了大量的人力,設計和開發了一套全新的實時計算系統——Heron。
Heron 是為大規模環境量身打造的下一代開源流媒體引擎。Heron 現在已經是 Apache 的孵化項目,它的 Contributor 除了來自 Twitter 外還有來自微軟、Google、斯坦福等多個組織機構。Heron 在大規模上提供無與倫比的性能,並已成功滿足各種流處理 Application 的價格 / 性能目標。
從 Twitter 實時計算框架的演進可以看出:提高計算的時效性,更快的從數據中挖掘出信息和知識就意味著能夠獲取更大的價值。最近,越來越多的企業對於實時數據技術架構感興趣,從批處理向流計算機構的轉型,是企業關於如何使用數據的一次技術革命。
但是,實時數據技術棧(包括流計算引擎、數據存儲引擎、編程語言和工具)的最前沿現狀又是什麼呢?在這其中,又有哪些技術挑戰?以及這些前沿技術怎麼影響流計算的架構和應用呢?
不妨來 QCon 大會上海站的會前兩天深度培訓,和前 Twitter message group 的技術負責人一起深入討論下實時數據技術棧的那些事兒。
大數據實時計算
現在越來越多的應用場景對數據處理有了高時效性的要求。如何能夠更快的採集數據,實時的處理數據是當前各個新經濟所面臨的一個挑戰。
為了滿足以上需求,QCon 大會上海站開設了——《大數據實時計算》深度培訓課程,邀請了在實時處理方面擁有豐富經驗的兩位講師——郭斯傑、翟佳,於 10 月 16 日和大家一起分享 Twitter 、Yahoo 等大數據實時計算的實踐經驗。
首先,來認識下《大數據實時計算》的兩位分享講師:
郭斯傑,之前就職於 Twitter,任職 Staff Software Engineer,是 Twitter message group 的技術負責人。同時也是 Apache BookKeeper 的 PMC Chair, Apache DistributedLog 的 Co-Creator。加入 Twitter 之前,就職於 Yahoo。
翟佳,畢業於中科院計算所,目前就職於一家下一代實時處理初創公司 Streamlio,是 streamlio 的核心創始成員之一。在此之前任職於 EMC,是北京 EMC 實時處理平台的技術負責人。主要從事實時計算和分散式存儲系統的相關開發,此外也在開源項目 Apache BookKeeper, Distributedlog,DC/OS 等項目中持續貢獻代碼。
兩位講師分享的大綱如下:
流計算的簡介以及一些典型應用
流計算架構是什麼
不同類型的流計算架構及其優缺點
流計算技術棧中的 messaging,compute 和 storage 三個層面
Messaging: Apache Pulsar 的特性和使用場景
Computing:Heron。詳細討論流計算引擎 Heron,以及它在現代實時數據技術棧里的使用場景
Storage:詳細討論為實時數據存儲設計的 Apache BookKeeper/DistributedLog
使用 Apache Pulsar, BookKeeper/DistributedLog 和 Heron 來搭建實時數據技術棧時獲得的經驗教訓
如何參與培訓?
深度培訓在 QCon 大會前 2 天,10 月 15 日 -16 日在上海寶華萬豪酒店舉辦,培訓包括 10 小時的授課和 2 個小時的提問交流,沉浸式學習熱門技術,除了《大數據實時計算》內容,還有《機器學習實踐》的技術分享。
添加小助手微信,諮詢更多課程內容。


※解析矽谷企業技術圖譜
※技術頂牛的公司為啥沒有CTO?
※一次前後端分離的實踐
TAG:InfoQ |