當前位置:
首頁 > 科技 > 你的所有數據流統統屬於Kafka

你的所有數據流統統屬於Kafka

由於業界的注意力從笨拙的Hadoop和數據湖轉向實時數據流,Apache Kafka繼續一路崛起。

Apache Kafka在高歌猛進。正如行業分析公司Redmonk的芬坦·瑞安(Fintan Ryan)特別指出,去年Kafka在開發人員當中的人氣指數飆升了260%。自此以後,由於物聯網及企業其他方面需要實時數據流變得司空見慣,Kafka的人氣越來越旺。Kafka起源於LinkedIn,創始工程團隊拉出來後創辦了Confluent。自那以後,Confluent就一直是這個Apache項目的主要開發者。

但它不是唯一的開發者。事實上,考慮到Kafka越來越重要,現在提交代碼的公司比以往任何時候都要多,包括肯尼·戈爾曼(Kenny Gorman)和埃里克·畢比(Erik Beebe)創辦的Eventador,這兩人都是現已被Rackspace收購的OjbectRocket的聯合創始人。ObjectRocket將MongoDB資料庫作為一項服務來提供,而Eventador提供全面託管的Kafka服務,進一步拉低了數據流的門檻。

我與Eventador的這兩位聯合創始人談話後清楚地發現,數據流不一樣,需要「新的視角」,因為「實時變異的數據帶來了新的使用場合和新的可能性。」一旦企業逐漸依賴數據流,就很難再回過頭去。明白這一點是關鍵。

Kafka vs Hadoop

儘管Apache Hadoop很流行,但Hadoop工作流程實在太緩慢了,滿足不了現代企業不斷變化的需求。的確,正如戈爾曼所說,「許多公司認識到,數據的價值在變得更實時後才更大。」對於更喜歡等待將實時數據流添加到產品和服務的那些公司來說,它們的競爭對手很有可能並不滿足於批處理方面取得的既有榮譽。

這個趨勢推動著能夠可靠、可擴展、儘可能近實時地提供和處理數據的技術日趨採用。市場需要存在專門針對這種架構的新框架。因此,Apache Kafka應運而生。

Apache Spark怎麼樣呢?正如戈爾曼指出的那樣,Spark確實具有實時處理功能,但它並非最適合這項任務。Spark數據流框架仍然被設計成微批處理(micro-batch)。

戈爾曼解釋,這樣一來只剩下Kafka,它「能夠為數據傳輸和處理框架提供一種真正只需一次的處理解決方案」。除此之外,Apache Flink、Beam及其他額外組件擴展了這些實時管道的功能,以便輕鬆執行數據變異、聚合和過濾等更多操作。這一切造就了一種成熟的、端到端的實時數據處理系統。

Kafka的發布-訂閱(pub-sub)模式

就算Kafka學習和實施起來很費勁,也不重要,其實它學習和實施起來並不費勁。正如戈爾曼特別指出的那樣,「Apache Kafka的優點在於,它提供了一套強大的API,但語義又非常簡單。它完全很容易上手。」不僅如此,Kafka的API還用許多不同的編程語言來實現,所以你青睞的語言很有可能已有相應的驅動程序可用。

Kafka有一個重要的概念:topic,這其實就是數據流的命名空間。將數據發布給topic很簡單,Kafka可以處理路由、可擴展性、持久性和可用性等方面。多個用戶協調這些topic的訂閱,以獲取數據,處理或路由數據。被問及這帶來怎樣的應用程序開發體驗時,戈爾曼強調這並非輕而易舉,但簡單直觀:「構建與Kafka協同運行的應用程序很容易,因為客戶端庫處理通信的大部分細節,開發人員只要使用API即可發布或訂閱數據流。」

要說有什麼問題,也不是技術的問題,而是範例(paradigm)的問題。

戈爾曼告訴我,對開發人員來說,真正的竅門在於「用新的視角考慮使用數據流。」原因何在?因為「實時變異的數據帶來了新的使用場合和新的可能性。」

不妨看一個具體的例子。客戶可能發布關於拼車乘客使用拼車服務的數據。一組消費者分析該數據流,執行機器學習演算法以實現動態定價;然後另一組消費者讀取數據,向客戶的移動設備提供汽車的位置和可用性;另一組消費者向內部儀錶板提供數據聚合框架所彙集的拼車數據。Kafka是整個數據架構的核心,它能滿足各種各樣的業務需求,而且完全實時。

雲端Kafka

這對開發人員及其效力的公司來說很好,但是旺盛的Kafka需求無法保證Eventador肯定成功,因為它要與Confluent競爭,而Confluent的亮點在於它是Kafka的創始者。此外,Confluent還宣布了一款雲產品,可能會與Eventador的Kafka服務爭奪市場份額。

戈爾曼沒有因此心煩意亂。正如他描述的那樣,真正的區別是,我們並不僅限於Kafka。我們在Kafka最有用途的地方才使用它。我們擁有一種端到端企業級數據流處理框架,基於Apache Kafka和Apache Flink。我們擁有支持AWS S3的連接件、REST介面,與PrestoDB和Jupyter筆記本集成,還擁有支持流行資料庫、甚至支持其他數據流系統(比如AWS Kinesis)的連接件。我們提供全面方案,從簡單的單一節點,到全面的企業本地配置,不一而足。

此外,鑒於實時數據方面的需求很旺盛,戈爾曼認為,許多不同的玩家自有發展的空間。Eventador不僅可以用Flink及其他組件來互補Kafka,還將Rackspace倡導的口號「出色的客戶支持」銘記在心,這首先就要拿出一款做工精良、全面集成的產品。戈爾曼幾十年來在全球最大的幾家公司搞過運營,繼續說:「我們知道怎樣運營一款一流的、專業質量的、穩若磐石的Xaas解決方案。」

這個市場仍很新興,這點他絕對沒說錯。開發人員仍在努力了解如何將Kafka集成到其項目中。由於需要與數據賽跑的這種形勢,Kafka的使用場合一天天在擴大。

戈爾曼指出,然而,多年後,「依賴你基礎設施中的數據流會很常見,而不僅僅是一些輔助的工作負載。」這正是他們在傾力打造的未來。「一旦你開始要求數據更實時,腳步就很難停下來。」Eventador、Confluent,無疑還有其他公司正在打造這個實時數據流未來。對於一些人來說,這個未來就在眼前。對於其他人來說,這些初創公司希望早日迎來未來。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

安全公司要當心了!AI迅速編寫出反病毒軟體都發現不了的惡意軟體!
你今年任務多少啊?完成了多少啊?

TAG:雲頭條 |

您可能感興趣

第三大手機系統屬於我們的Yun0s
融資租賃統屬銀保監「回歸主業」成共識
俄在境內部署導彈系統屬主權問題
俄官員稱俄在境內部署導彈系統屬主權問題
12歲揚名世界,最美的珠寶,最紅的男人統統屬於她!這個世界頭號美人究竟有多美……
羅布奧特曼:7個奧特兄弟水晶已出現,統屬性佐菲,鎧屬性希卡利