Kafka 已站穩了腳跟!
數據管道是介紹Apache Kafka使用情況的第三份年度調查的主題。在用戶群不斷增長的傳聞證據背後,Kafka仍然處於早期採用階段,Kafka技能仍然很難找到。
Apache Kafka是一種開源分散式消息傳遞系統,它已經牢牢地獲得了一席之地,成為橫向擴展型環境中用於代理消息的一種事實上的實時標準。Confluent近日剛發布了其第三份介紹Kafka實施情況的年度報告:
該公司的幾位創始人開發了Kafka。該報告採集的樣本大得多,這暗示Kafka取得了長足發展,同時顯示Kafka的使用方式出現了一些不大不小的變化。
市面上還有Kafka之外的替代選擇:MapR Streams讓你可以在不需要單獨的Kafka集體的情況下代理消息,而Amazon Kinesis Firehose之類的數據流服務提供類似的功能。儘管如此,Kafka還是成為了高度分散式、高容量、實時消息隊列的事實上的標準,得到了廠商的廣泛支持。但是我們在一年前調查Kafka時,發現相關工具仍然很原始。
所以,採用群體仍然基本上局限於早期採用者這個群體也就不足為奇了。調查樣本今年擴大了一倍,調查對象達到600個,明顯偏向於處於領先位置的企業組織。要舉一個例子?78%的調查對象已經在使用微服務架構,其中63%的調查對象使用Kafka來管理那些微服務的狀態。在普通企業組織中,你不會發現大多數企業在重新設計應用程序堆棧,以便把功能作為微服務來發布。
所以,樣本中最具代表性的行業是通常早期採用的行業:計算機系統、金融服務、媒體和娛樂,這不足為奇。
然而,調查數據清楚地表明了第一代Kafka實施系統的走向。雖然30%的樣本處於量最小的一檔(每天處理的消息不到100萬條),但幾乎同樣比例的樣本聲稱每天處理的消息多達9900萬條。在早期採用者中,相當多一部分正在對Kafka進行壓力測試。
60%以上的調查對象在使用Kafka取代傳統的消息傳遞和發布/訂閱(PubSub)系統,只有將近一半的調查對象在使用Kafka將抽取、轉換和載入(ETL)從批量過程轉變成實時過程。
自去年以來,Kafka的使用方式方面出現了一些變化。雖然結果證明今年數據管道(data pipeline)極受歡迎,但去年的主角卻是數據流。微服務事件處理今年首次亮相,但並沒有出現在去年的調查中。不過今年和去年存在一些相似之處:在這兩年,一半調查對象都聲稱將Kafka用於消息傳遞,數據流和數據集成緊隨其後。
說到藉助數據流API充分利用Kafka的數據流功能時,非同步應用程序和ETL是兩大應用;但作為一種實時流程,令人驚訝的是,樣本中只有10%多點的群體在結合使用數據流和物聯網。
作為一種集成框架,近一半的調查對象使用Kafka Connect與Elasticsearch集成;其次,大約 25%至30%的調查對象聲稱連接到PostgreSQL、Hadoop分散式文件系統(HDFS)、Amazon S3和Cassandra。
那麼,哪些類型的使用場合最受歡迎?它們因行業而異,這一點也不奇怪。對於電子商務、媒體和娛樂等行業而言,推薦引擎是Kafka最常見的用途,而計算機軟硬體公司更有可能將Kafka應用於安全和欺詐檢測。這方面讓人驚訝的一點是,在Kafka應用的另一個早期溫床:金融服務業,安全和欺詐檢測居然並不突出;相反,最常見的用途卻是「財務數據」這種使用場景,其中最明顯的就是實時股票行情自動收錄器提要。
超過四分之三的調查對象強調了這一點:對Kafka來說眼下仍處於早期階段;他們特別指出,Kafka技能還是很難找到。儘管Kafka得到了廣泛的行業支持,但是讓Kafka從白板階段進入到生產階段仍然面臨不少障礙。


※戴爾 217 億美元收購 VMware 追蹤股,私有化 5 年後再上市
※剛剛、日照金山雲宣布戰略合作,投資 18 億元建設智慧雲谷
TAG:雲頭條 |