台湾 || 语言: 大陆简体港澳繁體台灣正體

flink入門必讀

雪花臺灣 2019-03-15 09:56

1. Architecture

flink是一個架構和分散式處理引擎，設計目的是有狀態的處理有界流和無界流。flink可以運行與所有通用的集羣管理器，以內存的速度進行計算並且支持任何規模部署。

下面，我們解釋一下Flink架構的重要方面。

1.1 處理無界數據和有界數據

任何種類的數據都是以事件流的形式產生。信用卡交易，感測器測量，機器日誌或網站或移動應用程序上的用戶交互，所有這些數據都作為流生成。

數據可以作為有界流和無界流被處理。

無界流意思很明顯，只有開始沒有結束。必須連續的處理無界流數據，也即是在事件注入之後立即要對其進行處理。不能等待數據到達了再去全部處理，因為數據是無界的並且永遠不會結束數據注入。處理無界流數據往往要求事件注入的時候有一定的順序性，例如可以以事件產生的順序注入，這樣會使得處理結果完整。
有界流，也即是有明確的開始和結束的定義。有界流可以等待數據全部注入完成了再開始處理。注入的順序不是必須的了，因為對於一個靜態的數據集，我們是可以對其進行排序的。有界流的處理也可以稱為批處理。

相關文章