快手計算鏈路是從 DB/Binlog 以及 WebService Log 實時入到 Kafka 中,然後接入 Flink 做實時計算,其中包括實時 ETL、實時分析、Interval Join 以及實時訓練,最後的結果存到 Druid、ES 或者 HBase 裡面,後面接入一些數據應用產品;同時這一份 Kafka 數據實時 Dump 一份到 Hadoop 集群,然後接入離線計算。

Flink 在快手應用的類別主要分為三大類:

  • 80% 統計監控:實時統計,包括各項數據的指標,監控項報警,用於輔助業務進行實時分析和監控;
  • 15% 數據處理:對數據的清洗、拆分、Join 等邏輯處理,例如大 Topic 的數據拆分、清洗;
  • 5% 數據處理:實時業務處理,針對特定業務邏輯的實時處理,例如實時調度。

Flink 在快手應用的典型場景包括:

  • 快手是分享短視頻跟直播的平台,快手短視頻、直播的質量監控是通過 Flink 進行實時統計,比如直播觀眾端、主播端的播放量、卡頓率、開播失敗率等跟直播質量相關的多種監控指標;
  • 用戶增長分析,實時統計各投放渠道拉新情況,根據效果實時調整各渠道的投放量;
  • 實時數據處理,廣告展現流、點擊流實時 Join,客戶端日誌的拆分等;
  • 直播 CDN 調度,實時監控各 CDN 廠商質量,通過 Flink 實時訓練調整各個 CDN 廠商流量配比。

2.Flink 集群規模

快手目前集群規模有 1500 台左右,作業數量大約是 500 左右,日處理條目數總共有 1.7 萬億,峰值處理條目數大約是 3.7 千萬。集群部署都是 On Yarn 模式,分為離線集群和實時集群兩類集群,其中離線集群混合部署,機器通過標籤進行物理隔離,實時集群是 Flink 專用集群,針對隔離性、穩定性要求極高的業務部署。

二.快手 Flink 技術演進

快手 Flink 技術演進主要分為三部分:

  1. 基於特定場景優化,包括 Interval Join 場景優化;
  2. 穩定性改進,包括數據源控速、JobManager 穩定性、作業頻繁失敗;
  3. 平台建設。

1. 場景優化1.1 Interval Join 應用場景

Interval Join 在快手的一個應用場景是廣告展現點擊流實時 Join 場景:打開快手 App 可能會收到廣告服務推薦的廣告視頻,用戶有時會點擊展現的廣告視頻。這樣在後端形成兩份數據流,一份是廣告展現日誌,一份是客戶端點擊日誌。這兩份數據需進行實時 Join,將 Join 結果作為樣本數據用於模型訓練,訓練出的模型會被推送到線上的廣告服務。

該場景下展現以後 20 分鐘的點擊被認為是有效點擊,實時 Join 邏輯則是點擊數據 Join 過去 20 分鐘展現。其中,展現流的數據量相對比較大,20 分鐘數據在 1 TB 以上。最初實時 Join 過程是業務自己實現,通過 Redis 緩存廣告展現日誌,Kafka 延遲消費客戶端點擊日誌實現 Join 邏輯,該方式缺點是實時性不高,並且隨著業務增長需要堆積更多機器,運維成本非常高。基於 Flink 使用 Interval Join 完美契合此場景,並且實時性高,能夠實時輸出 Join 後的結果數據,對業務來說維護成本非常低,只需要維護一個 Flink 作業即可。

1.2 Interval Join 場景優化

1.2.1 Interval Join 原理:

Flink 實現 Interval join 的原理:兩條流數據緩存在內部 State 中,任意一數據到達,獲取對面流相應時間範圍數據,執行 joinFunction 進行 Join。隨著時間的推進,State 中兩條流相應時間範圍的數據會被清理。

在前面提到的廣告應用場景 Join 過去 20 分鐘數據,假設兩個流的數據完全有序到達,Stream A 作為展現流緩存過去 20 分鐘數據,Stream B 作為點擊流每來一條數據到對面 Join 過去 20 分鐘數據即可。

Flink 實現 Interval Join:

KeyedStreamA.intervalJoin(KeyedStreamB)
.between(Time.minutes(0),Time.minutes(20))
.process(joinFunction)

1.2.2 狀態存儲策略選擇

關於狀態存儲策略選擇,生產環境狀態存儲 Backend 有兩種方式:

  1. FsStateBackend:State 存儲在內存,Checkpoint 時持久化到 HDFS;
  2. RocksDBStateBackend:State 存儲在 RocksDB 實例,可增量 Checkpoint,適合超大 State。在廣告場景下展現流 20 分鐘數據有 1 TB 以上,從節省內存等方面綜合考慮,快手最終選擇的是 RocksDBStateBackend。

在 Interval join 場景下,RocksDB 狀態存儲方式是將兩個流的數據存在兩個 Column Family 里,RowKey 根據 keyGroupId+joinKey+ts 方式組織。

1.2.3 RocksDB 訪問性能問題

Flink 作業上線遇到的第一個問題是 RocksDB 訪問性能問題,表現為:

  • 作業在運行一段時間之後出現反壓,吞吐下降。
  • 通過 Jstack 發現程序邏輯頻繁處於 RocksDB get 請求處。
  • 通過 Top 發現存在單線程 CPU 持續被打滿。

進一步對問題分析,發現:該場景下,Flink 內部基於 RocksDB State 狀態存儲時,獲取某個 Join key 值某段範圍的數據,是通過前綴掃描的方式獲取某個 Join key 前綴的 entries 集合,然後再判斷哪些數據在相應的時間範圍內。前綴掃描的方式會導致掃描大量的無效數據,掃描的數據大多緩存在 PageCache 中,在 Decode 數據判斷數據是否為 Delete 時,消耗大量 CPU。

以上圖場景為例,藍色部分為目標數據,紅色部分為上下邊界之外的數據,前綴掃描時會過多掃描紅色部分無用數據,在對該大量無效數據做處理時,將單線程 CPU 消耗盡。

1.2.4 針對 RocksDB 訪問性能優化

快手在 Interval join 該場景下對 RocksDB 的訪問方式做了以下優化:

  • 在 Interval join 場景下,是可以精確的確定需訪問的數據邊界範圍。所以用全 Key 範圍掃描代替前綴掃描,精確拼出查詢上下邊界 Full Key 即 keyGroupId+joinKey+ts[lower,upper]。
  • 範圍查詢 RocksDB ,可以更加精確 Seek 到上下邊界,避免無效數據掃描和校驗。

優化後的效果:P99 查詢時延性能提升 10 倍,即 nextKey 獲取 RocksDB 一條數據, P99 時延由 1000 毫秒到 100 毫秒以內。作業吞吐反壓問題進而得到解決。

1.2.5 RocksDB 磁碟壓力問題

Flink 作業上線遇到的第二個問題是隨著業務的增長, RocksDB 所在磁碟壓力即將達到上限,高峰時磁碟 util 達到 90%,寫吞吐在 150 MB/s。詳細分析發現,該問題是由以下幾個原因疊加導致:

  • Flink 機器選型為計算型,大內存、單塊 HDD 盤,在集群規模不是很大的情況下,單個機器會有 4-5 個該作業 Container,同時使用一塊 HDD 盤。
  • RocksDB 後台會頻繁進行 Compaction 有寫放大情況,同時 Checkpoint 也在寫磁碟。

針對 RocksDB 磁碟壓力,快手內部做了以下優化:

  • 針對 RocksDB 參數進行調優,目的是減少 Compaction IO 量。優化後 IO 總量有一半左右的下降。
  • 為更加方便的調整 RocksDB 參數,在 Flink 框架層新增 Large State RocksDB 配置套餐。同時支持 RocksDBStateBackend 自定義配置各種 RocksDB 參數。
  • 未來計劃,考慮將 State 用共享存儲的方式存儲,進一步做到減少 IO 總量,並且快速 Checkpoint 和恢復。

2. 穩定性改進

首先介紹下視頻質量監控調度應用背景,有多個 Kafka Topic 存儲短視頻、直播相關質量日誌,包括短視頻上傳 / 下載、直播觀眾端日誌,主播端上報日誌等。Flink Job 讀取相應 Topic 數據實時統計各類指標,包括播放量、卡頓率、黑屏率以及開播失敗率等。指標數據會存到 Druid 提供後續相應的報警監控以及多維度的指標分析。同時還有一條流是進行直播 CDN 調度,也是通過 Flink Job 實時訓練、調整各 CDN 廠商的流量配比。

以上 Kafka Topic 數據會同時落一份到 Hadoop 集群,用於離線補數據。實時計算跟離線補數據的過程共用同一份 Flink 代碼,針對不同的數據源,分別讀取 Kafka 數據或 HDFS 數據。

2.1 數據源控速

視頻應用場景下遇到的問題是:作業 DAG 比較複雜,同時從多個 Topic 讀取數據。一旦作業異常,作業失敗從較早狀態恢復,需要讀取部分歷史數據。此時,不同 Source 並發讀取數據速度不可控,會導致 Window 類運算元 State 堆積、作業性能變差,最終導致作業恢復失敗。另外,離線補數據,從不同 HDFS 文件讀數據同樣會遇到讀取數據不可控問題。在此之前,實時場景下臨時解決辦法是重置 GroupID 丟棄歷史數據,使得從最新位置開始消費。

針對該問題我們希望從源頭控制多個 Source 並發讀取速度,所以設計了從 Source 源控速的策略。

Source 控速策略

Source 控速策略是 :

  • SourceTask 共享速度狀態<id,ctime,watermark,speed>提供給 JobManager。
  • JobManager 引入 SourceCoordinator,該 Coordinator 擁有全局速度視角,制定相應的策略,並將限速策略下發給 SourceTask。
  • SourceTask 根據 JobManager 下發的速度調節信息執行相應控速邏輯。
  • 一個小細節是 DAG 圖有子圖的話, 不同子圖 Source 源之間互相不影響。

Source 控速策略詳細細節

SourceTask 共享狀態

  • SourceTask 定期彙報狀態給 JobManager,默認 10 s 間隔。
  • 彙報內容為<id,clocktime,watermark,speed>。

協調中心 SourceCoordinator

  • 限速閾值:最快並發 Watermark - 最慢並發 Watermark > ?t(默認 5 分鐘)。只要在達到限速閾值情況下,才進行限速策略制定。
  • 全局預測:各並發 targetWatermark=base+speed*time;Coordinator 先進行全局預測,預測各並發接下來時間間隔能運行到的 Watermark 位置。
  • 全局決策:targetWatermark = 預測最慢 Watermark+?t/2;Coordinator 根據全局預測結果,取預測最慢並發的 Watermark 值再浮動一個範圍作為下個周期全局限速決策的目標值。
  • 限速信息下發:<targetTime,targetWatermark>。將全局決策的信息下發給所有的 Source task,限速信息包括下一個目標的時間和目標的 Watermark 位置。

以上圖為例,A 時刻,4 個並發分別到達如圖所示位置,為 A+interval 的時刻做預測,圖中藍色虛線為預測各並發能夠到達的位置,選擇最慢的並發的 Watermark 位置,浮動範圍值為 Watermark + ?t/2 的時間,圖中鮮紅色虛線部分為限速的目標 Watermark,以此作為全局決策發給下游 Task。

SourceTask 限速控制

  • SourceTask 獲取到限速信息<targetTime,targetWatermark>後,進行限速控制。
  • 以 KafkaSource 為例,KafkaFetcher 獲取數據時,根據限速信息 Check 當前進度,確定是否需要限速等待。

該方案中,還有一些其他考慮,例如:

  • 時間屬性:只針對 EventTime 情況下進行限速執行。
  • 開關控制:支持作業開關控制是否開啟 Source 限速策略。
  • DAG 子圖 Source 源之間互相不影響。
  • 是否會影響 CheckPoint Barrier 下發。
  • 數據源發送速度不恆定,Watermark 突變情況。

Source 控速結果

拿線上作業,使用 Kafka 從最早位置(2 days ago)開始消費。如上圖,不限速情況下 State 持續增大,最終作業掛掉。使用限速策略後,最開始 State 有緩慢上升,但是 State 大小可控,最終能平穩追上最新數據,並 State 持續在 40 G 左右。

2.2 JobManager 穩定性

關於 JobManager 穩定性,遇到了兩類 Case,表現均為:JobManager 在大並發作業場景 WebUI 卡頓明顯,作業調度會超時。進一步分析了兩種場景下的問題原因。

場景一,JobManager 內存壓力大問題。JobManager 需要控制刪除已完成的 Checkpoint 在 HDFS 上的路徑。在 NameNode 壓力大時,Completed CheckPoint 路徑刪除慢,導致 CheckPoint Path 在內存中堆積。原來刪除某一次 Checkpoint 路徑策略為:每刪除目錄下一個文件,需 List 該目錄判斷是否為空,如為空將目錄刪除。在大的 Checkpoint 路徑下, List 目錄操作為代價較大的操作。針對該邏輯進行優化,刪除文件時直接調用 HDFS delete(path,false) 操作,語義保持一致,並且開銷小。

場景二,該 Case 發生在 Yarn Cgroup 功能上線之後,JobManager G1 GC 過程變慢導致阻塞應用線程。AppMaster 申請 CPU 個數硬編碼為 1,在上線 Cgroup 之後可用的 CPU 資源受到限制。解決該問題的方法為,支持 AppMaster 申請 CPU 個數參數化配置。

2.3 作業頻繁失敗

機器故障造成作業頻繁失敗,具體的場景也有兩種:

場景一:磁碟問題導致作業持續調度失敗。磁碟出問題導致一些 Buffer 文件找不到。又因為 TaskManager 不感知磁碟健康狀況,會頻繁調度作業到該 TaskManager,作業頻繁失敗。

場景二:某台機器有問題導致 TaskManager 在某台機器上頻繁出 Core,陸續分配新的 TaskManager 到這台機器上,導致作業頻繁失敗。

針對機器故障問題解決方法:

  • 針對磁碟問題,TaskManager 增加 DiskChecker 磁碟健康檢查,發現磁碟有問題 TaskManager 自動退出;
  • 針對有些機器頻繁出現 TaskManager 出現問題,根據一定的策略將有問題機器加到黑名單中,然後通過軟黑名單機制,告知 Yarn 盡量不要調度 Container 到該機器。

3. 平台化建設3.1 平台建設:

快手的平台化建設主要體現在青藤作業託管平台。通過該平台可進行作業操作、作業管理以及作業詳情查看等。作業操作包括提交、停止作業。作業管理包括管理作業存活、性能報警,自動拉起配置等;詳情查看,包括查看作業的各類 Metric 等。

上圖為青藤作業託管平台的一些操作界面。

3.2 問題定位流程優化:

我們也經常需要給業務分析作業性能問題,幫助業務 debug 一些問題,過程相對繁瑣。所以該部分我們也做了很多工作,盡量提供更多的信息給業務,方便業務自主分析定位問題。

首先,我們將所有 Metric 入 Druid,通過 Superset 可從各個維度分析作業各項指標。

第二,針對 Flink 的 WebUI 做了一些完善,支持 Web 實時列印 jstack,Web DAG 為各 Vertex 增加序號,Subtask 信息中增加各並發 SubtaskId。第三,豐富異常信息提示,針對機器宕機等特定場景信息進行明確提示。第四,新增各種 Metric。

三.未來計劃

快手的未來規劃主要分為兩個部分:

第一,目前在建設的 Flink SQL 相關工作。因為 SQL 能夠減少用戶開發的成本,包括我們現在也在對接實時數倉的需求,所以 Flink SQL 是我們未來計劃的重要部分之一。

第二,我們希望進行一些資源上的優化。目前業務在提作業時存在需求資源及並發預估不準確的情況,可能會過多申請資源導致資源浪費。另外如何提升整體集群資源的利用率問題,也是接下來需要探索的問題。

作者介紹:董亭亭,快手大數據架構實時計算引擎團隊負責人。目前負責 Flink 引擎在快手內的研發、應用以及周邊子系統建設。2013 年畢業於大連理工大學,曾就職於奇虎 360、58 集團。主要研究領域包括:分散式計算、調度系統、分散式存儲等系統。


推薦閱讀:
相关文章