應用案例 | Blink 有何特別之處？菜鳥供應鏈場景最佳實踐

作者：晨笙、緣橋

本文轉自阿里技術官方公眾號（ali_tech）：菜鳥供應鏈業務鏈路長、節點多、實體多，使得技術團隊在建設供應鏈實時數倉的過程中，面臨著諸多挑戰，如：如何實現實時變Key統計？如何實現實時超時統計？如何進行有效地資源優化？如何提升多實時流關聯效率？如何提升實時作業的開發效率？而 Blink 能否解決這些問題？下面一起來深入了解。

背景

菜鳥從2017年4月開始探索 Blink（即 Apache Flink 的阿里內部版本），2017年7月開始在線上環境使用 Blink，作為我們的主流實時計算引擎。

為什麼短短几個月的探索之後，我們就選擇Blink作為我們主要的實時計算引擎呢？

在效率上，Blink 提供 DataStream、TableAPI、SQL 三種開發模式，強大的 SQL 模式已經滿足大部分業務場景，配合半智能資源優化、智能傾斜優化、智能作業壓測等功能，可以極大地提升實時作業的開發效率；在性能上，諸如MiniBatch&MicroBatch、維表 Async&Cache、利用 Niagara 進行本地狀態管理等內部優化方案，可以極大地提升實時作業的性能；在保障上，Blink 自帶的 Failover 恢復機制，能夠實現線程級的恢復，可以做到分鐘級恢復，配合 Kmonitor 監控平台、烽火台預警平台，可以有效地實現實時作業的數據保障。

接下來，我將結合供應鏈業務的一些業務場景，簡要說明，Blink 如何解決我們遇到的一些實際問題。

回撤機制

訂單履行是供應鏈業務中最常見的物流場景。什麼是訂單履行呢？當商家 ERP 推單給菜鳥之後，菜鳥履行系統會實時計算出每筆訂單的出庫、攬收、簽收等節點的預計時間，配送公司需要按照各節點的預計時間進行訂單的配送。為了保證訂單的準點履約，我們經常需要統計每家配送公司每天各個節點的預計單量，便於配送公司提前準備產能。

看似很簡單的實時統計加工，我們在開發過程中遇到了什麼問題呢？履行重算！當物流訂單的上游某個節點延遲時，履行系統會自動重算該筆訂單下游所有節點的預計時間。比如某個物流訂單出庫晚點後，其後的預計攬收時間、預計簽收時間都會重算。而對於大部分的實時計算引擎來說，並不能很友好的支持這種變 Key 統計的問題。以前，數據量沒那麼大的時候，還可以通過 OLAP 資料庫來解決這類場景，當量上來後， OLAP 方案的成本、性能都是很大的問題。

除了 OLAP 方案，我們提倡採用 Blink 已經內置的 Retraction 機制，來解決這類變 Key 統計的問題，這也是我們在2017年初就開始嘗試 Blink 的重要原因。Blink 的Retraction 機制，使用 State 在內存或者外部存儲設備中對數據進行統計處理，當上游數據源對某些匯總 Key 的數據做更新時，Blink 會主動給下游下發一個刪除消息從而「撤回」之前的那條消息，並用最新下發的消息對錶做更新操作。

下面是一個簡化後的案例，供了解Blink Retraction的內部計算過程：