【譯】用SQL統一所有:一種有效的、語法慣用的流和表管理方法
現在還沒有一個統一的流式SQL語法標準,各家都在做自己的。本文在一些業界應用的基礎上提出了一個統一SQL語法的建議。Spark同樣存在這個問題,社區版本在流式SQL上遲遲沒有動作。EMR Spark在今年上半年提供了自己設計版本的流式SQL支持,也會在後續的更新中吸收和支持這些優秀的設計建議。
原文:https://blog.acolyer.org/2019/07/03/one-sql-to-rule-them-all/
資料:One SQL to rule them all: an efficient and syntactically idiomatic approach to management of streams and tables Begoli et al., SIGMOD』19
在數據處理方面,似乎最終都會回歸到SQL上!今天選擇的這篇文章作者來自於Apache Beam,Apache Calcite以及Apache Flink的專家們,闡述了他們在構建流式處理SQL介面的經驗。最終整理了一些SQL標準的擴展建議。
The thesis of this paper, supported by experience developing large open-source frameworks supporting real-world streaming use cases, is that the SQL language and relational model as-is and with minor non-intrusive extensions, can be very effective for manipulation of streaming data.
這篇文章的論點是,在開發使用大規模開源框架解決現實世界的實際流式場景經驗下,SQL語言及關係性模型在當前及非侵入式擴展後,對於流數據的操作非常有效。
文章中很多觀點已經在Apache Beam,Apache Calcite以及Apache Flink中實現,或者作為眾多選擇之一。Streaming SQL已經在阿里巴巴,華為,Lyft,Uber及其他一些公司中應用。下面是一些他們的反饋,為啥做這樣的選擇:
- 開發和應用成本相對於那些非聲明性流處理 API要低得多。
- 比起非標準化的查詢語言,熟悉SQL更容易開發應用。
- 常見的窗口聚合及join等處理任務,基於event-time可以更方便的表達及更高效的執行。
- 當應用出錯或者服務中斷時,可以很方便地使用同一個查詢語句對記錄存儲的數據進行處理。
1. 基本原則
Combined, tables and streams cover the critical spectrum of business operations ranging from strategic decision making supported by historical data to near- and real-time data used in interactive analysis… We believe, based on our experience and nearly two decades of research on streaming SQL extensions, that using the same SQL semantics in a consistent manner is a productive and elegant way to unify these two modalities of data…
總的來說,表和流覆蓋了業務運營的關鍵範圍,從歷史數據支持的戰略決策到互動式分析中使用到的近實時數據。我們相信,基於我們的經驗和近 20 年對流式 SQL 擴展的研究,以一致的方式使用相同的 SQL 語義是統一這兩種數據模式的高效和優雅方式。
正如作者指出的一樣,過去許多年裡已經進行了很多前期工作,文章中也借鑒了很多其中大部分。最重要的是,它們是基於使用Apache Flink、Beam以及Calcite所獲得的經驗教訓。
相比於傳統的關係性視圖,流式應用多了一個Time概念。請注意,在一個用戶多次查詢中,一個可變的數據表實際上就是一個隨時間變化的表,即time-varying relation (TVR)。也就是說,任何一次查詢結果,都只是代表了那個時間點的表數據。
A time-varying relation is exactly what the name implies: a relationship whose contents may vary over time… The key insight, stated but under-utilized in prior work, is that streams and tables are two representations for one semantic object.
一個時變表就像它的名字所蘊含的一樣:表的數據內容可能隨著時間變化而變化。在以前的工作中,指出但未充分利用的觀點是,流和表是一個語義對象的兩個表示形式。
按照定義,TVR支持所有的關係型操作,即使在涉及時變關係數據的場景中也是如此。所以文中提出的第一個建議實際上就是no-op!所以讓我們使用它們,並明確說明SQL是在TVRs上操作的。
我們確實需要做一些擴展來支持event-time。我們尤其需要小心地區分event-time和processing-time。我們還需要理解,事件並不一定是按照事件時間順序呈現的。
We propose to support event time semantics via two concepts: explicit event timestamps and watermarks. Together, these allow correct event time calculation, such as grouping into intervals (or windows) of event time, to be effectively expressed and carried out without consuming unbounded resources.
我們提出通過兩個概念來支持event-time語義:顯式的時間時間戳以及watermarks。兩相結合,就可以正確地支持event-time計算,例如按時間窗口group,這樣可以高效的表達和計算,而無需消耗大量的資源。
Watermark可以追溯至Millwheel, Google Cloud Dataflow,直到Apache Beam and Apache Flink。在處理時間的每一刻,watermark確定了一個時間戳,這個時間戳確定在處理時間上事件完整性的時間界限。
文章第三塊講述了控制關係型數據如何呈現以及何時物化數據行。例如:查詢結果是立刻更新來反映任何輸入的新數據,還是在一個時間窗口末尾處展示完整的數據更新。
2. 示例
NEXmark(一個流式查詢的benckmark) Query7實現了一個監控競拍中最高價物品的邏輯。每10分鐘,查詢返回最高的bid及相關的itemid。
下面這張圖展示瞭如何使用Streaming SQL來表達。我沒有對業務邏輯做過多的描述,而是對查詢本身進了注釋。希望這已經足夠讓你們理解要點了。