ISSCC2019論文解析目錄:

1、Session 6 Ultra-High-Speed Wireline

ISSCC會議在集成電路設計的地位無容置疑。ISSCC2019剛剛結束,接下來我將在公眾號開啟一個新的系列,跟大家一起來讀今年的ISSCC論文。今天先來看看第6個session Ultra-High-Speed Wireline都講了些什麼。


在今年的ISSCC上,高速介面(wireline)方向受到了極大的關注。除了有兩個session的論文,在傍晚的現場展示環節,據我目測除了AI相關的晶元之外,最多的就是高速介面了,同時第一天的tutorial和最後一天的forum,也各有一個與高速串口相關。

我覺得這種火爆狀態會持續好幾年。預測是否能保持火爆可以看兩方面:一是需求是否在持續增長。這點無容置疑,現在的5G、AI晶元、數據中心、大型交換機都需要傳輸大量的數據,有數據傳輸的地方就需要高速串口。高速介面晶元作為基本的數據介面,在一個大系統裏必不可少,且不與5G、AI等熱點技術構成競爭關係,反而受到這些技術發展的帶動。二是現有的技術是否已經能夠滿足多年內的需求。目前來看,現在的高速介面晶元還沒有達到這一點,在能耗和最高的數據率上還有不少提高空間。

從這個session的論文,我們可以看到幾點整體發展趨勢:

1)儘管56G的市場出貨量還沒有起來,但業界已經開始了單通道112G的高速介面收發機設計。這是競爭帶來的結果,每個公司都儘力往前沖,不進則退,目前並沒有看到誰有不可超越的技術優勢,那出貨時間就顯得很重要了。當初我在設計56G的時候覺得,112G速度直接翻了一倍,做起來得有多難,真正做起112G時又覺得難歸難,但設計出來還可以。

2)高速介面這個方向非常非常非常喫先進工藝。這個session八篇論文,除了最後兩篇學校的論文,均採用16/14nm或者7nm的FinFET工藝。一方面,高速介面電路優化到最後,速度的天花板由工藝的極限決定,不採用先進工藝沒有辦法跟別人競爭。另一方面,高速介面的很多應用場景都是作為IP集成在一個更大的晶元之間,選擇工藝時需要考慮主流客戶會使用什麼工藝,否則別人沒法用你的IP。

3)由於太喫先進工藝,成本實在太高,學校已經很難在高速串口方面做出太多成果,主要的論文都是來自於工業界。業界玩家主要有博通、英特爾、inphi、xilinx、Nvidia等等,還有就是像我所在公司這樣的初創公司。博通大概是做的最好的,但是價格也貴。xilinx和Nvidia主要給自家做,不賣IP。市場上的IP供應選擇並不太多。

4)從技術上來說,56G的高速介面架構已經較為穩定,主流選擇是:RX基於DSP,Time Interleaved ADC,一般先4到8的Track/Hold,每個Track/Hold帶若干個ADC的Slice,TX採用Half Rate。均衡方面差不多都是CTLE、1-TAP DFE、若干TAP的FIR,以及TX-FFE。那56G接下來的技術挑戰就是低功耗、以及更強大的Adaptive功能。對於112G的高速介面,我覺得現在大家追求的目標是先做出來再說,功耗什麼的留給以後再優化,在架構選擇上可以看到一些趨勢,但還沒有穩定下來。

這個Session一共八篇論文,其中三篇56G,四篇112G。下面我們來看看每篇論文具體做了些什麼。

1) 100Gb/s 1.1pJ/b RX from IBM Zurich

這是我看到的第二篇超過單通道100Gb/s的RX論文,上一篇是Xilinx發在2018年的VLSI上,但這篇的能量效率比上一篇要小不少。

除了速度快之外,這篇最主要的亮點在於做了1-TAP Speculation的DFE。Speculation是常見的提高DFE速度的方案,對於NRZ信號來說還好,代價不算特別大。但對於PAM4,直接做Speculation的話需要12個比較器,額外的硬體代價比較大,所以PAM4 DFE speculation一直是個難點。這篇通過1+0.5D的脈衝響應,將比較器的數目從12個降低到了8個,起到節省功耗的目的。但這樣做的侷限在於,需要預先通過CTLE將channel的響應將將好調到1+0.5D,一般CTLE的可調範圍都有限,這點在實際的使用環境下可能做不到。現場有人問這個問題,如果channel loss很小,怎麼實現1+0.5D的響應。作者回答說假如channel loss很小,他們可以把DFE關掉,不用DFE。

我不確定產品中是否會喜歡這種方法。我覺得工程設計中存在這樣的準則:假如一個較簡單的方案已經能夠達到可接受的效果,那就不要使用更複雜的方案,因為複雜本身就是成本。

整個接收機的系統框圖如下。整體來看,採用了quad rate方案,降低時鐘分佈功耗。VGA直接驅動32個比較器,沒有用Track/Hold,這裡負載會稍微大一點,估計會成為帶寬的瓶頸,因此這裡加了一個電感拓展帶寬。SR出來之後還是4UI(25G)的高速數據,DSP是處理不了,通過DMUX降速到32UI再給DSP處理。CTLE裏沒有使用電感,這點很厲害,但是論文裏沒有給出CTLE單獨的測試結果。晶元的完成度還不太高,最終採用探針臺進行測試。

2)60Gb/s DSP Based TRX from Huawei Canada

這是一篇來自華為加拿大研究所的文章。

整體採用了較為通用的結構,接收端CTLE接4-路Time Interleaved的ADC,每路Track Hold驅動8個SAR ADC(2-7b可調),這差不多是基於DSP的56Gb/s RX的標準做法了。發射端採用Half Rate,帶Phase Interpolator,3個Tap的FFE,這些都是業界常用。

這篇文章的亮點在於晶元上集成了巨多的感測器(溫度、工藝、閾值電壓等等)、可調電路,理論上可以針對不同的channel、環境和BER要求去優化功耗。去年的ISSCC也有一篇類似的思路,通過改變Flash ADC的位數來調整Power/BER trade-off,感興趣可以去看看。華為的這篇可調的位置更多,完成度也更高,最後給的測試結果表明通過Adaptive大約可以降低30%的功耗。

但我有兩點疑問。一是成本問題。在模擬電路里,尤其是高速電路,每一個可調都是有成本的,晶體管開關總會引入額外的寄生電容寄生電阻,在這顆晶元裏這個成本有多大?相比帶來的好處值不值?論文裏沒有給出具體的數值,因此光看論文很難得出結論。二是Adaptive演算法問題。這裡面的調節點位實在太多了,而且很多是不相關的,需要處理工藝、溫度、channel損耗、BER等等,怎麼做Adaptive?這麼大的掃描空間,如果暴力掃描,那握手時間太長了,肯定沒法用。如果用一些策略,那會不會困在某個局部壞點出不來?如果不能很魯棒的Adaptive,那實用價值就少了很多。可惜這些數據同樣不可能從論文中看到。

還有一點,這篇的全局時鐘採用單端反相器來傳,應該可以省一些功耗。但似乎這樣用的很少,一般都是兩根線傳差分時鐘,理論上對電源地雜訊較好,而且對Return Path要求也較低。

3-4)56Gb/s DSP Based TRX from eSilicon and MediaTek

這兩篇論文較為類似,都是採用7nm的DSP Based 56Gb/s Transceiver。他們的結構也是很常用的結構,從論文上來看沒有太多可說的。假如現在讓我來做一個新的56G系統規劃,我也會選這兩種結構中的一種。但他們的功耗都做得極為出色,eSilicon的單通道功耗才243mW,MediaTek的只給出了模擬部分的功耗,才180mW,充分展示了這兩個公司的設計優化能力。

有一點有趣的地方是:MediaTek在RX端使用了4x8(4個Track/Hold,每個驅動8個SAR ADC Slice)的結構,這種是最常見的選擇。而eSilicon選擇了8x5(8個Track/Hold,每個驅動5個SAR ADC Slice),這樣他需要8個相位的8UI時鐘,在時鐘校準稍微複雜一點,一共8個Track/Hold,對前面CTLE引入的負載電容可能稍大,但每個Track/Hold的尺寸可以較小,每個Track/Hold有較長的時間來充放電。

最終哪一種結構較好?我可能傾向於4x8。但類似這種問題,似乎很難得到直接的證明。架構的比較取決於太多因素了。我們很少有機會把兩種架構都做成晶元,去測他們的性能直接對比。即使一種架構的測試結果稍好,那也有可能是這一組人的優化能力較強,不能直接證明架構的優勢。最終只能從架構的演化趨勢看出一點端倪。

5)100Gb/s PAM4 TRX from Inphi

又是一篇超過單通道100Gb/s的TRX,而且採用了DSP Based。

DSP based的100Gb/s的RX難點之一是ADC怎麼選。56Gb/s常用的是4x8的結構,這樣一個Slice的速度差不多875MHz。到了112G,Slice本身的速度很難翻一倍,那隻能採用空間換時間的策略,用更多路的time interleaved ADC來達到整體更高的速度。那麼總共需要64個slice,這64個slice怎麼分配呢,8x8還是16x4?這麼大的寄生電容怎麼來驅動?是一個超大的Buffer一起驅動這8個Track/Hold,還是分兩級?去年xilinx的112G RX論文就是一個大buffer驅動4個第二級buffer,然後每一個在驅動兩個Track/Hold。最終哪一種結構會勝出成為主流,現在還很難講。因為現在能做出112G的還太少了。

這篇inphi的論文在RX端選擇了16x4的結構,這樣VGA需要推動16個Track/Hold,而且從他的圖中VGA還沒有用電感拓展帶寬,我不知道他是怎麼神奇的做出這麼寬頻寬的。

100G的RX另一個難點是CTLE,又要寬頻、又要Peaking可調、又要保持線性度,設計難度很高。這篇裡面沒有集成CTLE。

TX方面這篇選擇了Half Rate結構,這是在超過100G的TX裏唯一一篇Half Rate的結構。Half Rate和Quad Rate相比,時鐘的頻率更高,因此更難傳輸。但是它簡化了MUX的設計,最後一級MUX是隻需要2:1即可,這是TX裏速度最高的節點,2:1相比於4:1可以減小很多寄生電容。儘管大部分100G TX選擇了Quad Rate,但我覺得不一定就比Half Rate有優勢。畢竟時鐘通路只需要單頻(窄帶)即可,而數據通路是寬頻的。窄帶電路比寬頻電路容易設計多了。這樣Half Rate實際上是把寬頻通路上的負擔轉移到窄帶上來,應該帶來優勢才對。一般說傳25GHz的時鐘太費電,但如果可以加電感和傳輸線做諧振的話,其實時鐘傳輸網路耗電量不會特別大。可惜這篇沒有給出時鐘和MUX電路的具體實現。

TX裏還用到了一個小技術,通過正反饋來提高反相器的速度,使上升下降沿更陡峭,其實有點類似均衡的概念。去年ISSCC有兩篇採用了類似做法。我仿過這樣的結構,應該是有效的,但要消耗更多功耗。

6)128Gb/s TX from IBM

這篇的亮點在於對4:1 MUX的優化。TX的結構和去年Intel的112G比較接近,也是採用CML的Driver。提一句,在56G採用SST作為TX Driver的居多。

高速串口的TX基本上就是一個Serilizer再加一個Driver。越往前速度越低,所以我們應該盡量簡化後級,把負擔推往前級速度比較低比較好處理的地方。這篇大致是這個思路。在MUX這一級去掉了Stack的時鐘晶體管,而在前級添加一些邏輯產生1UI的脈衝信號。

很多時候電路的優化都是在一個個trade-off之間做取捨。宏觀的指導思想就是把負擔留給更容易解決的地方去解決。這篇是把負擔推向前級速度較慢的電路,上一篇是把負擔推向窄帶的時鐘路徑。

7)112G TX in 40nm CMOS from Yuan Ze University

這是來自臺灣學術界的一篇論文,用40nm做出了112G的TX,非常令人印象深刻。話說我跟此文作者之前認識,碰過幾次面,還一起流過一次片。這篇論文即反映了學術界的無奈也反映了學術界應該選的方向。無奈在於拿不到/負擔不起最先進的工藝,只能在落後工藝下進行競爭;方向在於學術界還是應該追求極致優化,以展現技術為主。

憑空想一想,假如讓我在學校設計112G的TX的話:第一,FFE是必須的,否則眼睛打不開,沒法展現效果;第二,不要在乎可靠性,選擇金屬走線寬度時只考慮性能因素,寧願線被燒斷也要減小寄生電容;第三,不要選擇TX-DAC的結構,或者不要使用thermal code結構,將小cell合併成大cell,犧牲匹配換取速度;第四,適當的提高電源電壓;第五,只在低速點位設置可調,如偏置電壓等等,我們負擔不起在高速路徑上可調的成本。有了這些,應該勉強可以用落後工藝去拼一拼速度吧……

8)36Gb/s Adaptive CDR from University of Toronto

這篇略過……

寫到這裡,相信大家也看出來了,我之前本來是做射頻毫米波的,現在對高速介面也有了不少了解。這不得不感謝我現在所在的公司——eTopus Technology Inc.,我在這裡面學到了很多高速介面的電路設計經驗。

這裡我要主動為我們公司eTopus做點廣告,eTopus是一家總部位於矽谷,在香港和臺灣有分部的IC設計創業公司,專註於高速介面的設計。現在發展勢頭兇猛,短短几年,已經成功打入了業界最大高速介面晶元客戶的供應鏈——做IC設計行業的朋友都知道,從Demo到Production實際上有非常大的距離——這對創業公司非常難得,充分展示了我們處於業界第一梯隊的技術能力。

現在eTopus開放了大量的職位,如果你喜歡技術,並且有相關經驗,非常歡迎來瞭解一下。從這裡你將獲得:

1)享受高速介面快速發展紅利的機會;

2)從一個發展勢頭兇猛的矽谷初創公司獲得超額物質回報的機會;3)與一羣有著近二十年介面類電路設計經驗的專家共事的機會;4)解決技術挑戰帶來的成就感;5)接觸和學習16nm和7nm FinFET等最先進工藝的機會。

還有更多的好處就不一一列舉了。在www.etopus.com上可以看到公司介紹和具體的招聘信息。可郵件聯繫:[email protected]


本文為原創,未經許可,嚴謹轉載。如需轉載,請聯繫作者。

歡迎關注作者微信公眾號:haikun01


推薦閱讀:
相關文章