「編者按」:高精度定位是發展自動駕駛不可或缺的底層技術之一,那麼,如何才能克服目前的技術侷限,確保高精度定位的連續性、完好性和高可用性呢?有人認為依靠視覺技術就能解決這個問題,有人認為雷達感測器必不可少…當前似乎仍無定論,讓我們一起理性地認識下這個問題。

5月21日,千尋位置視覺演算法專家李飛為「物聯網專業開發者分享羣」的羣友,講授了主題為「自動駕駛定位技術之爭:融合定位纔是出路」的線上公開課。以下內容根據李飛在公開課上的分享編輯整理。

內容簡介

1、高精度定位為何需要多種感測器?

2、視覺定位簡介

3、雷達定位簡介

4、小結和展望

課程實錄

一、高精度定位為何需要多種感測器?

自動駕駛的三大工作內容分別是感知、決策和執行。感知中很重要的一個部分就是定位,如果沒有精確的定位結果,後續的決策和執行無從談起。

試想,此刻你坐在一輛自動駕駛的汽車上,你最希望這輛車有什麼特點呢?是速度快、屏幕大、座椅舒適,還是顏色漂亮?其實都不是,大家最關心的還是這輛車是否安全可靠。通俗的講,安全就是不該發生的一定不會發生,可靠就是該發生的一定會發生。具體來說,自動駕駛中的汽車定位要達到安全可靠,需滿足以下四大性能指標:

  • 精度:測量值和真實值之間的重合度
  • 完好性:服務不可用時提出告警的能力
  • 連續性:告知客戶系統正常工作的持續能力
  • 可用性:提供符合指標定位服務的百分比

在高架下、高樓旁、隧道、地下車庫,以及有大量樹蔭場景下,汽車的高精度定位結果基於融合定位技術產生。常用的車載定位感測器包括GNSS、慣導、毫米波雷達、超聲波雷達、高精地圖、輪速記、激光雷達、攝像頭等。除了傳統的慣導外,雷達定位和視覺定位是能夠與GNSS進行融合定位,最具應用前景的技術方案。

二、視覺定位簡介

視覺定位是指用車載攝像頭拍攝環境圖像,跟已知的地圖元素做對比或以遞推方式計算車輛位置的定位方式,可分為絕對定位和相對定位。

其中實現絕對定位的素材來源主要有三類:①地面印刷物,包括路政部門在道路地面上印刷的車道線、斑馬線、導流帶、地面文字、地面圖標等,只要沒有施工塗改或使用磨損,這種語義特徵是非常穩定的;②空中語義對象,包括道路上空的道路標牌、交通標識、紅綠燈等,這些裝置的位置基本固定而且語義信息明確,也非常適合做定位;③街景,相對來說沒有前兩種方法主流。

再來看視覺相對定位,也就是現在比較流行的vSLAM(視覺同步定位和建圖)和VO(視覺里程計)。這兩個詞常常一起出現,前者包含後者,一般討論中都以vSLAM代替,其主要特點是提供後端的迴環和優化,但車輛正常行駛時,開出去以後短時間內幾乎不會再回到之前去過的地方,迴環的用途並不是很大,所以視覺定位中主要使用的還是VO。

vSLAM和VO的理論基礎是多視圖幾何,從上圖中可以看出,相機從不同位置拍攝同一個物體得到的圖像一定是相似而略有區別的。通過圖像處理方法,可以找到兩張圖像中一一對應的特徵點。當匹配的特徵點數量足夠時,通過求解單應矩陣或本質矩陣即可求得兩個相機之間的旋轉和平移關係,旋轉和平移合稱變換。當相機連續採集的數據構成一個視頻序列時,求解兩兩幀之間的變換並組合起來即可得到一條從起始位置出發到當前位置的軌跡。由於得到的是相對軌跡,SLAM本身並不能直接完成定位任務,還需要和絕對定位做融合。可以將其他感測器的數據放到SLAM框架中作為額外約束,也可以將視覺觀測或里程計的局部關係作為約束輸出給其他定位框架。

視覺定位的一般流程可分為四步:攝像頭採集圖像、圖像預處理、提取圖像特徵或提取語義、用多視圖幾何和優化方法求解位姿。視覺定位任務中的攝像頭需要考慮多種硬體因素。比如,為了讓視覺演算法在夜間也能運行,可選用紅外相機、星光相機,甚至熱成像相機;為了覆蓋不同的視場範圍,可選用廣角鏡頭、魚眼鏡頭、全視相機等;車載攝像頭有多種安裝位置和多種數量配置,用於定位任務的主要是前視單目或前視雙目。

圖為三種不同視場角的單目車載攝像頭的成像比較。

顯然,視場角小時取像範圍小,視場角大時取像範圍大。對同樣尺寸的CCD靶面,如果裝載了視場角較大的鏡頭,那麼圖像中每個物體的尺寸都要小得多。所以,大視場角有利於看到更多的東西,但它不利於完成某些視覺任務。

單目攝像頭還有一個顯著的弊端,就是無法分辨物體的尺度。比如,之前網上流傳的一個梗——道理我都懂,可是鴿子為什麼這麼大?

雙目視覺可用於解決尺度問題,很多生物包括人類都有兩隻眼睛,都屬於 「雙目系統」。左右目看到的物體略有不同,近處差別大,遠處差別小,通過這種視差就可以判斷物體的遠近。目前很多高端車型都安裝有雙目相機用於高級的ADAS功能,比如斯巴魯的雙目系統、捷豹的雙目系統。

我們所說的雙目,特指兩個相機內參一致的對稱設計,相機的光心和焦距稱為內參。左圖是小孔成像原理的相機模型。三維世界中的點(X,Y,Z)投影到成像面z=f上,得到二維像素坐標(u,v)。更詳細的公式推導,可參考計算機視覺的各種教材。

相機和某一參照物之間的旋轉平移稱為外參。如果是一個相機和一個機械臂的配置,求解外參的過程就是經典的手眼標定。求解兩個相機之間的關係就是雙目標定,在很多軟體中都提供了標定工具,比如MATLAB。兩個相機之間的距離稱為基線,基線是雙目系統最重要的參數,常見的雙目基線約為8到12釐米。

介紹完攝像頭硬體方面的基本知識後,再通過舉例簡單說明視覺定位的後續幾個步驟具體是如何完成的。

先看地面印刷物定位,通過採圖設備可以獲取地面上所有印刷物的圖像並生成矢量數據,而地面上每一個幾何要素的每一個角點都已提取確切的經緯度並記錄在資料庫中,將二者匹配即可反推車輛當前位置姿態。這種定位方式的優點是成本低,依賴的資源少,非常適合大規模推廣。

圖為韓國某大學製作的RoadSLAM:對前視相機採集的圖像做IPM逆透視變換後得到地面鳥瞰圖,然後對地面印刷物進行分割、分類、識別和匹配,該演算法中地面印刷物用於提供迴環檢測,輪速計用於提供軌跡遞推。

圖為DeepMotion深動科技運用地面印刷物定位的演示圖。

再來看基於空中語義對象的定位。首先根據衛星數據提供的經緯度和航向等確定車輛的大致位置,然後根據攝像頭攝取圖像中檢測的車道線、道路邊沿線等修正車輛的橫向定位,接著根據圖像中檢測的交通標識、道路標牌、紅綠燈、廣告牌等語義對象進一步修正縱向定位。

圖為HereMaps的語義對象定位演示,可以看出這種定位方式和衛星定位的原理幾乎是一樣的:攝像頭拍攝到多個語義對象,就相當於「觀測」到多個衛星信號,當語義對象的數量足夠且在空間中分佈比較均勻時,就能獲得較好的定位效果。

圖為 CivilMaps的語義對象定位演示。

三、雷達定位簡介

雷達有很多種,目前主流用於車輛定位的是激光雷達。AGV或機器人定位導航中常用的是二維激光雷達,可將其定位原理簡單理解為上方有一束激光向下照射,下方是一個鏡子不斷旋轉將激光轉為橫向掃描,激光打在不同距離物體上返回時間不同,據此就可以在掃描平面上獲得外圍環境的輪廓。不過,在自動駕駛領域,用的最多的還是三維激光雷達。

圖為三維激光雷達示意圖,多束激光的發射管和接收管按不同角度排列,中間裝有隔離板,按照一定的順序交錯發射避免相互幹擾,光源和接收器組件旋轉起來之後,即可獲得對周圍環境的多線掃描結果,形成一個三維坐標系中點的集合,稱之為點雲。

激光雷達定位可分為有圖定位和無圖定位兩類。

有圖定位分為建圖和用圖兩個步驟:建圖時將點雲逐幀疊加在車輛的運行軌跡上即可獲得點雲地圖。這裡所說的軌跡,可以是高精度組合慣導系統輸出的軌跡,也可以是點雲SLAM輸出的軌跡。

圖為使用16線條激光雷達構建的某園區的點雲地圖。

點雲直接建圖很可能生成體積特別巨大的點雲文件,原始點雲地圖並不適合大範圍使用。有的團隊在點雲壓縮方面做出了卓有成效的改進,例如Civil Maps號稱可以將1TB的點雲數據壓縮到只有8MB。這個壓縮比非常驚人,想必涉及了大量和場景相關、目標相關的工程技巧。

建立點雲地圖後,在該點雲地圖上對每一幀點雲運行NDT、ICP等匹配演算法就能獲得當前車輛的準確位置。

再來雷達定位中的無圖定位,和視覺里程計類似,將點雲兩兩幀之間匹配並組合後可以構造一個點雲里程計實現相對定位,例如開源軟體Autoware裏的點雲定位模塊。也可以提取點雲的平面特徵和角點特徵做匹配,構建點雲特徵里程計實現定位,例如開源演算法LOAM。

四、小結和展望

視覺定位方法已經開始逐步落地,未來的發展趨勢主要是:多相機組合定位,例如前視加後視的圖像同時輸入SLAM;視覺處理晶元的應用逐漸普及,演算法硬化到晶元中;相機參數能夠實現在線標定等。

激光雷達定位的主要缺點有三個:價格昂貴、壽命短、機械式激光雷達不能過車規。目前只有某些限定場景下的特種車輛會用到激光雷達定位,例如園區擺渡車、垃圾清掃車、礦區卡車、自動快遞小車等。激光雷達的發展趨勢主要是:固態產品一定會取代機械旋轉式產品、價格會越來越低、車上的安裝數量會越來越多。

脫離各種具體的器件,一言以蔽之:所有的GNSS、慣導、視覺、激光雷達、輪速計、高精地圖等都是感測器的一種;多種感測器獲得不同形式的觀測,用於生成不同類型和不同權重的約束,最終共同求解獲得定位結果。

GNSS以較低的成本和高可靠性提供了絕對定位能力,是自動駕駛必備的定位手段。在慣導融合定位的基礎上,視覺、雷達等新興感測器提供的相對定位、補充絕對定位、安全冗餘也是不可忽視的,未來自動駕駛的發展一定離不開感測器融合。

互動問答

坤:激光雷達受同頻照明燈影響嗎?

李飛:相同波長的話,是會受到影響的。而且如果多個激光雷達同時使用的話,也需要做一些安裝上的特別設計,否則一定會互相干擾。

Cindy_希希:車和雲端怎麼實現連通呢?藍牙、wifi?流量成本會不會很高?

李飛:車端和雲端實現通信常用4G或者5G,藍牙和wifi基本上是不會使用的。如果是僅僅是設備端濾波+雲端優化,傳輸的並不是圖像,所以流量成本並不會很大。如果需要傳輸圖像,那一定要用上5G了。

Ellis:谷歌的rtk slam 為啥只適合繪圖?

李飛:糾正一下谷歌的這個叫Cartographer,和RTK-SLAM以及其他公司的揹包一樣,搭載了激光雷達、相機和IMU,也可以搭載RTK,成本較高,設計就是用於製圖的。當然,其中的模塊提取出來後也可以用於定位。

飛科:高精地圖的更新頻率是怎樣的?

李飛:高精地圖的眾包實時更新是目前很火熱的概念,有的圖商號稱能夠以分鐘級來做更新。


推薦閱讀:

相關文章