追溯視覺高精度地圖的源頭——獲取曝光合理的圖像

10月18日，Momenta聯合猿圈帶來了Momenta Paper Reading第二季第六期：追溯視覺高精度地圖的源頭——獲取曝光合理的圖像。

在視覺高精度地圖的生產過程中，圖像的質量至關重要的，不合理的曝光會對SLAM、感知、跟蹤等演算法帶來更多的困難。同時，相機曝光在自動駕駛、機器人等領域都有廣泛的應用。

本次分享的論文是《Exposure Control using Bayesian Optimization based on Entropy Weighted Image Gradient》。為了評價相機的曝光質量，該論文設置了一個可以量化的指標，通過這個指標來優化曝光時間，並通過實驗來證明這種控制曝光策略的優越性。

分享嘉賓為 Momenta研發工程師、視覺高精度地圖採集設備的技術專家李曉東，他從相機的曝光過程引出目前高精度地圖的圖像數據所存在的問題，並分享論文所提出的評價圖片曝光水平的指標和控制相機曝光的策略。

直播回放

Momenta Paper Reading 第二季?

study.163.com

視覺高精度地圖初探

視覺高精度地圖

視覺高精度地圖的主要感測器是相機。在構建高精度地圖時，需要選取大量的語義特徵點，換言之，高精度地圖由大量的語義特徵點組合得到。因為高精度地圖的一個重要的作用是用於視覺定位，一般來說，越是固定的標誌，越有利於定位，也是越好的語義特徵點，例如，車道線、交通標誌、紅綠燈等。

傳統的SLAM或者SFM演算法都基於SIFT、ORB等人工設計的特徵點。在光照、視角發生變化的情況下，無法準確的檢測匹配原有特徵點。換句話說，光照視角發生變化後，原來構建的地圖就無法使用了。

地標的定義現在還沒有明確的標準，不同廠商從自己產品和技術需求出發，有不同的定義方式。

△高精度地圖

高精度地圖的「高精度」體現在兩個方面：

一是地圖的高精度。這個除了依靠高精度的建圖演算法以外，感測器的作用也不可小覷。以相機為例，在工業相機的參數中，經常會看到全局快門（global shutter）和捲簾快門（rolling shutter）這兩種快門的相機。全局快門是讓整個感測器每行像素全部在同一時間進行曝光，也就是所有像元同時曝光。捲簾快門是感測器開始曝光的時候，感光元件是從第一行、第二行、第三行... 這樣按照順序進行光線感測，一直到整片感光組件從上到下每一行都曝光完成為止，也就是不同行像元的曝光時間不同，這會給地圖的精度帶來一定的誤差。

二是定位的高精度，這部分主要是通過衛星定位、積分定位和匹配定位結合實現。

衛星定位普遍被稱為GPS定位，差分GPS是首先利用已知精確三維坐標的差分GPS基準臺，求得偽距修正量或位置修正量，再將這個修正量實時或事後發送給用戶（GPS導航儀），對用戶的測量數據進行修正，以提高GPS定位精度。差分GPS在開闊區域可以做到釐米級精度，但是城市中因為多路徑效應，會存在較大誤差。

積分定位是通過IMU或者視覺里程計實現的，這種方式在短時間內是精確的，但長時間的情況下也存在累積誤差。

匹配定位這種方式和人的定位方式很像，比如你走到一個曾經到過的地方，通過觀察周圍環境或者地標，在記憶地圖中搜索，匹配得出目前的定位。通過GPS的結合限定搜索範圍，可以做到快速準確匹配。

這三種方式各有優缺點，結合起來可以做到低成本、高精度、高可靠性，也是目前定位的發展方向。

困難與挑戰

目前，在構建高精度地圖的過程中遇到的主要困難與挑戰是數據的有效性不高和數據的精度不夠兩個方面。

一般來說，圖片質量、相機所在環境和天氣好壞狀況等都會對數據有效性產生影響，比如低解析度的圖片、霧雪雨等惡劣天氣會給識別帶來影響，或者感測器周圍的高壓電線會對GPS定位精度產生影響。

而相機快門類型、動態模糊情況以及數據的傳輸延時等都會對數據精度產生影響，本次的論文解讀主要介紹相機曝光帶來的誤差以及如何解決。

論文導讀

相機曝光有一個動態範圍，動態範圍（Dynamic Range）是可變化信號（例如聲音或光）最大值和最小值的比值。也可以用以10為底的對數（分貝）或以2為底的對數表示；在實際應用中，相機無論是過曝光還是欠曝光（兩者均屬於曝光的動態範圍之外），都會導致圖像的信息被損失。

曝光決定了一張圖片的亮度，不論它的色彩是否鮮艷又或者是否符合真值。無論是對SLAM還是感知，圖片的亮度都是非常關鍵的因素，因為這兩項技術絕大部分使用的都是灰度圖。圖片的亮度主要受相機的三個參數影響；光圈、快門和ISO（相機感光度）。

光圈，即相機鏡頭的進光孔徑，它與進光量成正比，與圖像清晰程度成反比，如下圖所示，這類現象在攝影中叫景深。第一幅圖的光圈非常大，其進光量會相應的變大，景深也會相應變小，因此圖片中比較清晰的部分只有前部的一朵花，後部就比較模糊。通常來講，一般情景中很難有機會使用如此大的光圈，因為相機大光圈的主要用途是在人像或者靜物的攝影上，地圖採集則需要保證圖片的清晰度，通常是使用小光圈來獲得更清晰的圖像，所以這可能對整個圖片的亮度帶來一些限制。

△光圈變化對比

當圖片亮度受限時，需要增大快門來進行調整。快門相當於相機的進光時間，也可以理解為整個圖片曝光的時間，快門時間越長，其進光量也會越大。如下圖對比所示，左側是短曝光圖片，右側是長曝光圖片，因為右側圖片拍攝時間很長且整個車流在運動，使它產生了比較漂亮的光軌，當然，為了保證兩張圖片的亮度基本相同，左圖採用了更大的光圈。若在我們相機上進行長時間曝光只會使圖片變得更加模糊，因為相機固定在在運動的車上，因此，過長的快門在實際應用中也是不可取的。

△曝光時間變化對比

ISO是指圖片的增益，ISO越高說明圖片對光的感應也越敏感，對於噪點的感應也會越強。因此，當增大ISO的時候，雖然圖片會變亮但是它的噪點也會變多，如下圖所示。

△ISO變化對比

因此光圈、快門和ISO這三個值的均衡是很關鍵的，通常會使用自動曝光來平衡這三個值。自動曝光，其實就是不斷的調整光圈、快門和ISO的大小，直到亮度滿足要求。

一般來說，相機在高動態範圍曝光（即相機的HDR模式）得到圖像的質量會更高。高動態範圍曝光是用來實現比普通數字圖像技術更大曝光動態範圍（即更大的明暗差別）的一組技術。

舉個例子，同樣的角度多拍幾張照片，2張，3張……甚至幾十張，這些照片的曝光依次增大，照片會依次變亮，也就是說，照片所表示的細節會由亮處向暗處改變。將拍攝的很多張圖片合成後，能夠保留更多的細節。

亮度如何纔算滿足要求呢？

相機的測光演算法會默認物體為18%的反射率進行曝光參數的調節，若灰度範圍是從0到255，18%反射率的灰度值就是128，這個灰度也被稱為中性灰，18%的反射率能給曝光提供一個合理的亮度，相對簡單粗暴的確定方法是平均亮度，若設定整個圖片的平均亮度是128，這能使整個圖像看起來亮度算是均勻的，但事實上這種方法有很大缺陷，其明亮部位並不明確。

為了能讓圖片更加的清晰，在實際使用中可以將光圈調小並固定，同時需要限制快門時間。因為快門時間過長也會導致圖片模糊，因此在地圖採集時，限制最大曝光時間為20毫秒，這樣即使曝光時間達到最大上限，圖片的模糊程度也不會太過明顯。在這種前提下利用自動曝光也是有侷限的，它在高動態、光照快速變化的場景中表現情況不佳，類似過橋洞或攝像頭突然看向窗戶、光源之類的場景。在SLAM中，對特徵點法、直接法、全景拼接以及視覺感知都會產生較大影響。

如何尋找一個更合適的曝光是《Exposure Control using Bayesian Optimization based on Entropy Weighted Image Gradient》這篇論文最主要的貢獻。下圖中的曲線是描述整個圖像信息量的，如果能使圖像信息量達到最大，那這就是想要找的最合適曝光。這個曲線表明，圖片從暗到亮，對應信息在逐漸增加，但當亮度繼續增大到一定值時，對應信息又會逐漸變少，因此中間這一幅圖它的亮度是最適中的，對應的曝光也就是我們想要的最佳曝光。

△圖像信息量

最主要的問題是，如何找到這個曲線以及用哪種指標來具體評價它，圖五是在採集高清圖像時遇到的典型場景，描述的是過隧道時的情況，在剛進入或駛出隧道時，曝光都是不理想的，無論是隧道裡面過亮還是隧道口過暗，對建圖都有一定的影響。因此，之前採用的自動曝光方式面對類似場景時應對不佳，目前採用HDR方式是連續拍攝四幅曝光不同的圖像，這相當於一直採用這四個固定的曝光，可以獲得較好曝光結果的場景。但遇到一些光線變化劇烈的狀況，HDR的表現可能就不會那麼令人滿意了。

△隧道實拍圖像

因此，我們需要找到合理控制曝光的方案。這篇文章中提供了一些思路，下圖所示是它的整體思路框架圖，從最初獲取圖像，再到基於熵和梯度進行融合。

△整體思路框架圖

這篇文章中借鑒了前人經歷過的一些場景，首先思考的是解決這種困境的方法，方法一是採用多張不同曝光值的多幅圖像融合，目前手機應用的就是這種方案，如果選擇HDR模式進行拍攝，就會拍攝出多組不同曝光值的圖片，再經過融合過程後，把亮一點的地方變暗，暗一點的地方變亮，就會使圖片整體動態範圍達到較高的效果。但隧道實拍這種情況不適合用這種方法進行採集，因為拍攝車輛一直在運動，不可能在某一個地點同時拍出四幅曝光不同的圖像，這就需要採用多個相機進行拍攝，無疑又增加了拍攝成本處理難度。

方法二是自動調整曝光時間，其研究分為三個方面，包括基於圖像亮度的研究、基於圖像熵的研究以及基於圖像梯度的研究。圖像的熵用來描述整個圖像的信息，如果能夠最大化圖像的熵，也可以在一定程度上認為其信息量達到最大，即其曝光達到了最合適的狀態。圖像梯度也比較類似，若能使圖片整體梯度達到最大化，認為像素間變化比較明顯，那就可以歸為比較優良的方案。但以上方法本身都具有一定缺陷，例如圖像在過曝過程中，其呈現一團白色而周圍則呈現黑色，白與黑之間的梯度是很大的，所以類似的這種情況是該方法解決不了的。

熵加權梯度公式

只有判斷出一幅圖像在何種參數設置時達到最佳，才能得到其最合理的曝光，熵加權梯度公式（見公式1）是這篇論文中提到的最關鍵的公式，主要由三個部分組成，其目的就是定義圖片包含的信息量。

公式1：熵加權梯度公式

第一部分是權重，權重是用該圖像的熵來組成的，公式2是比較經典的圖像熵公式，通過資訊理論中相關理論延展到二維圖像上，公式3表明，如果它與周圍的點都不相同則該點的熵就越大，如果它與周圍的點全部都相同，則它的熵便非常小。公式4對熵進行權值的運算，進而對權值進行歸一化處理，就能夠得到像素上每個點對應的權。

公式2

公式3

公式4

公式5

公式6

公式5所示的激活（π）函數，是通過某一個像素點的熵來計算的，得到激活函數的值應在-1到1的區間範圍內，利用α來控制曲線形狀，而τ是控制曲線左移右移的範圍，計算激活函數的目的是壓低過曝或者欠曝的區域，也就是壓低圖片中的飽和區域。如下圖所示，圖片飽和區域越大，其熵也就越小，因為飽和區域它的熵為零，如果它的熵為負，相當於對整個圖像的信息起到損失作用，因此最後計算得到的激活函數值也會越小。

公式6是評價飽和區域的一個公式，這個公式可以設置熵的閾值，例如熵在0.05以下便可以認為是飽和區域，一旦判斷為飽和，就會將值設為1，反之則設為0。只有設為1後面的值纔有意義，若值為0則其後面值就會被抹去。因此，公式5和6大幅的降低飽和區域的信息量。

△圖像熵和激活函數曲線

公式1的值也就是圖像的梯度，通過梯度加權它的熵進而得到整個圖像的metric，再減去後面對曝光的影響，整個過程可以分為兩個步驟，第一步首先計算圖像梯度，第二步計算圖像的熵，進而通過熵加權梯度，再通過得到的熵獲取飽和區域，即飽和區域的一個MASK。通過該MASK以及激活函數進行判斷，若飽和則其值為-1，否則其值為1，這樣獲得了其metric，對其進行求和得到整幅圖片的metric。採用其他方法，例如採取梯度作為metric來評價這幅圖像，進行幾組對比實驗，以及該論文提出的方法進行一個評測，對比實驗的結果進行比較。

評估

如下圖，在一幅走廊的場景中，相機是固定的，逐漸調整相機的曝光，從暗到亮，能夠得到它的metric曲線，按照其它方案所選取的最佳點是在圖中的這個位置（如下圖所示），縱軸代表圖像中信息的豐富程度，最高點代表該點取得的最佳曝光值，取得的最佳曝光就是圖中的這種效果，後面兩幅顯然是過曝的。

文章所提出得到metric在第三幅圖取得最大值，以肉眼來辨別這一張是比較合理的曝光，但能觀察到這條曲線在最佳位置後是比較水平的，所以無法確定它能否完全應對類似場景。

△走廊場景評估實驗

下圖所示是在室外的場景，該方法在室外場景中表現相對較好，在得到室外場景的最佳曝光時也取得了圖示位置的峯值，在過曝時曲線又會下降，因此這時是很容易取到最佳值的。

△室內場景評估實驗

曝光控制方法

根據前面提到過的metric進行曝光控制，曝光控制指的是假設整個曝光空間與metric只符合一個高斯分佈（如公式7），然後通過貝葉斯優化來獲得這個值。貝葉斯優化是指在函數曲線不明確的情況下，根據已有的一些值來判斷這個函數的最大值，也就是所要求的信息量最大時對應的曝光時間。input x和y表示輸入，x為輸入的曝光時間，y為對應的metric值。

公式7

根據一些初始化訓練這個模型，得到一些具體參數，便於後面進行預測，能夠較快速的達到最佳曝光點，這就是它收斂的過程。如下圖所示，藍色線表示ground truth，紅色線表示訓練和預測的結果。最初的時候沒有進行點的選擇，之後演算法自行選擇了一個點，使得這個曲線發生改變，在第一行選擇5個點後趨於收斂，進而在第二行選擇7個點後趨於收斂。在這之間選擇不同acquisition function作為貝葉斯優化裏的一個獲取函數，作用是判斷下一次取值，只要能達到最優，則函數的下一次取值即是下一次的曝光值，這就是該方法進行預測的方式。