自動駕駛汽車：綜述（五）---感知系統之交通信號檢測和識別

僅供學習和參考，未授權。
本文僅作為學習和交流使用，如果作者或出版社有異議，請聯繫我進行刪除。一切都是為了更好地學術！註：鏈接文獻後面的數字代表該文章發表的年份。如[[XU17]]表示的是Xu 在2017年發表文章

本文主要介紹了來自巴西聖埃斯皮里圖聯邦大學信息學系的研究者於2019年1月14日在 arXiv上發布了一篇自動駕駛汽車研究情況總結的第三部分感知系統中的交通信號檢測和識別

Self-Driving Cars: A Survey?

arxiv.org

交通信號檢測和識別子系統主要負責檢測和識別交通規則中定義的標誌。該系統是用來幫助汽車根據交通法則做出正確的決定。在交通信號檢測和識別中，有許多與交通信號相關的任務。這裡主要探討了三個主要交通信號檢測和識別的方向：交通信號燈、交通標誌和自動駕駛汽車周圍環境中的路面標記。

1）交通燈檢測和識別

交通燈檢測和識別涉及檢測汽車周圍環境中的一個或多個交通燈的位置（如，在圖像中表示）並識別它們的狀態（紅燈、綠燈和黃燈）。在文獻中已經提出了各種用於交通燈檢測和識別的方法。這裡，我們只給出最新和相關的文獻研究。有關更全面的評論，讀者可參考Jensen等人[JEN16]文獻。

交通燈檢測和識別的方法主要可分為兩類：基於模型和基於學習。交通信號燈在顏色和形狀信息方面具有明確的結構：常見的交通信號燈有三個燈泡（每個狀態一個：紅色，綠色和黃色）以及明確定義的形式。因此，早些時候，交通燈檢測和識別的大多數方法都是基於模型的。這些方法依賴於手工製作的特徵工程，該工程試圖利用人類關於對象的顏色和形狀的信息來構建能夠檢測和/或識別它的模型。當沒有嚴格遵守假設時，通過使用顏色[CAB12] [CAB15]和形狀信息[OMA10][TRE14] [SOO14]的方法魯棒性並不好。為了增強其魯棒性性，文獻[KOU12] [ZHA14][GOM14]提出了使用不同特徵（例如，顏色，形狀和結構）的組合。如，在[ZHA14]中，作者提出了一種多功能系統，它結合了顏色（使用顏色分割），形狀/結構（使用黑盒檢測）和地理信息（僅當已知交通信號燈使用時才使用系統）預期。然而，他們的系統受到基於模型的方法常見的問題---需要大量超參數調整，這也就意味著在某些情況下需要重新校準。作者在內部私人數據集上進行了實驗，在過曝、遮擋、交通信號燈的非標準安裝以及其他一些在實際情況下並不罕見的情況下基本模型的方法容易出現失敗。在基於模型的方法的背景下，這種組合顯示還不夠。因此，研究人員開始引入基於學習的方法。

在基於學習的方法中，功能仍然是手工製作的，但檢測和/或識別過程是從基於規則的變為基於學習的。級聯分類器[LIN04]可能是第一次嘗試基於學習的方法。最終，還研究了HOG和Gabor特徵與分類器（如SVM [JAN14]，AdaBoost [GON10]和JointBoost [HAL15]）的流行組合。最近，端到端方法（即，不需要手工製作的特徵）優於大多數基於模型的方法。約翰等人[JOH14]將GPS數據和交通燈位置資料庫用於識別圖像中的感興趣區域，並且採用卷積神經網路（CNN）來識別交通燈狀態。此外，最先進的通用物體檢測方法[REN17] [LIU16] [RED17]已成功應用於交通信號燈的檢測（通常無需識別其狀態）。全面地來說，這些通用深度物體檢測方法（或簡稱深度學習檢測方法）不提供交通燈檢測和識別任務的性能細分。儘管與基於模型的方法不同，然而這些深度學習檢測方法往往對過度曝光，顏色失真，遮擋等具有更強的魯棒性。關於應用於交通燈檢測的這些深度學習檢測方法的更完整的討論可以在Jensen等人[JEN17]的文章中找到。在那裡，作者在LISA [BOR15]數據集上應用YOLO [RED17]，並在使用LISA訓練集時達到90.49 ％AUC。但是，當使用來自其他數據集的訓練數據時，性能下降到58.3％。儘管如此，它仍然比以前的方法有所改進，並且它表明還有很多工作要做。基於學習的方法，尤其是那些使用深度學習的方法，需要大量帶注釋的數據。直到最近，只有帶有注釋紅綠燈的大型資料庫才能公開發布，為基於學習的方法提供支持和支持。如今，最常見的資料庫是LaRA [LAR11b]（11,179幀），LISA（43007幀），博世小交通燈[BEH17]（13,427幀），BDD [XIA18]（100,000幀）和Udacity [UDA18]（13,063）幀。注意，其中一些數據集報告了總幀數，幀數僅包含具有背景的幀數。

儘管在交通燈檢測和識別研究方面取得了進展，但對於研究自動駕駛汽車所使用的內容知之甚少。可能，主要原因是之一是2007年DARPA城市挑戰中沒有紅綠燈。挑戰的第一名和第二名（卡內基梅隆大學隊的車隊以及他們車「Boss」[URM08]和斯坦福大學的車隊以及他們車子「Junior」[MON08]）可以識別交通信號燈的複雜性城市環境，但是當時他們無法處理它們。 2010年，「Stadtpilot」項目在德國不倫瑞克的公路上展示了自動駕駛汽車「Leonie」[NOT11]。「Leonie」車使用來自地圖和Car-to-X（C2X）通信的交通燈位置信息來識別交通燈狀態。但是，在演示期間，當C2X不可用時，副駕駛員必須進入紅綠燈狀態。 2013年，卡內基梅隆大學在公路上測試了他們的無人駕駛汽車超過了一年[WEI13]，該汽車使用攝像頭檢測交通信號燈，並採用車輛到基礎設施（V2I）通信，通過從配備DSRC的交通信號燈中檢索信息。 2013年，梅賽德斯-賓士在德國歷史悠久的貝爾塔·本茨紀念路線上測試了他們的機器人汽車「Bertha」[ZIE14a]。「Bertha」使用視覺感測器和先前（手動）信息來檢測交通信號燈並識別其狀態[LIN04]。在論文中，他們也表示對於距離超過50米的交通燈檢測仍需要提高識別率。

2）交通標誌檢測和識別

交通標誌檢測和識別涉及檢測環境中的交通標誌的位置並識別它們的類別（如，限速、停止信號和普通讓行）。關於交通標誌檢測和識別方法的評論，讀者可參考Mogelmose等人[MOG12]和Gudigar等人[GUD16]的文章。

早些時候，大多數用於交通標誌檢測和識別的方法都是基於模型的[GAO06]，[BAR08]並使用了簡單的特徵（如，顏色、形狀和邊緣）來檢測識別的。後來，基於學習的方法（如SVM [LAF10]，級聯分類器[PET08]和LogitBoost [OVE11]）開始利用其簡單的功能，但演變為更複雜的功能（如，模式、外觀和模板）。然而，這些方法通常不能很好地概括，並且這些方法通常需要對幾個超參數進行微調。此外，一些方法可能由於數據的缺乏，僅用於識別而不用於檢測。只有在大型資料庫可用之後（如，眾所周知的德國交通標誌識別（GTSRB）[STA12]和檢測（GTSDB）[HOU13]基準數據，數據分別為51,839和900幀），基於學習的方法[MAT13] [HOU13]最終可以顯示出演算法的能力。儘管其中有一些方法只能夠應對更少的例子[SOU13a]。隨著更大型資料庫的發布（如超過20,000幀的STSD [LAR11]，6,610幀的LISA [BOR15]，用於檢測的25,634幀和用於分類的7,125幀的BTS[MAT13]，以及10萬幀數據的清華-騰訊100K[ZHU16]）,相比於基於模型的方法，基於學習的方法得到了改進，並取得了更好的結果。上述一些數據集報告的幀數包括僅具有背景的幀。隨著一般計算機視覺任務中深度學習的興起，卷積神經網路[ZHU16]是交通標誌檢測和識別中最先進技術（SOTA）。深度學習方法已經分別在GTSRB和和BTS的識別任務中實現了高達99.71％和98.86％的F1得分。

進一步，關於通過研究自動駕駛汽車進行交通標誌檢測和識別的內容幾乎沒有什麼可說的。同樣，這背後的主要驅動因素之一也許是在2007年DARPA城市挑戰中無人駕駛車只需要檢測和識別停車標誌，因為地圖上有關於速度限制和交叉路口處理的詳細信息[THR10]。一些研究人員（如「Bertha」[ZIE14a]）仍然傾向於依賴關於限速、通行權以及其他標誌的標註。其他研究人員[FER14]表示，他們的無人駕駛車可以處理交通標誌，但沒有提供有關其方法的信息。

3）路面標記檢測和識別

路面標記檢測和識別涉及檢測路面標記的位置並識別其類型（如，車道標記、道路標記、消息和人行橫道）。大多數研究一次只處理一種類型的路面標記，而不是同時處理所有類型的路面標記。這可能是因為在處理路面標記檢測和識別時，既沒有廣泛使用的資料庫也沒有關於研究人員應該關注哪組符號的共識。

一個重要的路面標記是道路中的車道定義。早些時候，大多數用於車道標記檢測的方法都是基於模型或學習的[MCC06]。形狀和顏色是最常見的特徵---直線和曲線（例如，拋物線[JUN05]和樣條[BER15]，[BER17c]）是最常見的車道表示。在[BER17c]中，作者提出了一個完整的系統來進行自我車道分析。在這些系統的特徵中，作者聲稱能夠檢測車道及其屬性、人行橫道、車道變換事件和一些路面標記。同時，作者還發布了用於評估這些類型系統的數據集。深度學習是另一種最近流行的流行方法，像[GUR16]這樣的方法已經顯示出非常好的結果。在[GUR16]中，作者提出（i）使用兩個橫向安裝的向下攝像機和（ii）將橫向距離估計建模為分類問題，並且通過使用CNN來完成任務。在這種情況下，他們認為在私人資料庫中，平均絕對誤差（MAE）小於2像素，可以達到亞厘米的精度。有關此類方法的綜述，讀者可參考Hillel等人[HIL14]的文章。

許多用於車道標記檢測的方法也被嘗試用於道路標記檢測。它們通常使用幾何和光度特徵[WU12]。此外，用於道路標記檢測和識別的各種方法使用了逆透視映射（IPM）來減少了透視效果，以此讓問題更容易解決並提高結果的準確性。最近，幾種方法[LEE17] [BAI17][AHM17]採用最大穩定極值區域（MSER）來檢測感興趣區域（即，可能包含道路標記的區域）和用卷積網路來識別道路標記。在[BAI17]中，作者提出了基於IPM、MSER和DBSCAN的演算法的融合來執行道路標記的檢測以及PCANet與SVM或線性回歸的組合以進行分類。雖然單獨評估分類任務時它們的準確度高達99.1％，但當檢測和識別的性能一起報告時，演算法的準確率降低到93.1％。

在道路標記的背景下，道路消息通常是單獨處理的。一些用於道路消息檢測和識別的方法[AHM17]將不同的消息視為不同的類別（即，演算法首先檢測場景中消息的位置，然後識別它們的類別），而大多數方法首先使用基於OCR的方法識別字母然後寫下[ HYE16][GRE15]。前者通常對天氣和光照條件更加穩健，但後者可以識別看不見的信息。

在道路標記的環境中，人行橫道也是經常被單獨處理。大多數人行橫道檢測方法利用了人行橫道通常呈現的規則形狀和黑白圖案[IVA08][FOU11]。因此，在許多實際應用中，這項任務被擱置，因為有強大的行人檢測方法。有關這些方法的綜述，讀者可參考Berriel等人[BER17b]的綜述，在文章中提出了一種基於學習的深度系統來檢測圖像中人行橫道的方式。作者提供了可以直接應用於此任務的預訓練模型。作者還發布了用於評估這些類型系統的數據集。深度學習是另一種最近流行的流行方法，像[GUR16]這樣的方法已經顯示出非常好的結果。在[GUR16]中，作者提出（i）使用兩個橫向安裝的向下攝像機和（ii）將橫向距離估計建模為分類問題，其中他們使用CNN來完成任務。在這種情況下，他們認為在私人資料庫中，平均絕對誤差（MAE）小於2像素，可以達到亞厘米的精度。有關此類方法的評論，讀者可參考Hillel等人的文章。 [HIL14]。

在道路標記的環境中，人行橫道仍經常被單獨檢測。大多數人行橫道檢測方法利用了人行橫道通常呈現的規則形狀和黑白圖案[IVA08] [FOU11]。因此，在許多實際應用中，這項任務不進行，因為強大的行人檢測演算法的支持。有關這些方法的綜述，讀者可參考Berriel等人[BER17b]的文章。文章提出了一種基於學習的深度系統來檢測圖像中人行橫道的方法。此外，作者提供了可以直接應用於此任務的預訓練模型。