讓技術乾貨和年度總結來得更猛烈些吧!


2019年,整個AI行業的發展如何?

  • NLP模型不斷刷新成績,谷歌和Facebook你方唱罷我登場;
  • GAN在不斷進化,甚至能生成高解析度難辨真假的人臉;

  • 強化學習攻破了《星際2》等戰略遊戲。

讓人對到來的2020年充滿期待。

Analytics Vidhya發布了2019年AI技術回顧報告,總結了過去一年中,AI在不同技術領域取得的進展,並展望了2020年的新趨勢。

Analytics Vidhya是一個著名數據科學社區。其技術回顧報告由多位機器學習業內專家撰寫。

報告認為,在過去的一年中,發展最為迅猛的是NLP,CV已較為成熟,RL才剛剛起步,明年可能迎來大爆發。

量子位在報告基礎上,進行了編譯整理及補充。話不多說,一起來逐一盤點2019的那些AI技術吧:

自然語言處理(NLP):語言模型井噴,部署工具湧現

NLP在2019年實現了巨大的飛躍,該領域這一年取得的突破是無與倫比的。

報告認為,2018年是NLP的分水嶺,2019年本質上是在此基礎上進一步發展,讓該領域突飛猛進。

Transformer統治了NLP

自從2017年的論文Attention is All You Need發表以來,出現了BERT為代表的NLP模型。之後,Transformer一次又一次地在NLP領域中統治了SOTA結果。

谷歌的Transformer-XL是另一種基於Transformer的模型,在語言建模方面勝過BERT。隨後是OpenAI的GPT-2模型,它以其生成非常像人類的語言文字而聞名。

2019年下半年,BERT本身出現了許多創新,例如CMU的XLNet,Facebook AI的RoBERTa和mBERT(多語言BERT)。這些模型在RACE、SQuAD等測試榜上不斷刷新成績。

GPT-2則終於釋出完整版,開源15億參數模型。

GPT-2模型地址:

https://openai.com/blog/gpt-2-1-5b-release/

延伸閱讀

BERT重奪多項測試第一名,改進之後性能追上XLNet,現已開源預訓練模型

模仿川普語氣真假難分,康奈爾盲測15億參數模型:從未如此逼真,最強編故事AI完全體來了

大型預訓練語言模型成常態

遷移學習是2019年NLP領域出現的另一趨勢。我們開始看到多語言模型,這些模型在大型的未標記文本語料庫上進行了預訓練,從而使它們能夠學習語言本身的潛在細微差別。

GPT-2、Transformer-XL等模型幾乎可以對所有NLP任務進行微調,並且可以在相對較少的數據下很好地運行。

像百度的ERNIE 2.0這樣的模型引入了持續預訓練的概念,預訓練方法有了很大的進步。在此框架中,可以隨時逐步引入不同的自定義任務。

新的測試標準推出

隨著一系列NLP新模型帶來了巨大性能提升,它們的測試分數也已經達到了上限,分差很小,甚至在GLUE測試中超過了人類的平均水平。

因此這些測試基準已經不足以反映NLP模型的發展水平,也不利於未來的進一步提高。

DeepMind、紐約大學、華盛頓大學聯合Facebook提出了新的測試標準SuperGLUE,加入了更難的因果推理任務,對NLP模型提出了新的挑戰。

開始考慮NLP的工程和部署

2019年出現了一大批實用的NLP資源:

斯坦福大學開源的StanfordNLP庫,HuggingFace的Transformer預訓練模型庫。spaCy利用該庫創建了spacy-transformers,這是一種用於文本處理的工業級庫。

斯坦福NLP小組表示:「與我們在2019年訓練的大型語言模型一樣,我們還將重點放在優化這些模型上。」

像BERT,Transformer-XL,GPT-2這些大型模型的問題在於,它們的計算量很大,因此在現實中使用它們幾乎是不切實際的。

HuggingFace的DistilBERT顯示,可以將BERT模型的大小減少40%,同時保留其97%的語言理解能力,並且速度提高60%。

谷歌和豐田研究出了另一種減小BERT模型尺寸的方法ALBERT,它在3個NLP基準測試(GLUE,SQuAD,RACE)上獲得了SOTA的成績。

延伸閱讀

GitHub萬星NLP資源大升級:實現Pytorch和TF深度互操作,集成32個最新預訓練模型

對語音識別的興趣增加

NLP領域在2019年重新燃起了對英偉達NeMo等框架開發音頻數據的興趣,該框架使端到端自動語音識別系統的模型訓練變得異常輕鬆。

除了NeMo之外,英偉達還開源了QuartzNet,QuartzNet 另一個基於Jasper的新的端到端語音識別模型架構,Jasper是一種小型,高效的語音識別模型。

更關注多語言模型

在能夠使用多語言數據之前,NLP如何真正發揮作用?

今年,人們對重新探索NLP庫(例如StanfordNLP)的多語言途徑有了新的興趣,這些途徑帶有經過預先訓練的模型,可以處理50多種人類語言的文本。您可以想像,這對社區產生了巨大影響。

然後,成功嘗試通過Facebook AI的XLM mBERT(超過100種語言)和CamemBERT 等項目來創建像BERT這樣的大型語言模型,該項目針對法語進行了微調:

2020年趨勢

以上是2019年NLP領域進展的總結,2020年該領域會有哪些趨勢呢?

身為NLP專家、Kaggle Grandmaster的Sudalai Rajkumar推測了2020年的主要趨勢:

延續當前趨勢,在更大的數據集上訓練更大的深度學習模型;

構建更多的生產應用程序,較小的NLP模型將對此有所幫助;手動注釋文本數據的成本很高,因此半監督標記方法可能會變得很重要;NLP模型的可解釋性,瞭解模型在進行公正決策時學到的知識。

NLP領域學者、ULMFiT的作者之一Sebastian Ruder認為:

不僅會從龐大的數據集中學習,還會看到更多的模型在更少樣本上高效地學習;

模型越來越強調稀疏性和效率;

重點關注多語言的更多數據集。

計算機視覺(CV):圖像分割愈發精細,AI造假愈演愈真

計算機視覺方面,今年CVPR、ICCV等國際頂會接收論文數量均有大幅增長。下面,就來回顧2019最受矚目的幾種重要演算法和實現。

何愷明Mask R-CNN正在被超越

Mask Scoring R-CNN

在COCO圖像實例分割任務上,Mask Scoring R-CNN超越了何愷明的Mask R-CNN,並因此中選計算機視覺頂會CVPR 2019的口頭報告。

在Mask R-CNN這樣的模型中,實例分類的置信度被當作mask的質量衡量指標,但實際上mask的質量和分類的質量並沒有很強的相關性。

華中科技大學的這篇文章針對這個問題進行了研究,他們提出了一種新的打分方法:mask score。

不僅僅直接依靠檢測得到分類得分,Mask Scoring R-CNN模型還單獨學習了一個針對mask的得分規則:MaskloU head。

同時考慮分類得分和蒙版得分,Mask Scoring R-CNN就能更加公正地評估演算法質量,提高實例分割模型的性能。

研究團隊在COCO數據集上進行了實驗,結果表明Mask Scoring R-CNN在不同的基幹網路上,AP提升始終在1.5%左右。

這篇論文被Open Data Science評為2019年第一季度十佳論文之一。

論文一作是地平線實習生黃釗金,來自華中科技大學電信學院副教授王興剛的團隊,王興剛也是這篇論文的作者之一。

SOLO

位元組跳動實習生王鑫龍提出的實例分割新方法SOLO,作為一種單階段實例分割方法,框架更簡單,但性能同樣超過了Mask R-CNN。

SOLO方法的核心思想是,將實例分割問題重新定義為類別感知預測問題和實例感知掩碼生成問題。

COCO數據集上的實驗結果表明,SOLO的效果普遍超過此前的單階段實例分割主流方法,在一些指標上還超過了增強版Mask R-CNN。

相關地址

https://arxiv.org/abs/1903.00241v1

https://arxiv.org/abs/1912.04488

延伸閱讀

性能超越何愷明Mask R-CNN!華科碩士生開源圖像分割新方法 | CVPR19 Oral

位元組跳動實習生提出實例分割新方法:性能超過何愷明Mask R-CNN

EfficientNet

EfficientNet是一種模型縮放方法,由谷歌基於AutoML開發,在ImageNet測試中實現了84.1%的準確率,刷新記錄。

雖然準確率只比在其之前的SOTA模型Gpipe提高了0.1%,但模型更小更快,參數量和FLOPs都大幅減少,效率提升10倍之多。

其作者是來自谷歌大腦的工程師Mingxing Tan和首席科學家Quoc V. Le。

相關地址

GitHub:

https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet

論文:

https://arxiv.org/abs/1905.11946

延伸閱讀

谷歌開源縮放模型EfficientNets:ImageNet準確率創紀錄,效率提高10倍

Detectron2

這項超強PyTorch目標檢測庫來自Facebook。

比起初代Detectron,它訓練比從前更快,功能比從前更全,支持的模型也比從前更豐盛。一度登上GitHub熱榜第一。

實際上,Detectron2是對初代Detectron的完全重寫:初代是在Caffe2裏實現的,而為了更快地迭代模型設計和實驗,Detectron2是在PyTorch裏從零開始寫成的。

並且,Detectron2實現了模塊化,用戶可以把自己定製的模塊實現,加到一個目標檢測系統的任何部分裏去。

這意味著許多的新研究,都能用幾百行代碼寫成,並且可以把新實現的部分,跟核心Detectron2庫完全分開。

Detectron2在一代所有可用模型的基礎上(Faster R-CNN,Mask R-CNN,RetinaNet,DensePose),還加入了了Cascade R-NN,Panoptic FPN,以及TensorMask等新模型。

相關地址

GitHub:

https://github.com/facebookresearch/detectron2

延伸閱讀

GitHub趨勢榜第一:超強PyTorch目標檢測庫Detectron2,訓練更快,支持更多任務

更強的GAN們

2019年,GAN們依然活躍。

比如同樣來自Google DeepMind的VQ-VAE二代,生成的圖像比BigGAN更加高清逼真,而且更具多樣性:

https://arxiv.org/abs/1906.00446

BigBiGAN,不僅能生成質量優秀的圖像,還在圖像分類任務上刷新了記錄:

https://arxiv.org/abs/1907.02544

以色列理工學院和谷歌聯合出品,拿下ICCV2019最佳論文的SinGAN

https://arxiv.org/abs/1905.01164

英偉達的StyleGAN也高能進化成為StyleGAN2,彌補了第一代的各種缺陷:

https://arxiv.org/abs/1912.04958

延伸閱讀

史上最佳GAN被超越!生成人臉動物高清大圖真假難辨,DeepMind發布二代VQ-VAE

刷新ImageNet紀錄,GAN不只會造假!DeepMind用它做圖像分類,秒殺職業分類AI

ICCV2019最佳論文SinGAN全面解讀,看這一篇就懂了

如果沒有StyleGAN2,真以為初代就是巔峯了:英偉達人臉生成器高能進化,彌補重大缺陷

2020年趨勢

展望2020年,Analytics Vidhya認為,視覺領域的重點,依然會聚焦在GAN上:

styleGAN2等新方法正在生成越來越逼真的面部圖像,檢測DeepFake將變得越來越重要。視覺和(音頻)都將朝向這個方向進行更多研究。

而元學習和半監督學習,則是2020年的另一大重點研究方向。

強化學習(RL):星際DOTA雙雙告破,可用性更強

2019年,現有的強化方法擴展到了更大的計算資源方面,並取得了一定的進展。

在過去的一年裡,強化學習解決了一系列過去難以解決的複雜環境問題,比如在Dota2和星際2等遊戲中戰勝了人類頂尖職業玩家。

報告指出,儘管這些進展引起了媒體行業極大的關注,但是當前的方法還是存在著一些問題:

需要大量的訓練數據,只有在有足夠準確和快速的模擬環境的情況下,才能獲得訓練數據。許多電子遊戲就是這種情況,但大多數現實世界中的問題卻不是這樣。

由於採用了這種訓練模式,因此,大規模的強化學習演算法,感覺就像只是在問題空間的過度密集採過度產生的策略 ,而不是讓它學習環境中的潛在因果關係並智能地進行概括。同樣,幾乎所有現有的Deep RL方法在對抗性樣本、領域外泛化和單樣本學習方面都非常脆弱,目前還沒有好的解決方案。

因此,Deep RL的主要挑戰是逐漸從應對確定性的環境,轉向專註於更基本的進步,例如泛化、轉移學習和從有限數據中學習等等。從一些機構的研究趨勢中,我們可以看出這一點。

首先OpenAI發布了一套類似於健身房的新環境,該環境使用過程級別生成來測試Deep RL演算法的泛化能力。

許多研究人員開始質疑並重新評估我們對「智能」的實際定義。我們開始更好地瞭解神經網路的未被發現的弱點,並利用這些知識來建立更好的模型。

延伸閱讀

1-10落敗,5分鐘崩盤!星際2職業高手史上首次被AI擊潰,AlphaStar一戰成名

碾壓99.8%人類對手,三種族都達宗師級!星際AI登上Nature,技術首次完整披露

2:0!Dota2世界冠軍OG被OpenAI碾壓,全程人類只推掉兩座外塔

Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終於放出

2020年趨勢

總而言之,2020年的預測趨勢如下:

從有限的數據中學習和推廣將成為強化學習研究的中心主題;

強化學習領域的突破與深度學習領域的進步緊密相關;將有越來越多的研究利用生成模型的力量來增強各種訓練過程。

交叉型研究:AI深入多學科研究

隨著人工智慧技術的發展,跨學科研究也成為了今年的熱門。AI的身影,頻現於醫學、腦機介面乃至數學研究當中。

腦機介面

在馬斯克、Facebook紛紛押注的腦機介面領域,深度學習正在幫助研究人員解碼大腦所想。

比如加州大學舊金山分校這項登上Nature的研究:利用深度學習直接讀懂大腦,將大腦信號轉換成語音。

此前的語音合成腦機介面每分鐘只能生成8個單詞,而這項研究中的新裝置,每分鐘能生成150個單詞,接近人類自然語速。

醫學

在醫學領域,機器學習技術也不僅僅在醫療影像識別上發揮作用。

比如,德國組織工程和再生醫學研究所的一項研究,就利用深度學習演算法DeepMACT,自動檢測和分析了整個小鼠身體中的癌症轉移竈。

基於這項技術,科學家首次觀察到了單個癌細胞形成的微小轉移位點,並且把工作效率提高了300倍以上。

「目前,腫瘤臨牀試驗的成功率約為5% 。我們相信DeepMACT技術可以大大改善臨牀前研究的藥物開發過程。因此,這可能有助於為臨牀試驗找到更強大的候選藥物,並有望幫助挽救許多生命。」研究的通訊作者Ali Ertürk表示。

數學

雖說數學是自然科學的基礎,但在AI不斷的發展下,也起到了一定「反哺」作用。

Facebook發表的一項新模型,可以在1秒時間內,精確求解微分方程、不定積分。

不僅如此,性能還超越了常用的Mathematica和Matlab。

積分方程和微分方程,都可以視作將一個表達式轉換為另一個表達式,研究人員認為,這是機器翻譯的一個特殊實例,可以用NLP的方法來解決。

方法主要分為四步:

  • 將數學表達式以樹的形式表示;
  • 引入了seq2seq模型;
  • 生成隨機表達式;
  • 計算表達式的數量。

研究人員在一個擁有5000個方程的數據集中,對模型求解微積分方程的準確率進行了評估。

結果表明,對於微分方程,波束搜索解碼能大大提高模型的準確率。

在包含500個方程的測試集上,商業軟體中表現最好的是Mathematica。

而當新方法進行大小為50的波束搜索時,模型準確率就從81.2%提升到了97%,遠勝於Mathematica(77.2%)

並且,在某一些Mathematica和Matlab無力解決的問題上,新模型都給出了有效解。

展望2020年機器學習

從NLP到計算機視覺,再到強化學習,2020年有很多值得期待的東西。以下是Analytics Vidhya預測的2020年的一些關鍵趨勢:

到2020年,機器學習的職位數量將繼續呈指數級增長。很大程度上是由於NLP的發展,許多公司將尋求擴大團隊,這是進入該領域的好時機。

數據工程師的作用將更加重要。AutoML在2018年起飛,但並沒有在2019年達到預期高度。明年,隨著AWS和Google Cloud的現成解決方案變得更加突出,我們應該更多地關注這一點。2020年將是我們終於看到強化學習突破的一年嗎?幾年來一直處於低迷狀態,因為將研究解決方案轉移到現實世界已證明是一個主要障礙。

最後,不妨比照2018的回顧報告,給2019年AI技術表現打個分吧~

一文看盡2018全年AI技術大突破

—完—

@量子位 · 追蹤AI技術和產品新動態

深有感觸的朋友,歡迎贊同、關注、分享三連?? ? ?


我來談一談計算機視覺領域的進展吧。一句話總結就是:計算機視覺突破固化,OCR引擎更具商用價值。

從人臉識別到 AI 換臉,再到對換臉的檢測,構建更加可信的 AI 體系;從 OCR 對簡單名片的掃描,到任意場景圖像中對任意語言、任意列印和手寫字體文字的精確識別,再到其在 RPA(Robotic Process Automation,機器人流程自動化)場景中的實際應用,大大提升企業運營效率;計算機視覺相關技術的發展勢如破竹,並且總是掀起一波又一波的探討與關注。

為了進一步加快計算機視覺技術在實際應用的成熟落地, 微軟亞洲研究院在多個方面都取得了突破性的進展。其中有些大大提升了實驗室環境下識別的性能和準確率,例如,不侷限於圖像分類的、面向更為廣泛的視覺識別應用(如圖像分割、姿態估計等)網路架構的設計;在視覺和語言結合的交叉領域,新的多模態預訓練問題。而有些突破則與實際應用場景結合得更加緊密,如對 AI 換臉的辨識;在商業文檔、票據場景中 OCR 的應用等。

(註:關注微信公眾號:微軟研究院AI頭條(ID:MSRAsia),搜索「計算機視覺領域2019推薦論文列表」,即可查看文中提及的相關論文詳細信息列表)

HRNet:更廣的網路結構,突破固化模式

自2012年 AlexNet 被提出以來,深度卷積神經網路結構的設計經歷了許多模式的變遷,大致有三種維度的拓展:更深,運用 highway、residual connections 或者 skip connections 有效地訓練深度神經網路;更寬,利用多分支網路來增加網路寬度;更輕,利用組卷積、參數和響應量化等減小網路冗餘。

目前主流的結構,包括 AlexNet、VGGNet、GoogleNet、ResNet、DenseNet 等,基本上都是為圖像分類設計的,沿用了之前 LeNet-5 的設計模式,即卷積是從高解析度到低解析度串聯起來的,因而只能學到空間粗粒度的低解析度表徵。而用於目標檢測、圖像語義分割、人體骨架點檢測、人臉關鍵點檢測等其他任務高解析度表徵學習網路,如 Hourglass、U-Net、Encoder-decoder、SegNet、DeconvNet、FPN 等,基本把用於分類的低解析度網路結構作為主幹網路,附加額外串聯的卷積網路分支以恢復高解析度。

在微軟亞洲研究院看來,這些設計中有兩點值得反思:學習高解析度表徵網路一定要從用於分類的低解析度網路結構出發?或者把它作為主幹嗎?表徵的解析度一定要逐步減小,然後恢復嗎?

基於此,微軟亞洲研究院提出了一種新型的、「更廣」的網路結構High-Resolution Network (HRNet)[1],試圖改變上述兩個固化的、近乎標準化的網路設計模式。

HRNet 網路架構

HRNet 在整個過程中始終保持有高解析度表徵,每個解析度的卷積形成一個分支,然後把多個分支並聯,進行多次不同解析度表徵的信息融合,以學到空間精度高、語義強、高解析度的表徵。HRNet 適用範圍廣泛,可以適用於圖像分類,特別是在目標檢測、圖像語義分割、人體骨架點檢測、人臉關鍵點檢測等任務都取得了領先的結果。其代碼也已開源,被計算機視覺等領域的同行廣泛接受並使用。

VL-BERT:多模態預訓練

預訓練+微調是深度學習應用的一個重要範式。通常來說深度學習依賴於大量標註數據,因此主要適用於擁有大量標註數據的任務和場景,但預訓練範式的出現,使得深度學習方法也能廣泛並有效地應用於具有中等或少量標註數據量的任務。

在計算機視覺與自然語言處理領域,儘管使用單模態的預訓練模型已被廣泛證明可提高下游任務性能,但針對多模態學習的任務,單模態預訓練模型無法幫助其捕捉多模態數據間的關聯關係。

由此,微軟亞洲研究院提出了針對多模態數據的預訓練模型 VL-BERT [2],在大規模圖片文本數據集中進行多模態聯合預訓練後得到的模型,可幫助關聯與對齊不同模態數據間的線索,在視覺問答、視覺常識推理與引用表達式理解等下游多模態聯合理解任務中均有顯著的性能提升。

VL-BERT 網路架構

讓假臉無處遁形的新演算法

最近 AI 換臉技術發展迅速,例如此前在全球引起軒然大波的 DeepFake,我們前段時間也介紹了更多 AI 換臉的技術和應用。這些逼真的換臉圖片讓人難辨真假,信任與安全都受到威脅。為瞭解決這個問題,學界與業界正在研究如何利用 AI 技術去反向鑒別圖像、視頻的真偽。

AI 換臉與換臉鑒別如同一場攻防戰,目前,最常被使用的 AI 換臉演算法有三種:DeepFake、FaceSwap 和 Face2Face。微軟亞洲研究院研發的換臉鑒別演算法,對人臉合成時難以處理的細節進行檢查,如眼鏡、牙齒、頭髮邊緣、臉部輪廓,將它們作為演算法關注的重點,從而提高識別準確率。在 FaceForensics++ 資料庫的測試結果也均超越了人類肉眼的識別率以及此前業界的最好水平:對於 DeepFake,FaceSwap 和 Face2Face 的鑒別率均超過99.6%。

微軟新一代 OCR 引擎:更具商用價值

光學字元識別(OCR)是計算機視覺的重要組成部分之一,它能夠檢測、識別圖片中的文本信息並將其轉換成計算機文字,目前已被廣泛應用於各種企業級和消費級應用場景中,如在機器人流程自動化場景中,可利用 OCR 和文檔理解技術來實現商業文檔票據的信息抽取及錄入、內容審核、歸納搜索等日常文檔處理任務的自動化處理;在增強現實場景中,利用 OCR 技術來提取圖像或視頻中的文字來幫助用戶進行信息檢索或者翻譯。

微軟亞洲研究院發現,近年來的學術研究主要集中在如街景這樣的自然場景圖像的文字檢測和識別上,而忽略了商業文檔、票據場景。過去的一年,微軟亞洲研究院一直致力於新一代 OCR 引擎的研發,以滿足更多場景的需求。

通用文字檢測:文本行檢測準確率大幅提升

通用文字檢測的目標是主要利用圖像紋理信息,檢測出任意場景圖像中任意語言、任意列印和手寫字體文字的精確位置。根據所檢測文字的粒度,常用的文字檢測演算法可以劃分為三類:字元級別、詞級別和文本行級別。由於單獨依靠圖像紋理信息很難精確標註出所有語言字元級別和詞級別的外接框,比如,對於英文連筆手寫,很難精確地標註出所有字母的外接框;對於中文,由於單詞之間沒有空格,無法直接依靠圖像紋理信息來標註詞的外接框,因此,研究員們認為,文本行級別的文字檢測演算法更適用於通用文字檢測。

從圖像中檢測出任意形狀文本行的精準外接框是一個非常困難的研究問題,這是因為圖像中的文本行具有極大的多樣性,比如具有各種各樣的形狀、大小、方向、排版方式、字元間距,包含各種語言、字元、字體、風格,可能受到拍攝環境的影響產生變形(如透視變換、仿射變換等)、殘缺、模糊斷裂、非均勻光照等等。

相較於其它物體檢測任務,文字檢測任務對檢測出的外接框的精準度要求更高,因為微小的偏差會導致字元的漏檢。此外,某些自然場景圖像中可能包含與文字非常類似的背景紋理,極易造成誤檢。對此,工業界和學術界都投入了大量資源來尋找解決方案,眾多基於卷積神經網路的新型文字檢測演算法湧現出來,並大致可以分為兩類。

一類是把文字檢測看成是一種特殊的物體檢測或者實例分割問題,然後改進最先進的物體檢測或者實例分割框架如 Faster R-CNN, Mask R-CNN 等來檢測任意形狀的文字。這類演算法對於檢測拉丁單詞很有效,但是受限於區域生成網路(Region Proposal Network,RPN)的侷限性,難以有效檢測密集長文本行。另一類演算法是先用物體檢測演算法檢測出文本行片段或用圖像分割演算法從像素級別分割出文本區域,然後利用拼行演算法把文本行片段或文本像素串成文本行,這類演算法的難點在於,如何有效地將文本行片段或文本像素串成文本行。相較於基於文本行片段的演算法,目前基於像素的演算法在任意形狀文字檢測公開數據集上可以得到更好的結果。儘管如此,基於像素的演算法仍然無法有效解決文本行中字元間距較大的問題,這一問題廣泛存在於中文票據、菜單等場景中。

為了進一步解決這些問題,微軟亞洲研究院創新地提出了一套基於關係網路(Relation Network)的新型文字檢測框架[3],主要思想是將文字檢測看成是視覺關係檢測(Visual Relationship Detection)問題而非物體檢測或實例分割問題。

基於關係網路(Relation Network)的新型文字檢測框架

具體來說,針對文字檢測中的一些子問題(如拼行、冗餘檢測框抑制等),先用物體檢測演算法檢測出不同粒度的文本基元,然後將這些具體問題抽象為基元之間相應關係的預測問題,再利用關係網路預測這些關係。例如,為瞭解決文本行拼行問題,文本基元可以定義為文本片段,然後先檢測出文本片段,再用關係網路去預測臨近片段是否有「連接」關係。實驗表明,關係網路可以有效利用上下文信息提高較遠文本片段「連接」關係預測的準確率,文本行檢測的準確率也大大提升。

除此之外,為了得到更高質量的文本行片段預測,微軟亞洲研究院的研究員們發現之前主流物體檢測框架中的區域生成網路(RPN)受限於錨點(anchor)設計的缺陷,無法高效預測任意方向的文本框,於是提出了 anchor-free RPN 的物體檢測演算法[4]。該演算法不僅在單詞級別的文字檢測任務上取得了很好的結果,而且類似思想在當前物體檢測領域也成為主流方法之一。

通用文字識別:大規模並行訓練,模型壓縮

將檢測模塊得到的文本行圖像數據歸一化到固定高度之後,需要使用通用文字識別技術,將圖像對應的文本內容識別出來。文本行圖像數據由於受光照、幾何變換、背景、字體、風格、解析度等的影響,形狀紋理尺寸變化多端,對識別工作提出了挑戰,不過基於深度學習技術的發展,這些問題可以採用端到端的文本識別方案解決。

常見的端到端文本行識別方法有兩大類,一類以卷積神經網路作為特徵提取器,以循環神經網路作為序列建模器,利用連接時序分類(Connectionist Temporal Classification, CTC)作為訓練準則,即 CRNN-CTC 方法;另一類是基於注意力機制的序列到序列編碼-解碼方法。受限於自回歸式的解碼方式,編碼-解碼方法訓練複雜度高,解碼時延大,而 CRNN-CTC 方法基於條件獨立假設,在快速解碼的同時,還可以通過加權有限狀態轉換機(Weighted Finite State Transducer, WFST), 可以和語言模型、詞典等先驗信息巧妙地融合在一起,進一步提升效率和準確度。

微軟新一代 OCR 識別引擎採用的便是 CRNN-CTC 結合 WFST 的方案,不過將 CRNN-CTC 模型應用於產品,還面臨諸多挑戰。首先 CRNN-CTC 模型的卓越性能需要依賴大規模的訓練數據,傳統的單機訓練方法會大大增加產品開發週期,研究員們在GPU訓練集羣上採用基於逐塊模型更新濾波(Blockwise Model-Update Filtering, BMUF)[5]的分散式優化框架解決了這一問題。

作為一種通用分散式優化框架,隨著計算資源的增加,BMUF 可以在線性加速訓練過程的同時,不損害模型的識別性能。另一方面,為了保障識別性能,CRNN 模型參數多、計算量大、識別耗時長、部署代價高,為了成功應用於產品,需要對模型進行壓縮和加速。經過分析微軟亞洲研究院的研究員發現,CRNN 的計算主要集中於 CNN 部分,針對部署要求,研究員們借鑒 YOLO 框架中的高效 TinyDarkNet 結構作為 CNN 部分,對原基於 VGG 的 CNN 部分在 RNN 部分指導下進行知識蒸餾,然後採用張量分解演算法進一步壓縮模型降低計算量,壓縮的模型推斷速度加快了14倍[6],解決了部署難題。

統一模型,同時支持多場景、多語言、混合列印和手寫體文字的識別

微軟新一代的 OCR 引擎可以同時支持列印體和手寫體的複雜文字場景識別。在日常生活中,很多表格單據上同時包含有列印體和手寫體文字。傳統的 OCR 識別引擎需要有一個專門的分類器來預先判定文本行對應的字體類型,再調用各自對應的識別模型進行文本內容的識別。如果一行文本中同時包含有列印體和手寫體,則還需對文本行做單詞級別更加細緻的切分。經過大量的實驗驗證,微軟亞洲研究院的研究員們發現通過數據和模型共享,一個統一的模型能很好地同時識別列印體和手寫體文本行,效果媲美各自獨立的識別模型。

如何快速、經濟地將新一代的英文 OCR 技術推廣應用到其它語言中,是 OCR 落地的另一個重要課題。相比於各個語言獨立部署的傳統方式,微軟亞洲研究院探索了每個語系共享一套識別模型的新思路。以拉丁語係為例,包括英文、德文、法文、西班牙文、義大利文和葡萄牙文在內的所有拉丁語言共享同一個字元模型和語言模型。

由於每一個語言的字符集和語法規則不同,如果簡單地將各個語言的辭彙表累加,則會形成過大的辭彙表,從而得到一個很大的語言模型。另一方面,如果控制辭彙表的長度,又會帶來非常嚴重的集外詞(Out of Vocabulary, OOV)問題。OOV 問題是一個普遍存在的問題,學術上尚無完美的解決方案。在上一版的英文識別系統中,微軟採用的是由詞、子詞以及混合詞語言模型插值得到的混合語言模型來部分解決這一問題[7]。

新一代的 OCR 引擎中,為了得到一個長度可控,各語言共享的辭彙表,採用了在自然語言處理領域中廣泛使用的位元組對編碼(Byte Pair Encoding,BPE)技術,自動從大量語料中習得常見的語言單元,並以此作為語言模型的建模單元。與以單詞作為語言單元相比,BPE 語言單元的使用極大地減少了辭彙表的大小,使得所有拉丁語言共享同一個語言模型成為可能,同時也極大程度地解決了集外詞問題。實驗表明,基於 BPE 語言單元集的共享語言模型能力與各語言獨立訓練的「詞/子詞」混合語言模型能力相當。

得益於微軟亞洲研究院研發的新一代通用文字檢測和文字識別技術,以及相關產品部門的緊密合作,這一 OCR 引擎可以從各種場景(如文檔、票據、街景、商品、菜單、廣告等)圖片中準確高效地檢測和識別出各種列印和手寫體文字。該引擎目前已服務於微軟 Power Platform、Office 365、Dynamics 365、Bing、Azure Cognitive Services 等產品。在不久的將來,微軟新一代 OCR 引擎將支持更多語言(包括中文)並具有版面分析和表格識別能力,配以文檔理解技術,微軟 OCR 將進一步推動數字化轉型,予力全球更多人、更多組織,成就不凡。

更多計算機視覺的研究,超乎你想像

微軟亞洲研究院還在許多重要的、受關注的計算機視覺領域持續進行研究。包括:

? 圖和關係網路的視覺建模:關係網路 [8]、區域特徵學習 [9]、局部關係網路 [10]、全局關係網路 [11]、空間注意力機制 [12];

? 半監督和小樣本學習:深度度量遷移學習 [13];

? 更強的視覺表示和計算方法:可變形卷積網路2.0 [14]、基於點集的物體表示方法[15];

? 視覺物體跟蹤:兩種對語義與外觀進行有效平衡的框架[16, 17];

? 深度估計:雙網路結構 [18]、室內環境下的無監督深度估計 [19];

? 三維人體姿態估計:跨攝像頭特徵融合網路 [20]、Locally Connected Network [21]、低維流形估計 [22];

? 行人和物體重識別:基於人體姿態引導的人體部件對齊的方法 [23]、基於人體空間語義對齊的方法 [24]、多圖聯合學習和知識蒸餾 [25];

? 圖像生成:掩碼導向的人臉編輯 [26]、基於金字塔式注意力機制的上下文編碼網路的圖像修復[27];

? 基於二維時間圖的視頻表徵學習 [28];

? 以及輕便深度圖像分割網路 [29]。

(註:關注微信公眾號:微軟研究院AI頭條(ID:MSRAsia),搜索「計算機視覺領域2019推薦論文列表」,即可查看文中提及的相關論文詳細信息列表)


本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平臺,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,瞭解更多我們的研究。


越來越證明瞭科研是有錢人的玩意。


應用層能走多遠,你就去看看基礎理論已經發展到哪裡了吧。

如果基礎數學、計算機科學領域沒什麼重大突破,那應用層面也罕見太多的技術突破。


不過我相信,在早期些年人們將注意力集中在5G與消費電子領域而忽視那些在人工智慧領域豐厚積澱的公司如:微軟、百度、谷歌等,在人工智慧浪潮的到來之時,必會重新引起世界的矚目。


非從業人員,也非相關專業學生。

2019年關於人工智慧,我瞭解到最多的是有關高考招生的。(因為自己和自己熟悉的同學們都在今年高考嘛

19年許多高校單獨設立人工智慧專業,包括像t大叉院的「智班」,MIT把eecs系拆分ai與決策單獨設系,等等。也有同學對人工智慧非常非常感興趣,一直把南大的ai專業作為高三的目標,高考失利後則繼續夢想於考取周志華教授的研究生。

我個人瞭解到的,ai研究的思維方式確實與傳統cs有一定差異,但ee cs和數學仍然是ai研究的基礎中的基礎。所以本科教育所看重的其實還是與cs相似,只是會相對有一些差異性的培養。所以單獨設系更能體現的其實是教育行業的重視,和科技行業未來多年的趨勢。至於教育方面的意義,我便也不便論述了。

另一方面,ai和很多領域在做結合,在cv領域大放異彩。我是學影視的,也在思考如何利用ai的技術來發展影視技術,或者更進一步與計算機圖形學的相互作用,這樣的問題。當然這些前提都是我要對本專業和cs都有足夠的學習深度。所以,給自己加油吧。

沒有乾貨沒有重大新聞,只是描述了一下個人19年對ai行業的一點點看法,孤陋寡聞,缺乏深度,大家隨意看看就好。我是很喜歡ai這樣的技術的。


推薦閱讀:
相關文章