溫馨提示:如需原文檔,可在PC端登陸未來智庫官網(www.vzkoo.com)搜索下載。

1.計算機視覺:AI 行業最具商業化價值的賽道

計算機視覺是國內外 AI 企業最集中的領域,商業成熟度較高。從 AI 企業的應用技術方向分佈來看,計算機視覺技術企業在全球 AI 企業中佔比約 40%,在國內佔比約 46%;無論國外還是國內,計算機視覺都是 AI 企業最集中的領域。從市場規模來看,2017 年計算機視覺市場佔全球 AI 市場總規模的 16.9%,排在語音識別之後;而國內計算機視覺市場佔 AI市場的 34.9%,排名第一。國內外計算機視覺的市場規模差異要遠大於企業分佈差異,說明國內計算機視覺公司的總體盈利能力較其他 AI領域的公司較強,商業成熟度較高。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

計算機視覺是 AI 領域應用場景最豐富、商業化價值最大的賽道。目前,AI 技術處理的數據類型不外乎四類:文字、語音、圖像和視頻。從信息維度來看,從文字到視頻維度是遞增的,文字的信息維度最少、包含的信息量也最少,視頻的信息維度最多、包含的信息量最大。反映在數據量佔比上,以線上數據爲例,根據 Cisco 的研究,到 2022 年全球線上視頻流量佔總流量的比例將從2017 年的 75%上升到 82%,說明線上數據將越來越被視頻數據所主導。信息維度更高加之數據量更大,因此以圖像和視頻爲主要處理對象的計算機視覺要比以文字或語音爲主要處理對象的其它 AI 技術具有更加豐富的應用場景和商業化價值。我們認爲,當前資本市場也正以其資源配置、資產定價功能充分反映計算機視覺相對其它 AI 領域的優勢。例如,根據公開資料,當前計算機視覺行業四家頭部初創企業(商湯、曠視、依圖、雲從)的總估值已經超過 1000 億人民幣,也超過了語音識別行業幾家頭部初創企業(思必馳、雲知聲、出門問問、圖靈機器人、捷通華聲)總估值加上 AI語音龍頭科大訊飛的市值總和。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

市場格局上,科技巨頭把控基礎層,初創企業領跑應用層。計算機視覺架構從下至上:1)基礎層——核心芯片被 Intel、Nvidia 等傳統芯片廠商把控,新型芯片廠商尚未崛起,規模應用有待時日;開源平臺以谷歌的 Tensorflow、Facebook 的 Caffe 等爲主,其它企業的深度學習框架多爲二次開發;2)技術層——算法,初創企業佔優;雲計算,幾乎被 AWS、Google Cloud、Azure、阿里雲等壟斷;3)應用層——垂直行業龍頭佔據場景,技術層初創企業向上滲透。根據 IDC,2017 年中國計算機應用市場總規模約爲 15.5 億元,商湯、曠視、依圖、雲從‚四小龍‛市場份額共計達 69.4%,至 2022 年中國計算機視覺應用市場規模將達到 146. 1 億元人民幣。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

目前中國計算機視覺算法企業在技術水平、商業化程度以及融資能力(估值)上均領先於國際同行。技術上,近年來中國計算機視覺頭部算法企業在國際性圖像識別競賽如 ImageNet、FRVT、MSR IRC 等中頻繁摘得桂冠;商業化上,根據公開報道,商湯、曠視、雲從等在 2017 年均已實現盈利,而國際初創企業同行如 EverAI 等尚處於淨投入階段;另外,從估值上看,CV 四小龍均已達到數十億美元估值,而國外尚沒有僅靠人臉識別、圖像識別就估值破十億美元的初創企業。分析上述領先優勢產生的原因,我們認爲,主要是由於國內頭部計算機視覺算法企業充分享受了安防行業(尤其是視頻監控)發展的紅利:一是安防市場快速成長的紅利,2007 年至 2017 年我國安防行業十年 CAGR 達16%,2016 年以後安防智能化趨勢確定,計算機視覺技術率先得到應用;二是政策紅利,與歐美國家相比,當前我國對公民生物特徵的保護政策並不完善(見下文),因此國內計算機視覺算法企業可以從包括地方政府在內的各種機構中獲得大量的人臉、人像數據用於模型訓練和算法改進。根據 Quartz的報道,中國某頭部計算機視覺算法企業聲稱擁有 20 億張訓練圖,而國際最大的公開圖庫之一的 ImageNet 僅擁有 1300 萬丈左右的訓練圖,相差 150 倍以上。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

從市場結構上看,國內外市場結構略有不同:國內安防、金融、互聯網爲主,國外消費、機器人(及機器視覺)、智能駕駛領先。根據 IDC 的市場跟蹤,2018 年中國計算機視覺技術輸出規模最大的 3 個行業是政府、金融和互聯網,最大的兩個場景爲政府行業中的平安城市以及金融行業中基於人臉識別的身份認證。而根據 Tractica 的預測,2018 年全球計算機視覺技術輸出規模最大的3個行業分別爲消費、機器人(及機器視覺)以及智能駕駛。我們認爲影響計算機視覺落地的三個主要因素爲監管政策、行業接受度及用戶接受度,三者並不割裂:監管政策表明了監管機構的態度,行業接受度體現了行業玩家的購買意願,而用戶接受度一定程度上會影響監管政策和行業接受度。造成國內外計算機視覺市場結構巨大差異的主要原因,我們認爲是監管政策和行業接受度的不同。

在歐美國家,生物特徵作爲關鍵的個人信息在被科技公司收集和使用時受到法律法規的嚴格保護。去年 5 月 25 日,歐盟史上適用範圍最廣、定則條例最嚴、處罰金額最昂貴的數據保護法案 GDPR 生效,該法案將指紋、人臉、視網膜等信息全部納入個人資產範疇,對科技公司利用上述信息盈利進行了嚴格規定和限制。因此,在歐美計算機視覺率先在政策較爲寬鬆、用戶接受度較高的領域落地,例如消費和智能駕駛等。

在中國,首先,公民生物特徵的保護政策並不完善;其次,基於安防效率和成本方面的考慮,政府是計算機視覺產品最早、最積極的買家之一。由於政府信用和購買力良好,加之安防行業成熟度高(利於計算機視覺技術集成)、圖像及視頻數據豐富(利於計算機視覺算法、模型訓練),因此計算機視覺最先在安防領域落地。此外政策因素(如實名制、反洗錢等)也是導致國內金融業主動擁抱計算機視覺技術的主要原因。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

企業核心競爭壁壘,中短期看是技術能力和產品化能力,長期看是生態構建能力。

中短期來看,包括人臉識別、人體識別、圖像識別等在內的主要計算機視覺技術均基於使用神經網絡的深度學習算法,而神經網絡的種類選擇、結構設計以及參數調整等是一連串極其複雜的工作,因此算法的優劣和迭代速度將直接取決於算法設計人員的知識和經驗儲備,也會進一步決定計算機視覺技術的準確率、可靠性等關鍵性能。ImageNet 競賽中神經網絡隱含層數對圖像識別準確率的影響最能說明問題。從 10 年至 15 年,隨着神經網絡隱含層數的增多,圖像分類 Top-5 錯誤率隨之顯著降低(見下圖),但與此同時算法設計的複雜度越來越高,對技術人員的要求也越來越高。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

此外,計算機視覺技術在場景中落地時需要企業具備大量的除算法以外的know how,例如在軟硬件結合以及保護終端用戶隱私上的知識和經驗等。現階段,掌握技術的 AI 人才(尤其是頂級人才)主要分佈在高校及科研院所,產業內的人才供應不足,加之多數場景下計算機視覺的落地能力不足,人才的爭奪與落地能力的競爭將決定企業的發展速度。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

但是,技術層面,隨着自動機器學習技術 AutoML 的出現,機器學習模型的設計門檻隨之降低。AutoML 的出發點是用強大的算力通過更多次的訓練提高模型的準確度,其最大特點是將機器學習模型的設計過程自動化。算法設計人員只需瞭解模型的基本概念並提供標籤數據即可,神經網絡的參數及結構調整是自動完成的,無需人工干預。目前 AutoML 已經進入落地階段。例如,去年 1 月谷歌發佈了提供自定義圖像識別系統自動開發服務的 Cloud AutoML Vision,用戶從導入數據到訓練模型都可以通過拖放式界面完成。AutoML 已經被谷歌應用於 CIFAR-10 高度基準測試數據集,並且訓練出了與手工設計不相上下的模型。我們認爲,隨着 AutoML 技術的成熟,算法設計的門檻將越來越低,但相應的,算力的重要性會越來越明顯,長期來看有可能成爲計算機視覺企業的核心競爭力之一。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

產品層面,我們認爲,隨着競爭的加劇,成功的企業不僅要具備大量的跟技術落地相關的 know how,還必須能夠主動地挖掘甚至創造需求,具備類似蘋果在智能手機上的理解力。這就要求企業在縱向上能夠主導整個產業鏈,橫向上能夠接入更多開發者和場景,因此長期看生態構建能力將成爲主要競爭壁壘。

現階段,頭部算法企業橫向建立平臺,垂直領域龍頭縱向深耕行業,科技巨頭立體式打造全產業生態。

頭部算法企業的佈局是橫向拓展基礎技術,建立基礎平臺。例如,商湯以人臉識別技術起家,逐漸拓展到人體分析、機器人、無人駕駛等領域,加上 GPU超算中心和雲計算平臺,逐漸將自身打造成一個基礎的人工智能平臺,然後探索在應用端的迅速落地。

垂直領域龍頭公司的佈局是縱向打通計算機視覺框架,深耕所在行業。例如,安防設備龍頭海康威視逐漸脫離了與初創算法企業的合作,自主研發關鍵技術,並在 ILSVRC(2016)圖像分類獲得第一名;此外,還推出了 AI Cloud 平臺,着力解決算力問題。通過縱向打通基礎層、技術層和應用層,垂直領域龍頭公司可以提出更加智能的行業解決方案。

科技巨頭公司的佈局是以平臺爲核心立體式地推進,打造全產業生態。例如,Google 以 TensorFlow 及 Google Cloud 爲核心,橫向上進軍圖像分析、文字識別等技術,推出 Google Lens 等視覺服務產品;縱向上向下拓展基礎硬件推出 TPU 芯片,向上拓展醫療(Verily)、無人駕駛(Waymo)等垂直領域,逐漸打造包括計算機視覺在內的人工智能大生態。

2.智能語音:產業進入爆發期,看好對話式人工智能發展

智能語音技術逐漸成熟,未來幾年市場將維持高速增長。根據 Gartner 發佈的2018 年 AI 技術成熟度曲線,語音識別已經進入‚實質生產高峯期‛,意味着語音識別技術已被廣泛接受,規模化落地即將開始。此外,像自然語言處理、虛擬助理等相關智能語音技術歷經淘洗之後即將落入‚泡沫化低谷期‛,商業模式越來越成熟,也將進一步推動智能語音的落地。根據 ReportLinker 的預測,全球智能語音市場規模將從 2018 年的 75 億美元增長至 2024 年的 215 億美元,其中醫療健康、移動銀行以及智能終端智能語音技術快速增長的需求將成爲主要的驅動因素。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

國內外市場均已相對集中,頭部企業佔據大部分市場份額。根據中商產業研究院的數據,2018 年智能語音全球市場 CR5 達到 88%,中國市場 CR5 達到84.6%,均已呈現出相對較爲集中的市場格局。值得注意的是,國內的市場格局與國外存在着明顯的差異,主導國外市場的巨頭玩家如 Nuance、谷歌等並沒有在中國市場取得同樣的市場地位。我們認爲,這種現象主要是由兩方面原因造成的:一是由於中文與外語在分詞及句法的邏輯等方面有着明顯的不同,並且中國有大量獨具特色的方言,這種語言上的差異使得國內企業在中文處理上獨具優勢;二是受益於國內互聯網和移動互聯網的高速發展,智能語音在國內具有更加豐富的落地場景和商業化環境。這種‚天時‛、‚地利‛的優勢使得中國企業領跑國內市場。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

現階段,產品化能力是智能語音初創企業核心壁壘。一方面,從技術的角度,在無噪音環境下,機器的語音識別準確率已經達到相當高水平,未來上升空間有限。科研界將錯詞率(Word Error Rate, WER)視爲衡量語音識別技術的核心指標(準確率=1-WER),其中人類的平均 WER 爲 5.9%(即 94.1%的準確率),受過嚴格專業訓練的速記員平均 WER 爲 3%(即 97%的準確率)。自2016 年機器的語音識別準確率首次超過人類平均水平以來,目前最好的算法已經可以將準確率做到 97.03%,超越專業速記員。另一方面,從商業化角度,技術難以成爲企業核心壁壘,產品化能力纔是成長的關鍵。這是因爲技術的門檻越來越低,單純依靠提供技術的商業模式將面臨越來越大的競爭因而難以持續,這一點從近幾年頭部智能語音初創企業如雲知聲、思必馳等紛紛從技術提供商轉向產品/服務提供商就可以看出。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

技術全棧化已成爲新趨勢,產業鏈延伸是當前最好策略。對於智能語音而言,多數場景下普遍存在的問題是落地體驗不好,而這帶來了技術上和產業上的兩層影響:技術上,落地體驗的改善有賴於從硬件到軟件、從算法到產品各個環節的緊密協調,在這種情況下,頭部企業多傾向於走技術全棧化路線,即打通全鏈條上的技術環節;產業上,爲了實現更好地商業化,企業傾向於通過上下游延伸創造更多價值。最能說明上述兩個趨勢的例證是當前幾乎所有的頭部初創企業都在佈局專用語音芯片,主要原因是專用語音芯片的應用性能可以達到通用芯片的 40-50 倍,而同時成本只有通用芯片的 1/4-1/3。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

通用平臺商打造開放語音生態,專業應用商搶佔重點賽道。智能語音市場玩家大體上可以分爲兩種,一種是通用平臺商,另一種是專業應用商。通用平臺商如谷歌、百度等科技巨頭,致力於圍繞智能語音開放系統打造智能語音生態。以百度爲例,公司在 2017 年全面開放了語音接口,目前依託 DuerOS 打造出較爲完整的技術、開發與商業生態系統,截至 2018 年 7 月底搭載 DuerOS 的智能設備激活數量已突破 1 億臺。專業應用商以垂直領域和細分場景爲突破口,均有重點佈局的賽道。例如,雲知聲重點佈局家居、車載與醫療,思必馳重點佈局家居、車載與機器人,兩者多有重合但側重上有差異。

對話式人工智能即將規模化落地,看好智能家居、隨身設備、智能車載三個場景。與一般的智能語音應用相比,對話式人工會智能中人與機器之間是雙向交互的,機器在追求理解人的意圖的同時也會給人以反饋(比如要求人進一步明確意圖或者給出選擇等)。對話式人工智能的整個人機交互過程可分爲喚醒、識別、理解、反饋四個環節。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

從供需角度,對話式人工智能的供給方爲對話式人工智能的硬件開發者與軟件開發者,產品爲對話式人工智能應用與服務,包括音樂、視頻、遊戲等;需求方爲終端消費者,整個需求產業鏈條自下而上包括芯片商、方案集成商、終端設備商、渠道商以及消費者。對話式人工智能的中間樞紐是對話式人工智能平臺,由互聯網科技巨頭、初創 AI語音公司等提供。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

我們認爲對話式人工智能將率先在智能家居、隨身設備、智能車載三個場景中實現大規模落地,原因是:1)上述三個場景作爲家庭 IoT、個人 IoT 以及車聯網的重要入口,是頭部企業爭奪的重點,例如亞馬遜的 Echo、蘋果的 Siri、思必馳的飛歌 GS2 正是分別瞄準上述場景;2)上述三個場景對智能語音技術的要求相對較低,例如智能家居和智能車載都是在相對封閉的環境,語音喚醒成功率和語音識別的準確率會相對較高;3)上述三個場景中 C 端用戶對交互式人工智能的接受程度較高,IDC 調研數據顯示 89%的人有意向在未來兩年內採用對話式人工智能終端,其中智能手機、智能電視、智能音箱、汽車等終端在美中兩國用戶中期望度最高、使用最爲頻繁。根據 IDC 預測,到 2020 年中國對話式人工智能在智能家居、隨身設備以及智能車載的滲透率將分別達到 27%、68%、51%。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

FAMGA 佈局啓示:車載、醫療、住宿以及企業級應用或是智能語音未來最主要的落地場景,用戶隱私和數據安全保護值得關注。

在對話式人工智能領域,Facebook、Amazon、Microsoft、Google、Apple 五巨頭佈局較早,整體上引領技術和產業潮流,相關動向對產業和投資佈局具有極大的指導意義。目前看來,五家公司選擇了截然不同的發展路徑,背後主要原因是公司的業務基因與核心優勢具有顯著差異。我們梳理了五家公司在對話式人工智能領域的佈局和動向,具體如下:

1)Amazon:優勢領域在智慧家居,通過開放合作拓展其它場景。Amazon 是最早實現對話式人工智能規模落地的巨頭之一,其智能音箱產品 Amazon Echo系列(包括 Echo、Echo Dot 等)自 2014 年推出以來,至去年年出貨量已經達到 2420 萬臺,全球市場份額始終維持第一。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

由於在電商領域具有絕對優勢,Amazon 在對話式人工智能領域的主要目標之一是主導語音購物市場。目前語音購物主要發生在智能家居場景中,以智能音箱爲載體實現。但是除語音購物以外,Amazon 在提供其他服務上並不具備優勢,主要原因在於相對缺乏豐富的軟件應用支持。因此,公司採取了相對開放的策略,最值得關注的動作之一是創建了 Amazon Connect Kit 協助開發者爲用戶提供更多可以接入 Alexa 的定製化硬件產品和應用服務。截至 2 月份,全球已經有超過 4500 個品牌、2.8 萬個智能家居終端接入到了 Alexa 上,家電巨頭如 LG、三星、GE 等都有產品接入。

除智能家居場景外,Amazon 也在拓展其他場景,例如去年 8 月推出了 Alexa Auto SDK 以幫助汽車製造商將 Alexa 語音控制功能集成到汽車娛樂信息系統上。我們認爲 Amazon 在對話式人工智能的場景拓展上的主要劣勢在於缺乏其競爭對手如 Google、Apple 等均具備的手機、平板、PC 等多種硬件級入口。根據 IHS 的預測,到 2020 年 Amazon Alexa 的市場份額將被顯著壓縮,跟我們的觀點相符。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

2)Google:背靠強大的自然語言處理技術及豐富的軟件羣發力服務領域。Google 有着多年的自然語言處理技術沉澱,在底層對話式人工智能技術上佔據相對優勢。根據公開信息,2019 年 Google 將支持超過 30 種語言的語音識別與自然語言處理,並具備同時理解兩種以上語言的能力。此外,Google 還擁有包括郵件、地圖、搜索等在內的龐大 SaaS 軟件羣,同時擁有手機、平板、PC等多種硬件終端,使其可以收集並使用更豐富的場景下用戶的語音數據來提升自身處理語音請求的能力。我們認爲,上述兩個優勢是 Google 在智能音箱出貨量上能夠快速追趕 Amazon 的主要原因(見圖表 27),同時也是 Google 在個人服務領域和公共服務領域落地對話式人工智能技術時的獨特競爭力所在。

在個人服務領域,Google 推出了 Duplex 聊天機器人,該機器人最大特點是可以模仿人聲撥打和接聽電話,在對話時能實時理解對方意圖並做出及時反饋,同時輸出的語音中還會包含停頓以及‚嗯‛、‚額‛等常見的口語用詞,已經很大程度上做到了擬人化。此前 Google 收購 API.AI 也是爲了增強其聊天機器人的技術實力。API.AI 提供聊天機器人的開發框架,具備意圖識別、上下文管理等多種功能,使得 Google 可以強化聊天機器人的智能水平。

在公共服務領域,Google 重點關注醫療及住宿。醫療領域,Google 將智能音箱、谷歌助手等產品部署到了醫院及療養院,用戶可以通過上述產品尋求醫生幫助,醫生也可以通過手機 App 追蹤用戶請求;住宿領域,Google 通過投資酒店聊天機器人公司 GoMoment 以及開發谷歌助手的翻譯模式等方式使得酒店從前臺接待(如登記住房)到客房服務(如點外賣)實現自動化及智能化,搶佔酒店服務市場。

3)Microsoft:避開直接競爭,劍指企業領域。Microsoft 在對話式人工智能領域的起步稍晚於 Amazon 和 Google,同時在消費級市場也並不具備入口與應用優勢,因此 Microsoft 主要拓展對話式人工智能在其傳統優勢領域——企業領域的應用,從策略上避開了與Google、Amazon 等巨頭的直接競爭。公司還跟Amazon 進行合作,跨系統打通了 Cortana 和 Alexa,使得用戶可以通過Cortana 喚醒 Alexa 進行購物,也可以通過 Echo 或者其它 Alexa 設備喚醒Cortana 進行辦公。由於 Amazon 和 Microsoft 的優勢領域不同,這種合作的互補顯而易見。

此外,Microsoft 還申請了一項專利,該專利使得用戶可以輕聲喚醒數字助理,爲用戶在公共場合使用對話式人工智能終端提供了便利,凸顯了公司對企業領域的重視。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

4)Apple:關注用戶隱私和數據安全。Apple 於去年 11 月收購了致力於開發可以部署在消費級終端上的輕量級的 AI 應用的初創企業 Silk Labs,此外還申請了離線喚醒 Siri 以及聲紋識別兩項專利。公司的主要目標是使對話式人工智能技術可以在終端而非雲端實現,從而排除用戶對個人隱私和數據安全的憂慮。Apple 發力隱私和安全與其過往遭受多起關於侵犯用戶隱私的集體訴訟有關,可以說公司對 C 端用戶的痛點具有超越競爭對手的深刻認知。

5)Facebook:戰略聚焦聊天機器人。Facebook 也採取了跟 Amazon 合作的策略,我們認爲主要原因有兩個:一是公司在對話式人工智能領域起步較晚,2018 年才推出智能音箱 Portal,在五巨頭中已處於相對落後地位;二是公司在去年遭遇了關於泄露用戶數據和隱私的巨大丑聞,跟 Amazon 合作可以緩解外界對公司獲得和濫用數據的擔憂。公司主要關注對話式人工智能在社交領域的應用,2015 年初收購了語音指令創業公司 wit.ai,此後在 Messenger 應用上大規模部署了聊天機器人。在 2016 年 4 月的 Facebook F8 開發者大會上,Facebook 宣佈 Messenger 爲未來十年重點項目之一,並邀請開發者加入Messenger 一同開發聊天機器人。

3.重點公司介紹

3.1 商湯:AI 算法提供商龍頭,平臺化戰略賦能公司和行業

AI 算法提供商龍頭,‚1+1+X‛打造核心平臺。公司成立於 2014 年,創始人爲香港中文大學工程學院教授湯曉鷗,業務聚焦於計算機視覺和深度學習領域,擁有 2200 位員工,其中約 150 位擁有世界頂級大學博士學位。2018 年 9 月,公司被科技部選爲‚智能視覺‛國家新一代人工智能開放創新平臺建設依託單位。公司採取平臺化戰略,主要的業務模式是首先進行前期基礎技術研究,然後結合當前行業應用熱點生成相關產品和服務,最後進行營銷和推廣,即‚1(基礎研發)+1(產品和服務化)+X(行業應用)‛打法。當前公司戰略推進順利,去年 5 月 31 日公司公告表示 2017 年已實現全面盈利,業務營收連續三年保持 400%同比增長,2018 年主營業務合同收入同比增長 10 多倍。

內生+外延,圍繞計算機視覺展開全方位佈局。公司通過內生和外延不斷拓展技術和業務邊界,提前進行產業佈局。內生上,公司以人臉識別技術起家,當前核心技術已覆蓋人臉、人體、圖像、視頻、SLAM 與 3D、機器人、無人駕駛等多領域計算機視覺技術,並且仍在不斷橫向拓展,進而衍生出智能視頻、身份驗證、移動互聯網、智慧商業等多類產品和服務,覆蓋智慧城市、智能終端、互聯網娛樂、智慧金融、智慧商業、遙感、移動運營商、無人駕駛、AR/VR 等多個應用場景。外延上,公司通過成立投資部門,通過直投或者產業基金方式向下遊延伸佈局新應用和新場景,投資標的以在垂直領域已建立起行業場景、佔據一定地位或者已具備一定行業認知及客戶資源但技術和產品尚不成熟的初創企業爲主,例如醫療健康領域的 AI 初創企業禾連健康、VR 看房企業 51VR 等。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

2015-2016 兩年,公司及其聯合實驗室的 CVPR、ICCV 和 ECCV 論文數量高達 76 篇,超過加州大學伯克利分校、斯坦福、麻省理工等國際頂級名校及Google、Facebook 等科技巨頭;2017 年,公司以 43 篇 CVPR 和 ICCV 論文雄踞亞洲第一;2018 年,公司再度以 81 篇 CVPR 和 ECCV 論文傲視羣雄。

算法儲備豐富、算力供應充沛,長期發展具有深厚底蘊。根據公開資料統計,公司 2015-2017 年在三大頂級計算機視覺會議(CPVR、ICCV 及 ECCV)上共發表了 119 篇論文,內容涵蓋深度學習、無人駕駛、物體檢測等諸多領域,數量上僅次於微軟和 CMU,遠領先於國內其他企業。2018 年,公司以 81 篇CVPR 和 ECCV 論文創下中國 AI 學術新紀錄,展示出越來越強的學術研究能力,也說明公司在算法領域有着豐富的儲備。此外,公司自主研發了支持千億級參數模型、百億訓練樣板、億級類別分類任務的深度學習框架 Parrots,以及擁有超過 6000 塊 GPU 並支持千卡並行訓練的亞洲最大超算中心,算力供應充沛,保證了模型可以得到快速驗證。

我們認爲,公司重視基礎研究,強調技術原創,在算法、算力上都能充分保障自身技術順暢迭代,長期發展具有深厚底蘊。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

3.2 曠視:優秀的人臉識別平臺企業,戰略進軍 AIoT

人臉識別先行者,軟硬件結合深入垂直場景。公司早於‚四小龍‛其它三家公司成立,三位聯合創始人印奇、唐文斌、楊沐均畢業於清華姚班,當前擁有約1500 名員工。公司早期業務以開發 C 端人臉識別相關互聯網應用爲主,後轉向提供 B 端計算機視覺相關產品和服務,旗下 Face++是當前世界上使用量最大的人臉識別引擎。公司主要的業務模式是基於核心計算機視覺技術深入垂直場景提供行業解決方案。目前,公司相關產品和服務已經廣泛應用於金融、安防、手機等多個領域,擁有包括阿里、螞蟻金服、富士康等在內的上千家核心客戶。公開信息顯示,依靠多領域的業務落地,公司近年來實現了 5 至 7 倍的營收增長,2017 年已實現盈利,主要收入來自於金融和安防。

戰略進軍 AIoT,打造個人、城市、供應鏈‚大腦‛。2019 年 1 月 16 日,公司公佈了從 AI 到 AIoT 的全新戰略,戰略定位從算法提供商全面升級爲 AIoT 解決方案提供商,並推出了智能供應鏈操作系統‚河圖‛。根據我們的梳理,公司目前個人生活大腦、智慧城市大腦、智能供應鏈大腦三大‚大腦‛場景業務羣,其中:個人生活大腦以連接個人終端爲主,聚焦於爲 C 端用戶提供人臉解鎖、人臉支付等服務,應用場景包括手機解鎖、身份驗覈等;智慧城市大腦以連接城市攝像終端爲主,聚焦於爲 G 端客戶提供智能門禁、智能迎賓等產品/服務,應用場景包括智慧社區、教育管理等;供應鏈大腦以連接工業機器人爲主,聚焦於爲 B 端客戶提供‚貨到人‛、‚訂單到人‛等解決方案,應用場景包括智能工廠、智能倉儲、新零售等。近兩年公司在外延方面表現活躍,先後投資了機器人、娛樂、零售等多個領域的初創企業,業務佈局持續延伸。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

強大的軟硬件結合能力以及‚阿里系‛背景是公司核心差異化優勢。公司自2015 年起涉足硬件,陸續推出了攝像頭、人臉識別面板機、人證覈驗一體機、服務器、搬運機器人等十餘款軟硬件結合產品,在初創企業中處於絕對領先地位。我們認爲,從算法到產品/服務有天然隔閡,優秀的算法並不能保證優秀的產品。公司的歷史發展表明其具有強大的軟硬件結合能力,能夠保障其技術端領先優勢在產品端的延續。我們認爲,軟硬件一體化是打造商業閉環的必要條件,僅依靠算法無法滿足行業客戶的整體需求,安防行業內 AI 算法提供商可以獲得部分項目機會但始終無法撼動安防設備龍頭的地位即是最明顯的例證。此外,公司還是‚四小龍‛中唯一一家兩次獲得‚阿里系‛投資的企業,我們判斷公司是阿里在計算機視覺領域選定的戰略抓手,未來‚阿里系‛可能會有更多資源注入,從支付寶、滴滴、天貓超市等‚阿里系‛公司相繼採用公司產品來看也能部分驗證該想法。

我們認爲,公司軟硬件結合能力突出,保障了技術端優勢在產品端的延續,具備打造商業閉環的潛力;同時,公司背靠股東‚阿里系‛,在金融、出行等多個領域有望被注入更多資源,有較強的盈利支撐,因此具備極大競爭優勢。

3.3 依圖:注重實戰,業務聚焦於安防和醫療

實戰型 AI 公司,善於從行業裏尋找研究課題。公司成立於 2012 年,創始人爲ULCA 統計學博士朱瓏及前阿里資深雲計算專家林晨曦,當前擁有約 700 名員工。公司與‚四小龍‛中其他幾家企業最大的不同點是其技術並非來自創始團隊的科研成果轉化,而是從零開始,先選擇行業,然後針對企業需求進行課題研究。基於這種打法,公司於 2013 年爲蘇州公安開發了車輛識別系統,將套牌車的識別率從不足 30%提高到 90%,在初戰告捷後又推出了人臉識別系統並同樣取得成功,吸引了公安客戶。我們認爲,公司的這種基因和業務模式決定了其更加註重實戰,也意味着具有更強的行業痛點挖掘能力。

業務聚焦於安防和醫療,積極佈局智慧金融。公司的戰略是深耕行業、深挖痛點,業務聚焦於安防和醫療兩個行業:安防領域,公司的主要產品爲‚蜻蜓眼‛系列,包括蜻蜓眼人像大平臺和蜻蜓眼車輛大平臺,目前已在全國二十多個省份、上百個地市公安系統以及海關總署、中國邊檢等得以應用;醫療領域,公司的主要產品爲 care.ai 系列,深入疾病預防、檢查、診斷、治療和科研等各個環節,目前已落地全國 100 多家三甲醫院。除安防和醫療外,2015 年公司通過爲招商銀行提供人臉識別技術切入金融領域,相繼提出了、遠程核身、刷臉取款、智能網點等多個解決方案,客戶以銀行和互聯網金融公司爲主。此外,公司還通過外延方式進一步佈局,除繼續深化在醫療領域的佈局外,還投資了芯片初創企業 ThinkForce,展示了進軍芯片的意圖。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

先發優勢明顯,實戰指標領先。公司是最早進入智能安防領域的 AI企業之一,2014 年起即已實現智能安防產品的規模化落地。公司實戰指標處於國內領先地位。以人臉識別的準確率爲例,公司在由美國國家標準局 NIST 組織的人臉識別供應商測試 FRVT(2018)最新報告中綜合排名世界第一。不同於由學術機構組織的人臉識別競賽,FRVT 更貼近安防實戰,測試集來自美國國土安全局真實業務場景,數據更加複雜和多樣,因此參賽者的成績很大程度上可以代表其實戰水平。我們認爲,公司實戰指標之所以領先,是由於其人臉識別產品較早實現了規模化落地,因而在使用真實場景數據改善算法方面具有先發優勢,這對其技術進步起到了巨大的推動作用。

AI視覺與語音專題分析報告:人工智能視聽盛宴來臨

3.4 雲從:AI 國家隊,銀行、機場人臉識別產品第一大供應商

公司是銀行和機場人臉識別產品第一大供應商。公司成立於 2015 年,創始人是UIUC 博士、中科院‚百人計劃‛人選周曦,當前擁有員工 400 餘人。公司聚焦於計算機視覺技術,產品以人臉識別、文字識別、活體檢測爲主,應用方向集中在金融、交通、安防三大行業,目前是國內銀行和機場人臉識別產品的第一大供應商:在銀行領域,截至 2018 年 3 月,在 121 家已完成招標、具備自建系統能力的銀行中,公司中標了包括四大行之內的 88 家總行平臺,市場佔有率高達 72.7%;在機場領域,截至 2018 年 7 月,已有 54 家機場選擇公司產品,覆蓋全國 75%的樞紐機場。

公司深耕三大行業,佈局智慧商業。公司的業務佈局思路爲在金融、交通、安防三大行業內深挖應用場景,同時通過合作佈局商業。例如,在金融行業,公司積極拓展非銀機構,向杭州消費金融、分期 GO 等互聯網金融公司提供實名認證等服務;在交通行業,與中國民航管理幹部學院共同成立智慧民航聯合研究中心引領機場智慧化等等。在商業領域,公司中標中國電信生物識別平臺項目,將聯手電信實現全網實名制,杜絕電信詐騙。

“國家隊”背景有助於公司拓展安全敏感行業。公司是孵化於中科院重慶研究院的高科技企業,股東名單中有多隻國家戰略投資基金,是‚四小龍‛中唯一沒有外資入股的企業。此外,公司還是唯一一家參與人臉識別國標、部標、行標制定的研發企業,並且承擔了發改委牽頭的國家人工智能基礎平臺重大項目。我們認爲,上述事實給公司貼上了‚國家隊‛的標籤,在國內核心技術自主可控的大趨勢下,公司的‚國家隊‛背景有助於其在安全敏感行業的拓展。

3.5 雲知聲:“雲端芯”戰略,重點佈局家居、車載及醫療三大領域

公司是優秀的智能語音專業應用提供商,多個垂直領域市場地位領先。公司成立於 2012 年,發展至今歷經三個階段:第一個階段爲以發育雲端語音識別能力爲主,通過開放語音平臺吸引了近一萬家企業客戶接入;第二個階段定位做AIoT,開始在“端”上發力,探索技術的產品化,例如與樂視合作推出可以進行遠距離自然語言交互的樂視第三代 TV;第三個階段場景落地階段,通過爲家電廠商美的、汽車廠商上海通用、公立醫院北京協和等提供智能語音解決方案,落地智能家居、智能車載、智能醫療等場景。公司官網顯示,公司目前的合作伙伴已經超過 2 萬家,覆蓋用戶達 2 億,其中開放語音雲覆蓋的城市超過 470個,覆蓋設備超過 9000 萬臺。此外,公開資料顯示,在智慧教育領域,公司的教育評測平臺的高峯調用量達到每天 3 億次;在智能車載領域,已經落地 30多個車型;在智慧醫療領域,已與 500 多家醫院達成合作,均處於同行業領先地位。

“雲端芯”全產業鏈佈局,重點經營家居、車載、醫療三大領域,搶佔教育、機器人賽道。公司 2014 年正式定位做 AIoT 服務商,確立了‚雲端芯‛戰略,即將基於雲端的智能語音技術與終端設備和芯片緊密聯合,通過雲端提供服務、設備端實現算法、芯片提供算力的全棧方式打造生態閉環。公司近一年在芯片端的發力跡象比較明顯,於 2018 年 5 月制定了 UniOne 系列芯片計劃,並推出了面向智能家居和智能音箱的第一代芯片“雨燕”,同時計劃於 2019 年和 2020年推出面向智能車載領域的第二代芯片‚雪豹‛和麪向智慧城市的第三代芯片“旗魚”。

在落地場景上,公司重點經營家居、車載以醫療三大領域:家居領域,面向家電廠商推出了 UniHome 智能語音解決方案芯片;車載領域,面向車聯網產品開發商以及整車廠商推出了 UniCar‚雲端芯‛一體化解決方案;醫療領域,面向醫生推出了智能語音錄入軟硬件一體化解決方案。除上述三大領域外,公司還積極搶佔教育和機器人賽道:教育領域,推出了面向教育機構的智能語音評測系統;機器人領域,推出了軟硬件一體的行業服務機器人和麪向兒童早教的UniToy 機器人解決方案,此外還有面向客服的 SaaS 模式的 SAMANTHA 智能電話機器人。

人才優勢、先發優勢鑄就公司核心競爭力。根據 IDC 的調研,對話式人工智能落地面臨的兩個最大問題是人才及落地案例的缺乏。公司的核心團隊來自 IBM、摩根大通、中科院、劍橋等全球頂尖公司和院校,人工智能研究院研究員中博士佔比超過 45%,產品和運營團隊來自 Nuance、阿里巴巴等國內外知名公司,人才優勢明顯;另外,公司較早進入家居、車載、醫療領域,在跟 B 端企業合作上以及終端用戶需求的理解和隱私保護等方面都具備較多 know how,後進者難以在短時間內完成追趕。我們認爲,人才優勢結合先發優勢助力公司在場景拓展和深耕上都具備極大競爭優勢,看好公司發展。

相关文章