散了散了,顯卡方面沒有發布新東西,今年rtx顯卡和super系列的refresh都已經發布了。。。。

又強調了一遍Max-Q的優越之處,但為啥是聯想。。。ROG的厚磚本比Y900厚,GX531/502/701都比Y740薄這樣對比豈不是更直接。。。莫非今年lenovo創收更大。。。

有更多遊戲支持rtx了,居然專門拿出一張ppt和視頻來介紹我的世界支持rtx。。。看來有必要試一下實際感受了,就怕機器性能不夠玩

其他部分就不是筆記本顯卡相關了,記得不太清,主要是面向開發者和深度學習AI。。。

展出了6臺studio pc,有宏碁triton 500改,暗影精靈5 air改,雷蛇15改,thinkpad p53改和gx502改,只有一個zenbook是真全新開模。。。

看著還是蠻不錯的,啥時候能白嫖一臺就好了。。。

看到一張招聘廣告,給相關的人士看一下

這是哪個GPU?

吐槽一下午飯的規格,這明顯沒考慮北方人的食量。。。

會場有各種廠商的展臺,幾乎每個展臺都有掃碼填問卷給禮物的活動,逐漸忘記使命。。。

最後,這個nv信仰包不錯,量大皮實,塞17寸厚磚本都不是問題


又到了一年一度的NVIDIA GTC China大會,這次,NVIDIA創始人兼CEO黃仁勛將焦點放在四大主題:人工智慧(AI)、汽車、遊戲和HPC。

黃仁勛說,這是迄今為止最大規模的GTC China,與會人數達到6100,較三年前的2400人增加250%。

黃仁勛宣佈一系列NVIDIA新品及合作進展,核心內容如下:

1、百度、阿里使用NVIDIA AI平臺做推薦系統;

2、推出第七代推理優化軟體TensorRT 7,進一步優化實時會話式AI,T4 GPU上推理延遲是CPU的1/10;

3、NVIDIA AI推理平臺在全世界範圍內得到了廣泛的應用;

4、推出軟體定義的AV平臺、新一代自動駕駛和機器人SoC Orin,算力達200TOPS,計劃於2022年開始投產;

5、向交通運輸行業開源NVIDIA DRIVE自動駕駛汽車深度神經網路,在NGC上推出NVIDIA DRIVE預訓練模型;

6、滴滴將在數據中心使用NVIDIA GPU訓練機器學習演算法,並採用NVIDIA DRIVE為其L4級自動駕駛汽車提供推理能力;

7、推出全新版本NVIDIA ISAAC軟體開發套件SDK,為機器人提供更新AI感知和模擬功能;

8、宣佈六款支持RTX技術的遊戲;

9、騰訊與NVIDIA合作推出START雲遊戲服務,在中國將電腦遊戲體驗引入雲端;

10、宣佈全亞洲最大雲渲染平臺瑞雲雲渲染平臺將配備NVIDIA RTX GPU,首批5000片RTX GPU將在2020年上線;

11、發布面向建築行業(AEC)的Omniverse開放式3D設計協作平臺;

12、面向基因組測序,黃仁勛發布CUDA加速的基因組分析工具包NVIDIA Parabricks。

一、AI:入駐百度阿里推薦系統,推出新一代TensorRT軟體

自2012年Alex Krivzhevsky使用NVIDIA Kepler GPU贏得ImageNet競賽以來,NVIDIA在5年內將訓練性能提升300倍。

藉助Volta、新Tensor Core GPU、Chip-on-wafer封裝、HBM 3D堆棧存儲器、NVLink和DGX系統組合,NVIDIA正助力更多AI研究。

AI將從雲擴展到邊緣,NVIDIA正為以下每種用例分別打造一個平臺:用於訓練的DGX,用於超大規模雲的HGX,用於邊緣的EGX和用於自治系統的AGX。

1、百度、阿里推薦系統採用NVIDIA GPU

黃仁勛說,互聯網一個最重要的機器學習模型是推薦系統模型。

沒有推薦系統,人們就無法從上億次網頁檢索、幾十億淘寶商品、幾十億抖音短視頻、各種網路新聞、推文和照片中找到自己需要的內容。

深度學習可實現自動特徵學習,支持非結構化內容數據,通過加速縮短延遲並提高吞吐率。

總體來看,做推薦系統面臨兩大挑戰:海量數據帶來的複雜模型處理任務,以及讓用戶立即看到推薦結果的實時性要求。

針對這一問題,百度提出AI-Box解決方案來訓練高級的大規模推薦系統。

百度AI-Box是Wide and Deep結構,採用NVIDIA AI平臺,基於NVIDIA GPU訓練TB級數據,速度比CPU更快的同時,訓練成本僅有CPU的1/10,且支持更大規模的模型訓練。

同樣,阿里做的推薦系統也選用了NVIDIA AI平臺。

今年「雙十一」當日,阿里的銷售額超過了380億美元的商品,電商網站上共列出約20億類商品,有5億用戶在購物,一天銷售額達2684億,每秒幾十億次推薦請求。

如果一位用戶花1秒看1個產品,那麼看完所有商品要花32年的時間。

對此,阿里使用NVIDIA T4 GPU來訓練推薦系統,這使得每當用戶點擊一個商品,就會看到其他相關推薦商品。

原先使用CPU速度較慢,僅3QPS,而NVIDIA GPU將速度提升至780QPS。

2、推出第七代推理優化軟體TensorRT

現場,黃仁勛宣佈正式推出第七代推理優化編譯器TensorRT 7,支持RNN、Transformer和CNN。

TensorRT是NVIDIA針對神經網路推理階段提供的加速軟體,它能通過提供優化的AI模型來大幅提升性能。

去年在GTC China大會上發布的TensorRT 5僅支持CNN,只支持30種變換,而TensorRT 7面向Transformer和RNN做了大量優化,能以更少內存實現高效運算,並支持1000多種計算變換和優化。

TensorRT 7能融合水平和垂直方向的運算,可為開發者設計的大量RNN配置自動生成代碼,逐點融合LSTM單元,甚至可跨多個時間步長進行融合,並儘可能做自動低精度推理。

此外,NVIDIA在TensorRT 7中引入一個內核生成功能,用任何RNN可生成一個優化的內核。

會話式AI是TensorRT 7強大功能的典型代表。

其功能非常複雜,比如一個用戶用英文說了一句話,要把它翻譯成中文,這個過程需要先將英文口語轉化成文字,理解這段文字,然後轉化成想要的語言,再通過語音合成將這段文字轉化成語音。

一套端到端會話式AI的流程可能由二三十種模型組成,用到CNN、RNN、Transformer、自編碼器、NLP等多種模型結構。

推理會話式AI,CPU的推理延遲是3秒,現在使用TensorRT 7在T4 GPU上推理僅0.3s就完成,比CPU快10倍。

3、NVIDIA AI平臺得到廣泛的應用

另外,快手、美團等互聯網公司也在用NVIDIA AI平臺做深度推薦系統,以提高點擊率,並降低延遲和提高吞吐量,更好理解和滿足用戶需求。

例如,美團用戶想找一個餐廳或者是找酒店,都是通過用戶的搜索來實現的。

會話式AI需要可編程性、豐富的軟體推展及低GPU延遲。包含這些模型在內的NVIDIA AI平臺將為智能雲提供支持。

NVIDIA EGX是面向邊緣AI應用打造的一體化AI雲,專為流式AI應用程序、Kubernetes容器編排、保護動態數據和靜態數據安全而打造,已連接到所有物聯網雲。

比如,沃爾瑪使用它進行智能結賬,美國郵政服務在EGX上通過計算機視覺分類郵件,愛立信將在EGX伺服器上運行5G vRAN和AI物聯網。

二、推出新一代汽車SoC,算力200TOPS

NVIDIA DRIVE是一個端到端AV自動駕駛平臺,該平臺由軟體定義,而非固定功能的晶元,使得大量開發人員可按照持續集成、持續交付的開發方式進行協作。

黃仁勛表示,將在NGC容器註冊上,向交通運輸行業開源NVIDIA DRIVE自動駕駛汽車深度神經網路。

1、下一代自動駕駛處理器ORIN,算力是Xavier的7倍

NVIDIA發布NVIDIA DRIVE AGX Orin,它是新一代自動駕駛和機器人處理器SoC,達到了ISO 26262 ASIL-D等系統安全標準,將包含一系列基於單一架構的配置,計劃於2022年開始投產。

Orin凝聚著NVIDIA團隊為期四年的努力,被用於處理多個高速感測器、感知環境、創建一個周圍環境的模型並定義自己、根據特定目標制定合適的行動策略。

它使用了包含8個核心的64位Arm Hercules CPU,有170億個晶體管,再加上全新深度學習和計算機視覺加速器,其性能達到200TOPS,幾乎比上一代的技術(Xavier)提升7倍。

它擁有易編程性,有豐富工具和軟體庫支持,還擁有全新功能安全特性,可使CPU和GPU鎖步運行和提升容錯性。

Orin系列可從L2擴展到L5,與Xavier相兼容,可充分利用原有軟體,因此開發者能夠在一次性投資後使用跨多代的產品。

其新特性是提高針對OEM的低成本版本,即想用一個單路攝像機做L2級別的AV,同時能利用整個AV產品線中的軟體棧。

除了晶元外,NVIDIA的平臺、軟體等很多技術可應用在汽車中,幫助客戶定製化應用以進一步提升產品的性能。

2、推出NVIDIA DRIVE預訓練模型

黃仁勛還宣佈在NGC上推出NVIDIA DRIVE預訓練模型。

一個正常運行的安全自動駕駛技術需要許多AI模型組成,其演算法具有多樣性和冗餘性。

NVIDIA開發了先進的感知模型,用於檢測、分類、跟蹤和軌跡預測,還可用於感知、本地化、規劃和製圖。

這些預訓練模型均可從NGC上註冊下載。

3、滴滴選用NVIDIA自動駕駛和雲基礎設施

滴滴出行將使用NVIDIA GPU和其他技術開發自動駕駛和雲計算解決方案。

滴滴將在數據中心使用NVIDIA GPU訓練機器學習演算法,並採用NVIDIA DRIVE為其L5級自動駕駛汽車提供推理能力。

今年8月,滴滴將其自動駕駛部門升級為獨立公司,並與產業鏈合作夥伴開展廣泛合作。

作為滴滴自動駕駛AI處理的一部分,NVIDIA DRIVE藉助多個深度神經網路融合來自各類感測器(攝像頭、激光雷達、雷達等)的數據,從而實現對汽車周圍環境360度全方位的理解,並規劃出安全的行駛路徑。

為了訓練更安全高效的深度神經網路,滴滴將採用NVIDIA GPU數據中心伺服器。

滴滴雲將採用新的vGPU許可證模式,旨在為用戶提供體驗更佳、應用場景更豐富、效率更高、更具創新性和靈活的GPU計算雲服務。

4、發布NVIDIA ISAAC機器人SDK

面向機器人領域,黃仁勛宣佈推出全新NVIDIA Isaac機器人SDK,大大加快開發和測試機器人的速度,使機器人能通過模擬獲得由AI驅動的感知和訓練功能,從而可以在各種環境和情況下對機器人進行測試和驗證,並節省成本。

Isaac SDK包括Isaac Robotics Engine(提供應用程序框架),Isaac GEM(預先構建的深度神經網路模型、演算法、庫、驅動程序和API),用於室內物流的參考應用程序,並引入Isaac Sim訓練機器人,可將所生成的軟體部署到在現實世界中運行的真實機器人中。

其中,基於攝像頭的感知深度神經網路有對象檢測、自由空間分割、3D姿態估計、2D人體姿態估計等模型。

全新SDK的對象檢測也已通過ResNet深度神經網路進行了更新,可以使用NVIDIA的遷移學習工具包對其進行訓練,使添加新對象進行檢測和訓練新模型更加容易。

另外,該SDK提供了多機器人模擬,開發人員可將多個機器人放入模擬環境中進行測試,各個機器人可在共享的虛擬環境中移動時,運行獨立版本的Isaac導航軟體堆棧。

全新SDK還集成了對NVIDIA DeepStream軟體的支持,開發人員可在支持機器人應用程序的邊緣AI,部署DeepStream和NVIDIA GPU,以實現對視頻流的處理。

已開發了自己代碼的機器人開發人員,可將自己的軟體堆棧連接到Isaac SDK,通過C API訪問路由的Isaac功能,這樣極大程度地減少編程語言轉換。C-API訪問許可權同時支持開發人員在其他編程語言中使用Isaac SDK。

據黃仁勛介紹,國內大學都採用Isaac來教授和研究機器人技術。

5、NVIDIA的汽車生態圈

NVIDIA在汽車領域已深耕了超過10年,和合作夥伴做了很多的事情,讓AI的大腦能更好的瞭解、甚至能夠去「駕駛」車輛。

經過不斷模擬、測試、驗證,確認系統奏效後,NVIDIA與合作夥伴才會將其真正應用於實際道路上。

無論是卡車公司、普通汽車公司還是計程車公司,均可使用這一平臺針對具體車型來定製化自己的軟體。

NVIDIA提供遷移學習工具,允許用戶對模型進行在訓練,並利用TensorRT進行再優化。

另外,NVIDIA還開發了聯邦學習系統,它對看中數據隱私的行業都尤為受用。

無論是醫院、實驗室還是汽車公司,在開發訓練神經網路後,可以只將訓練處理後的結果上傳到一些全球伺服器中,同時將數據保留在本地,保證數據隱私。

三、遊戲:與騰訊合作推出START雲遊戲服務

《我的世界》是全球最賣座的電子遊戲,最近在中國已達到3億註冊用戶,NVIDIA和微軟共同宣佈《我的世界》將支持實時光線追蹤(RTX)技術。當前NVIDIA RTX技術已被多個業界最流行的渲染平臺所支持。

現場,黃仁勛宣佈了6款支持RTX的遊戲:

(1)《暗影火炬》,由上海鈦核網路開發;

(2)《Project X》(項目代號),由米哈遊開發;

(3)《無限法則》,由騰訊北極光工作室羣開發;

(4)《軒轅劍柒》,由大宇資訊開發;

(5)《鈴蘭計劃》,由龍之力科技開發;

(6)《邊境》,由柳葉刀科技開發。

人們想要更輕便、輕薄的遊戲筆記本,對此NVIDIA創造Max-Q設計,將超高GPU能和總體系統優化集於一身,使得功能強大的GPU可用於輕薄筆記本。

今年,中國遊戲筆記本發貨量超過500萬臺,五年內增加4倍,其中GeForce RTX Max-Q筆記本電腦是增速最快的遊戲平臺。

此外,黃仁勛宣佈騰訊與NVIDIA合作推出START雲遊戲服務,在中國將電腦遊戲體驗引入雲端。

NVIDIA GPU將為騰訊START雲遊戲平臺提供支持,騰訊計劃擴展該平臺供數百萬玩家使用,為他們提供和本地遊戲主機一致的遊戲體驗,即便使用性能不足的終端也無損體驗。

NVIDIA RTX平臺包含40多個面向內容工作者打造的產品,涵蓋從配備GeForce RTX 2060的Max-Q輕薄筆記本,到配備4路SLI Quadro RTX 8000的工作站和配備8路RTX 8000的伺服器。

黃仁勛宣佈,瑞雲雲渲染平臺將配備NVIDIA RTX GPU,首批5000片RTX GPU將在2020年上線。

這是全亞洲最大的雲渲染平臺,渲染了2019年中國三大熱門電影《戰狼2》、《哪吒和《流浪地球》,超過85%的中國電影工作室都是瑞雲的客戶。

黃仁勛還發布了面向建築行業(AEC)的Omniverse開放式3D設計協作平臺,本地和雲端均支持在AEC工作流中增加實時協作功能,將支持Autodest REVIT、Trimble SketchUP和McNeel Rhino等主流AEC應用。

現場展示了使用OMNIVERSE AEC的Demo,中國華潤大廈由KPF建築師事務所設計,在配備了8路RTX 8000的伺服器上進行實時渲染。

四、HPC:面向基因組測序推出CUDA加速的基因組分析工具包

NVIDIA在HPC方面的應用也很豐富。比如計劃2030年將人類送上火星的NASA,在NVIDIA GPU上通過FUN3D流體力學軟體運行了數十萬次火星著陸場景模擬,生成150TB 的數據。

面向基因組測序,黃仁勛發布CUDA加速的基因組分析工具包NVIDIA Parabricks

Parabricks可與用於發現變異,並能產生與行業標準GATK最佳實踐流程一致的結果,可實現30-50倍的加速,並提供DeepVariant工具,利用深度學習技術進行基因變異檢測。

黃仁勛說,很高興宣佈華大基因已採用Parabricks,通過藉助若干GPU伺服器,可按其測序儀生成數據的速率來處理基因組。

據他介紹,NVIDIA 今年為CUDA增加5G vRAN和基因組兩個新主流應用,已得到愛立信和華大基因等行業領導者的支持。

另外,黃仁勛也再次提到此前已公佈NVIDIA GPU和Arm的合作,現已支持用CUDA加速Arm伺服器,並已公佈基於Arm的首個參考架構NVIDIA HPC for ARM,可使用各種基於Arm的HPC伺服器進行配置。

TensorFlow現已支持在Arm上加速,藉助NVIDIA CUDA on ARM,TensorFlow可實現世界一流的性能和擴展能力。

結語

2019年已經接近尾聲,NVIDIA也在本次大會上,不僅大秀AI、汽車、遊戲和HPC能力,也曬出了多個領域的朋友圈。

黃仁勛說,隨著摩爾定律的終結,GPU加速計算將成為未來的發展方向,這一點現已得到公認。

NVIDIA可實現單線程處理和並行多線程處理的加速,並通過整個軟體堆棧進行優化,使得多GPU和多節點系統實現難以置信的性能。NVIDIA已售出15億塊GPU,每塊GPU都兼容同一個架構CUDA。

作為迄今AI深度學習紅利的最大受益者,NVIDIA以高性能的軟硬體和系統為基礎,持續豐富其AI和自動駕駛生態,而找到核心場景加速落地仍是當下的重頭戲。


這麼全面的回答,不來一個點贊+關注二連?

發佈於 2019-12-18繼續瀏覽內容知乎發現更大的世界打開Chrome繼續夏晶晶夏晶晶kunpeng architect

有一個神祕的數字非常值得關注。

讓很多人顫抖!!

上面這圖有祕密。

左上角這兩個GPU大家都知道,是T4。

那右上角這兩個GPU是什麼?

V100?不是,對不上。T4也不是。

(2000-400)/2 = 800TOPS

(750-130)/2 = 310W

800TOPS INT8折算400T FP16或BF16

這是一顆inference性能和阿里含光相近,如果支持訓練的話,是Volta V100性能3.3倍的GPU。

這就是傳說中的ampere A100麼⊙ω⊙ ?

AI產業玩家很多,近期的AI晶元的軍備競賽,打法都是直接降維打擊的方式打,cerebras也是、含光也是。想表達的就是一個意思,「你可以退出了」。

勸退級別的GPU。


有一個神祕的數字非常值得關注。

讓很多人顫抖!!

上面這圖有祕密。

左上角這兩個GPU大家都知道,是T4。

那右上角這兩個GPU是什麼?

V100?不是,對不上。T4也不是。

(2000-400)/2 = 800TOPS

(750-130)/2 = 310W

800TOPS INT8折算400T FP16或BF16

這是一顆inference性能和阿里含光相近,如果支持訓練的話,是Volta V100性能3.3倍的GPU。

這就是傳說中的ampere A100麼⊙ω⊙ ?

AI產業玩家很多,近期的AI晶元的軍備競賽,打法都是直接降維打擊的方式打,cerebras也是、含光也是。想表達的就是一個意思,「你可以退出了」。

勸退級別的GPU。


#礦機盛會#

6000人,早早提前一小時到現場,拐了幾個彎纔到隊伍末尾。都只為目睹黃教主本人。

會場音樂,燈光都很迷幻,炫酷。

黃教主不拖沓,準時入場,直奔主題

先是展示了遊戲顯卡,PC端的Rtx顯卡升級了,遊戲玩家又可以買買買了。

百度,阿里均用到NVIDIA的gpu做推薦系統的加速模塊。

快進到自動駕駛環節……

Tensorrt 7.0發布

新一代的車載gpu單元AGX Orin發布,算力是Xavier的7倍,滿足ISO 26262 ASIL-D等系統安全標準,更高的算力,功能安全統統考慮進去。

滴滴,圖森,智加,小鵬,文遠知行,上汽,吉利,Autox等等,除了主機廠,佔據量產重要地位的Tire 1大陸、博世、採埃孚、海拉也在跟NVIDIA合作,NVIDIA的汽車圈好友乘Ai之風在不斷壯大。

圖森coo郝佳男說的一句,自動駕駛可以define為"一切皆計算",但"一切計算皆會出錯",演講沒講圖森多牛,現在進展怎樣,更多的是提到自動駕駛的進一步的難點問題,"冗餘計算,錯誤檢測與糾錯,容錯技術,鎖步執行",給人一種圖森已早已跨越demo及演示階段,過渡到一個細節優化再優化的階段。

今天小鵬自動駕駛副總裁說了這麼一句話Nvidia的產品已成標配。L3可選平臺,算力支持,功能安全,工具鏈的完備性上僅NVIDIA一家。

NVIDIA is the workhouse of morden ai

最後,黃教主的演講能力真very incredible!!!

目測軟體caffe→tensorflow→pytorch繼續升級更新,唯一不變的仍然離不開NVIDIA的gpu。

主打的遊戲,火爆的自動駕駛-機器人,跟進的醫療,更快的互聯網推薦系統,處處都有NVIDIA的影子,真的如教主所講,

The more you pay,The more you save!

感慨一下,礦機,AI,自動駕駛,遊戲,都是年輕人熱衷的,從參會的羣體來看,年輕人居多,看起來路人甲,路人乙,路人丙似乎都是個個博學,頭頂幾篇paper,邊走路可以隨時拿出電腦的geek or coder。另外,聽年輕的leader講神經網路,講技術,講自動駕駛,比老領導更有意思,也更專業,更有共鳴性。在老一輩看來,神經網路似乎是一個可以主打的點,其實並不是。

最後在展區看到了視頻裏播放的英偉達自動駕駛原型車。

Nv car

下面這個是NVIDIA GTC峯會前寫的預熱文章

諸葛有魚:2019自動駕駛盛會——NVIDIA GTC?

zhuanlan.zhihu.com圖標

福利時間

黃教主演講視頻:

GTC China 2019 主題演講?

www.nvidia.cn

演講PPT:

鏈接:https://pan.baidu.com/s/17yavfoDaSgUssnA58huo7A

提取碼:vfl7


英偉達首席執行官黃仁勛(Jensen Huang)在參會人數創新高的GTC China 2019上再次發布重磅新品——下一代SoC Orin。Orin是英偉達花費4年時間投入數十億美元打造,性能比最新一代Xavier提升7倍,算力最高可達200TOPS。

目前,英偉達已經售出15億塊GPU,它們都有相同的架構CUDA。黃仁勛表示,通過全棧優化,GPU可以實現摩爾定律的加速。

英偉達想要做的不僅是加速摩爾定律,也要推動顯示技術的創新。

RTX的新進展

去年,英偉達發布了RTX新一代GPU架構——Turing(圖靈),以及一系列基於圖靈架構的RTX GPU。黃仁勛表示圖靈架構為英偉達十多年來在計算機圖形領域最重要的創新,將光線追蹤技術引入英偉達的GPU中。發布之後,已經有多款遊戲支持RTX,並且採用RTX技術的開發者數量迅速增長。

黃仁勛今天宣佈了6款支持RTX的遊戲,還展示了僅由一個人使用RTX技術製作的視頻。

除此之外,英偉達還創造出了Max-Q設計,它將超高的GPU能效和總體系統優化集於一身,可以用於輕薄的高性能筆記本電腦。

高性能的筆記本是遊戲必不可少的,但隨著雲計算的普及,雲遊戲也將越來越普及。黃仁勛在GTC China 2019上也宣,英偉達與騰訊遊戲合作推出START雲遊戲服務,該服務已從今年初開始進入測試階段。START使遊戲玩家可以隨時隨地,即使是在配置不足的設備上也能玩AAA遊戲。

光線追蹤GPU是英偉達去年最重磅的發布,英偉達也正在推動這項技術更多的應用。今年,「核彈」產品無疑是面向下一代汽車和機器人的Orin的發布。

「核彈」產品——下一代的汽車和機器人技術Orin

黃仁勛在演講當中提到, 該晶元由170億個晶體管組成,凝聚著英偉達團隊為期四年的努力。Orin系統級晶元集成了英偉達新一代GPU架構和Arm Hercules CPU內核以及全新深度學習和計算機視覺加速器,每秒可運行200萬億次計算(200TOPS),幾乎是英偉達上一代Xavier系統級晶元性能的7倍。Orin計劃2022年投產。

Orin可處理在自動駕駛汽車和機器人中同時運行的大量應用和深度神經網路,達到了ISO 26262 ASIL-D等系統安全標準。

作為一個軟體定義平臺,DRIVE AGX Orin能夠賦力從L2級到L5級完全自動駕駛汽車開發的兼容架構平臺,助力OEM開發大型複雜的軟體產品系列。由於Orin和Xavier均可通過開放的CUDA、TensorRT API及各類庫進行編程,因此開發者能夠在一次性投資後使用跨多代的產品。

Orin也已經獲得了合作夥伴的支持,滴滴與英偉達一起共同推進自動駕駛和雲計算領域的發展和合作。據悉,滴滴已經選擇英偉達DRIVE作為他們的L4級的AV平臺和雲計算平臺。另外,滴滴會採用英偉達的AI技術應用,用在它們的自動駕駛車輛當中,並且也支持「滴滴雲」。

5年以前很多人就說:「2020年就能夠看到自動駕駛的車輛了。」如今馬上進入2020年了,但是到現在還沒有實現這個目標,技術還在向前推進,整個業界也意識到這個事情的複雜度遠比我們想像的要高。

轉移學習和聯邦學習進一步降低AI門檻

面對自動駕駛最核心的需求「安全」,英偉達開發了 「端到端平臺」,即:在數據中心中的AI。也就是說,真正技術在道路上使用之前,首先是要在數據中心進行驗證。

對於自動駕駛來說,第一步就是海量的數據收集工作。在有人駕駛的車輛上,需要安裝很多的感測器。包括攝象頭、雷達,它們的作用就是收集大量的數據。

一般情況下,一輛車一天在外面開6小時-8小時,每週就會收集到PB級的數據。意味著有海量的信息需要進行處理、標記、存儲、訓練,從而更好的瞭解周圍的環境,並且識別其它的車輛、車道信息等。

其實,早前基於英偉達的DRIVE結構,汽車廠商已經可以構建和部署具有功能安全性、並符合諸如ISO 26262等國際安全標準的自動駕駛乘用車和卡車。此外,英偉達也開發了一個開放的軟體平臺,包括駕駛的操作系統等。

除此之外,英偉達也開發了很多「深度神經網路」來識別各種各樣的東西。也就是遷移學習,預訓練的模型可以進行調整以適應原始的設備製造商,包括主機廠、感測器和具體的地區要求,當然調整的自由度是有限制的。

例如:檢測路上的一些物體、路標,以及處理雷達、激光雷達。按照英偉達的說法,目前整個的這一系列軟體,現在都可以給業界開放使用。這些都是基於英偉達自主知識產權的「預訓練」模型,也是在他們的「雲」上來進行訓練的。

英偉達的策略是「深度開放」,無論是乘用車還是卡車,他們都可以對這些進行定製化。也就是說,客戶可以把自己的數據放到這些模型當中,然後基於這些模型不斷的進行優化。不過,這些都是基於TensorRT來實現的,這也能夠進一步加速這些自動駕駛公司研發的進程。

英偉達推出的另外一個技術,就叫「聯邦學習」。這項技術是極其重要的,它不僅僅是在汽車行業,在很多行業都能夠充分利用,尤其是那些對於數據隱私非常看重的行業,例如醫療。在醫療行業,很多的數據是不能夠跟其他人共享的。所以它可以利用我們的這項技術,基於他們的數據來創建各種各樣的AI模型。

「聯邦學習」最主要的功能就是能夠保證數據隱私不被侵犯。按照官方說法,無論是醫院、實驗室、汽車公司,大家都可以去開發並且訓練這些神經網路,數據還可以保存在本地。

黃仁勛舉例道,目前很多公司都在美國和中國有往來業務,數據在傳輸方面其實是有一些限制的。運用「聯邦學習」,他們就可以保證數據還存在本地,但是可以把一些訓練和處理後的結果上傳到一些全球的伺服器上。所以 聯邦學習其實對於公司之間的合作,包括各品牌之間的合作、各地區之間的合作是非常有用的,因為它能夠保證數據隱私不被侵犯。

更重要的是,這些工具讓汽車客戶能夠去針對他們自己的車型來定製化自己的軟體,這個是之前做不到的。

英偉達全新版本Isaac軟體開發套件(SDK),為機器人提供更新的AI感知和模擬功能。黃仁勛提到,在建立統一的機器人開發平臺以實現AI、模擬和操控功能方面,Isaac SDK邁出了重要的里程碑。Isaac SDK包括Isaac Robotics Engine(提供應用程序框架),Isaac GEM(預先構建的深度神經網路模型、演算法、庫、驅動程序和API),用於室內物流的參考應用程序以及Isaac Sim的第一個版本(提供導航功能)。

值得注意的是,新版本引入了一項重要功能——使用Isaac Sim訓練機器人,並將所生成的軟體部署到在現實世界中運行的真實機器人中。這有望大大加快機器人的開發速度,從而實現綜合數據的訓練。

GPU替換CPU,成本僅1/10,性能提升百倍

自動駕駛、機器人是AI落地的代表應用,AI技術如今在數據分析和挖掘、高性能計算中發揮著更加重要的作用,英偉達已經推出了面向訓練、雲端、終端、自動駕駛的AI平臺。AI對於擁有大量數據的科技公司尤為重要,比如推薦系統,如果沒有推薦系統,人們無法從上萬億次網頁檢索、幾十億淘寶商品、幾十億抖音視頻、各種新聞中找到自己需要的內容。

因此,一個能夠深度理解每一個用戶,在正確時間給出正確的推薦的推薦系統極為關鍵。

百度AIBox推薦系統採用英偉達AI,100多個推薦模型被使用在百度的眾多應用中。雷鋒網瞭解到,這個系統基於英偉達Telsa v100 GPU,利用這些TB級的數據集去創建一個模型、在GPU上訓練這些數據,然後把它放到GPU的內存當中去訓練這種TB級別的數據,GPU訓練成本只有CPU的十分之一,並且支持更大規模的模型訓練。

還有線上購物,今年淘寶雙十一成交額達到了2684億元,較 2018 年的 2135 億同比增長了 25.7%,這需要強大的雲計算平臺來支撐。同樣關鍵的是,雙十一5億的淘寶的用戶要從20億商品中挑選最合適的產品是一件非常困難的事情,如果一個用戶每一秒看1個商品,需要花費32年時間才能瀏覽完20億個商品。

阿里巴巴搭建的推薦系統採用了英偉達的T4 GPU,推薦系統的吞吐量得到了大幅提升。面對每秒幾十億次的推薦請求,CPU速度只有3 QPS,英偉達GPU則提升到了780 QPS,提升百倍。

雖然擁有自研雲端AI晶元,但為瞭解決推薦系統面臨的兩大挑戰,阿里和百度都選擇使用英偉達的GPU構建推薦系統,這其中很重要的原因是系統的構建面臨兩大挑戰。一個是推薦模型及其複雜,需要處理的參數非常多,這就意味著需要非常強的計算能力,另一大挑戰是推薦系統需要進行實時計算並給出反饋。

從結果來看,使用擅長並行計算的GPU構建推薦系統比使用CPU構建推薦系統成本大幅降低或性能實現了百倍提升。。

當然,AI功能的實現並非單純來自硬體,軟體和模型的優化也非常重要,這也是實現會話式AI的關鍵。

軟體優化是實現會話式AI的關鍵

業界越來越意識到,即便AI晶元算力再強,不能充分使用其算力並不能實現很好的AI功能,因此AI晶元的有效算力正成為衡量AI晶元的關鍵指標。軟硬體結合以及軟體優化意義重大,比如在高性能計算的應用中,要使用CUDA進行全基因組測序,或用於研究畜牧業、農業和導致疾病的微生物。

英偉達今年6月也宣佈CUDA年底前支持Arm生態系統,讓基於Arm的晶元可以更多地應用於超算系統中進行更多地深度學習計算。

根據黃仁勛給出的數據,GPU+Arm的硬體,加上CUDA以及TensorFlow的優化,Arm進行深度學習的性能是x86處理器性能的96%。

一個更為關鍵的軟體平臺是此前推出的計算圖優化編譯器TensorRT,去年英偉達發布了 TensorRT5,通過優化PyTorch和TensorFlow等框架中訓練出來的AI模型,減少計算和內潤訪問,讓模型在GPU上運行的效率大幅提升。

GTC China 2019上,黃仁勛宣佈推出TensorRT 7,它支持各種類型的RNN、Transformer和CNN。TensorRT 7能夠融合水平和垂直方向的運算,可以為開發者設計的大量RNN配置自動生成代碼,逐步融合LSTM單元,甚至可跨多個時間步長今日那個融合。相比TensorRT5只支持30中變換,TensorRT 7能支持1000多種不同的計算變換和優化。

Transformer一個典型的例子就是BERT,它有很多非常先進的自然語言理解的功能。RNN一多用於語音識別或者是將文本轉化成語音。這些模型和演算法對於會話式AI非常關鍵,也正是TensorRT 7可以發揮作用的典型應用。

因為想要實現會話式AI,首先需要把語音轉化為文字,然後通過AI語音演算法模型獲得需要的語音,並理理解其含義,再將回應合成為語音進行回復。對話式AI需要可編程性、豐富的軟體堆棧以及低GPU延遲,基於TensorRT 7這一系列複雜的在300毫秒(0.3秒)內就能完成。

有意思的是,去年的GTC China上,黃仁勛因為現場觀眾沒能實時理解他的演講,他表示希望未來藉助AI能夠把他的英文演講實時翻譯成中文。今年的GTC China剛開場,黃仁勛就表示他今天的演講依舊會使用英文,希望未來某一天他用英文演講,但AI可以把它翻譯成任何一種聽眾需要的語言。

看來,距離這一天的到來又近了一步。

無論是雲端、終端還是高性能計算,英偉達都已經推出了對應的硬體平臺和產品,軟體優化的重要性也正在突顯,軟體定義也能大大提高AI的效率。

小結

AI的競爭正變得越來越激烈,對於AI晶元公司而言,提供更高有效算力、更易用的軟體平臺無疑是吸引用戶的關鍵,因此英偉達花費數十億美金打造了下一代SoC,算力高達200TOPS。同時也推出的新一代推理優化軟體平臺Tensor RT,轉移學習、聯邦學習的方式,能更好地推動AI落地,這也是英偉達發布更多軟體產品的原因。

同時也要看到,對於任何一家想要使用AI技術保持領先的公司而言,他們願意嘗試任何一種能夠實現最好效果,總體擁有成本最低的軟硬體方案,這是英偉達能夠說服阿里和百度使用GPU構建推薦系統的原因。

GPU的通用性搭配上更好的軟體優化顯然能夠繼續在AI的應用中發揮重要作用,而軟體定義硬體能夠讓硬體擁有更長的生命週期,但正如GTC China 2019開場視頻中所提到的AI的應用涉及工業、醫療、物流等等,黃仁勛也表示GPU不是要替代CPU,而是AI負載一個更好的選擇。

隨著演算法的演進以及眾多AI軟硬體解決方案的推出,未來誰將主導市場仍然未知。(雷鋒網)

發佈於 2019-12-20繼續瀏覽內容知乎發現更大的世界打開Chrome繼續麗臺科技麗臺科技?

已認證的官方帳號
  1. All in AI. 發布 TensorRT 7,作為NVIDIA第七代推理軟體開發套件,可以實現更加智能的AI人機交互,與語音代理、聊天機器人和推薦引擎等應用進行實時互動。
  2. RTX ON! 越來越多的遊戲以及專業應用程序支持RTX實時光線追蹤技術。推出面向建築工程施工行業的Omniverse平臺,能夠增加實時協作功能。
  3. 加速汽車創新,開源自動駕駛深度神經網路NVIDIA DRIVE?,並發布軟體定義的自動駕駛平臺Orin?。
  4. 生態融合。在此次GTC China主題演講中,NVIDIA宣佈與滴滴、阿里等達成合作,全面助力AI加速落地。

當然,麗臺作為NVIDIA密切的合作夥伴,會不遺餘力地專註於GPU專業視覺計算領域,為各行各業提供專業的解決方案和服務。

發佈於 2019-12-25繼續瀏覽內容知乎發現更大的世界打開Chrome繼續匿名用戶匿名用戶

恍惚間覺得現在的ai處境到了2000年互聯網的時候了,AI map 互聯網;自動駕駛 map 瀏覽器


  1. All in AI. 發布 TensorRT 7,作為NVIDIA第七代推理軟體開發套件,可以實現更加智能的AI人機交互,與語音代理、聊天機器人和推薦引擎等應用進行實時互動。
  2. RTX ON! 越來越多的遊戲以及專業應用程序支持RTX實時光線追蹤技術。推出面向建築工程施工行業的Omniverse平臺,能夠增加實時協作功能。
  3. 加速汽車創新,開源自動駕駛深度神經網路NVIDIA DRIVE?,並發布軟體定義的自動駕駛平臺Orin?。
  4. 生態融合。在此次GTC China主題演講中,NVIDIA宣佈與滴滴、阿里等達成合作,全面助力AI加速落地。

當然,麗臺作為NVIDIA密切的合作夥伴,會不遺餘力地專註於GPU專業視覺計算領域,為各行各業提供專業的解決方案和服務。

發佈於 2019-12-25繼續瀏覽內容知乎發現更大的世界打開Chrome繼續匿名用戶匿名用戶

恍惚間覺得現在的ai處境到了2000年互聯網的時候了,AI map 互聯網;自動駕駛 map 瀏覽器


恍惚間覺得現在的ai處境到了2000年互聯網的時候了,AI map 互聯網;自動駕駛 map 瀏覽器


中國的人口真是多,去年就5000了,今年6000了。。。

不知道開發者之夜會不會多備點喫的

去年排了半場長度的隊是在太難頂了


看了一小段直播,作為半導體從業者,主要關心新一代晶元。

Nvidia對於Inference重視程度前所未有,尤其在Edge SoC上Nvidia持續迭代裝入更強算力。新的Orin SoC在面積比上一代Xavier小的情況下,性能反而提升7倍。晶體管數量也從原來的90億個達到現在的170億個。毫無疑問,單位面積上的晶體管數量更多,考慮到上一代Xaiver是採用12nm製程,新的Orin架構應該是採用了臺積電7nm製程。

Nvidia新一代Orin SoC

即便是採用更先進的製程,Orin的性能提升也是驚人的,這主要得益於新的架構。 與上一代Xavier相比, CPU、GPU和DLA(Deep Learning Accelerator)都有了提升。 CPU採用arm最新的Hercules架構,從下圖可以看出,Hercules在5nm下性能是16nm Coretex-A73的2.5倍。另外GPU和DLA的AI Inference算力大幅提升,在INT8精度下達到200TOPS。應該是對DLA模塊的架構做了大幅的改進提升。

arm CPU路線圖
原有的Xavier架構

從單位的算力功耗比來考慮,新的Orin功耗只有65W,200T算力,Xavier功耗30W,30T算力,算力功耗比提升了3倍,更加適合實時大數據處理和對功耗要求較高的場景,目標還是自動駕駛。但Nvidia特彆強調Orin的目標是機器人處理器SoC,耐人尋味。

另外還有,TensorRT助力多種AI演算法加速,提升人機對話智能;與阿里巴巴合作推薦系統,在推薦系統這個垂直領域與互聯網巨頭精準合作。

與很多人相信AI專用晶元架構大爆發不同,教主的演講在向大家宣佈,Nvidia仍然是一個架構服務N多演算法的信徒。更關鍵的是Nvidia Volta V100出貨量創下新高,而在edge端又有強力的Orin晶元加持,眼看到潛在競爭對手們越拉越遠,教主的心情應該特別好。最後說一句,教主真的比較喜歡阿里巴巴,把跟百度的合作口誤說成阿里。這也許是他內心的想法吧。


推薦閱讀:
相關文章