關注模型壓縮、低比特量化、推理優化、移動端加速、部署

awesome-embedded-ai/embedded-ai-report

註:PC端的微信公眾號鏈接會提示文章過期,移動端可以正常瀏覽。

業界新聞

  • 視頻:波士頓動力發布倉儲搬運機器人Handle搬箱子,子不高,動作迅捷 | 新智元摘要:Handle 是一款專為物流設計的移動操作機器人。在抓取箱子前利用視覺系統定位,在將箱子放到託盤上時,它的 「力度控制」 能力可以將每個箱子碼放整齊。
  • 華為晶元大動作:英國投資3億圈地劍橋,緊鄰ARM自建工廠 | 新智元摘要:近日,華為宣佈將「圈地造芯」:投資3.3億元人民幣買下劍橋大學500英畝地,其中100英畝計劃設立研發部門和園區。我們常說的ARM 微處理器,就是採用ARM技術知識產權(IP核)的微處理器。全世界超過95%的智能手機和平板電腦都採用ARM。基於ARM 技術的微處理器應用約佔據了32 位微處理器75 %以上的市場份額。
  • 阿里自研NPU將於下半年推出,阿里雲十年再出發,達摩院加持 | 機器之心摘要:自研的第一款阿里 NPU 2019年下半年將正式發布,且在同等晶元裏性能領先十倍以上。早在2018年阿里宣佈達摩院在研發一款神經網路晶元——Ali-NPU, 該晶元將運用於圖像視頻分析、機器學習等 AI 推理計算。之後全資收購中天微,中天微是中國大陸唯一基於自主指令架構研發嵌入式 CPU 並實現大規模量產的 CPU 供應商,專註於 32 位嵌入式 CPU IP 研發與規模化應用,面向多媒體、安防、家庭、交通、智慧城市等 IoT 領域,全球累計出貨超過 7 億顆晶元。
  • 華為P30 Pro發布,50倍變焦,黑夜拍成白天,7k起售,手機中的天文望遠鏡 | 量子位

    摘要:華為P30搭載了麒麟980處理器,該處理器是全球首次採用7nm製程工藝的移動手機SoC晶元,擁有69億個晶體管,集成了Mali-G76 GPU,再結合華為獨家的GPU Turbo,帶來了暢快的遊戲體驗。在拍人像時,AI HDR+機器學習技術讓逆光的照片也能十分清晰。在拍視頻的情境下,也能充分發揮暗光拍攝和光學防抖+AI防抖,讓畫面更清晰,電源鍵化身智能助理按鍵,可以一鍵召喚谷歌智能語音助理。

論文

  • [1812.00332] PROXYLESSNAS: DIRECT NEURAL ARCHITECTURE SEARCH ON TARGET TASK AND HARDWARE [報道原文][新智元解讀]摘要:MIT韓松等人團隊開發了一種高效的神經結構搜索演算法,可以為在特定硬體上自動設計快速運行的神經網路提供一個「按鈕型」解決方案,演算法設計和優化的機器學習模型比傳統方法快200倍。
  • [SysML 2019] DISCRETE ADVERSARIAL ATTACKS AND SUBMODULAR OPTIMIZATION WITH APPLICATIONS TO TEXT CLASSIFICATION 機器之心解讀摘要:以往對抗攻擊大多用於圖像識別網路,這篇文章用了一個更廣泛的對抗攻擊的定義,指出一個用於文本處理的網路也可以進行對抗攻擊。此方法較為新穎,它把矩陣輸入泛化到離散集輸入,因而衍生出許多相關應用,並不侷限於語言處理。
  • [SysML 2019] To Compress or Not to Compress: Understanding the Interactions between Adversarial Attacks and Neural Network Compression 機器之心解讀摘要:本文對神經網路壓縮和對抗攻擊的關係進行了研究。pruning 減少了網路的參數密度,對於用原網路作出的攻擊有較小防禦性,對參數和激活函數的大幅度量化也能使攻擊的轉移性變小。但是總地來說,黑客如果對大多數現有應用中的高 bit-width 壓縮過的網路進行攻擊,可以成功的攻擊原網路或者是別的壓縮過的網路。
  • 百度增強現實自動駕駛模擬系統登上 Science 子刊 | 機器之心 [science子刊]摘要:傳統的自動駕駛模擬環境都是根據遊戲引擎或高保真計算機圖形創建的,這種環境缺乏現實世界圖像的豐富性和真實性,訓練效果有限,擴展性差、成本高。為彌補這一短板,百度開發了一個增強現實的全新自動駕駛系統,利用激光雷達和相機掃描得到的街景圖像合成模擬環境。這一研究論文刊登在 3 月 27 日的《Science》子刊「Science Robotics」上。

開源項目

  • YuvalNirkin/face_swap: End-to-end, automatic face swapping pipeline
  • Oldpan/Pytorch-Memory-Utils: pytorch memory track code

    摘要:Pytorch內存跟蹤插件。

  • 6個JavaScriptd框架構建計算機視覺程序 | 機器之心 [原文]摘要:除了TensorFlow.js,還有基於雲的Amazon Rekognition,JS版本的OpenCV.js,tracking.js,獲取用戶正在看什麼的WebGazer.js,此外還有來自Google的three.ar.js,可擴展ARCore到前端,檢測和目標檢測整合進瀏覽器,是 AR 遊戲的完美工具。
  • idealo/cnn-exposed: Interpreting Convolutional Neural Network (CNN) Results [slide]摘要:理解CNN,可視化中間層feature map,繪製熱力圖,並有相關slide。
  • jphall663/awesome-machine-learning-interpretability: A curated list of awesome machine learning interpretability resources摘要:專註模型可解釋性的awesome-list項目。
  • linnanwang/AlphaX-NASBench101: Neural Architecture Search with Deep Neural Network and Monte Carlo Tree Search摘要:AlphaX是一個新的神經結構(NAS)搜索器,使用特定的搜索模型架構與Meta-DNN搜索預測模型來估計採樣結構的準確性。與隨機搜索相比,AlphaX構建一個在線模型來指導未來的搜索,且可用較少迭代次數便能逃出局部最優。實現細節見:AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search。

博文

  • Android Neural Networks API —— 一種神經網路軟體系統中間層的設計與實現 | 黎明灰燼博客

    摘要:隨著深度學習的進一步發展,用於減輕框架層和硬體廠商開發代價的「中間層表示」以各種形式湧現:包括採用編譯技術做圖優化的、制定模型文件格式的、操作系統中間層的。本文重點介紹了操作系統中間層的代表 Android Neural Networks API 的軟體架構、內部模塊交互方式,並討論了其設計。總體而言,Android Neural Networks API 簡潔有效,符合軟體系統的設計方法學。

  • 杜克大學終身教授陳怡然專訪:讓非主流成為主流,AI晶元的起源、現狀與前路 | 新智元摘要:陳怡然教授說道,通用晶元仍然會長期存在也是主幹,但隨著業務多樣性通用晶元可能會作為通用晶元的輔助,專用晶元的設計要經歷很長時間,行業特定設計(Domain specific design)。針對特定場景的重要步驟進行抽象和實現。專用晶元可能跟不上未來人工智慧發展,要麼技術上重構關鍵器件,要麼增加協處理器,要麼等待下一個生命週期。後摩爾時代對於AI晶元設計來說,晶體管目前做到更小的成本在增大,重點也在於如何在相同邏輯數量下提高計算效率,一是基於緊密結合業務的新器件和材料如特性像神經突觸的憶阻器,二是用新製造工藝如3D堆疊在單位面積堆更多層的存儲和計算邏輯,提高計算時的數據傳輸效率。未來的AI晶元發展會朝著軟硬體結合,業務結合為導向,雖然AI有泡沫但也是頭部公司和應用,還有很多問題待解決,AI沒有運算的支撐是不可能大量更好更有效的部署的。我們要更多的去重視它的計算平臺,更多的注重它在具體場景的實現。
  • 如何在CUDA中為Transformer編寫一個PyTorch自定義層 | 機器之心摘要:根據寫Transformer,學到許多關於 CUDA 如何工作的知識,以及諸如 block、線程、核函數、內存、同步、緩存這樣的概念,希望本文能夠對那些想要入門 CUDA 性能優化的人有所幫助。此外,作者提到 python 的逐行性能分析器line_profiler,在要分析的函數頂部添加「@profiler」裝飾器後,在命令行中用「kernprof」替換「python」來運行分析器。
  • 再見,Yarn!滴滴機器學習平臺架構演進 | AI前線

    摘要:不同公司都有自己的機器學習平臺,但就平臺所要解決的問題和技術選型基本還是大同小異。所謂大同是指大家所要處理的問題都相似,技術架構和選型也差不太多,比如都會使用 GPU 集羣、採用 Spark 或 K8s 平臺等。所謂小異是指各家規模不同,各家都在結合自己的情況、所處的階段並根據自己的特點解決平臺化的問題。

    滴滴機器學習平臺的治理思路主要是:減少重複、提高效率。本文將對滴滴的機器學習平臺進行全面解讀,重點分享機器學習平臺不同階段所要解決的問題,以及解決問題的思路和技術方案。針對框架層自主研發了深度學習框架 IFX,並適配於 GPU 伺服器和移動端平臺。由於GPU伺服器上 CUDA 存在 context 管理的問題,所以實現了一種 GPU 上的並發機制,有效地繞開了這些問題所帶來的額外開銷,另外對大量的 OP 做了優化,使得 IFX 的性能遠高於 Tensoflow 乃至 TensorRT ;IFX 針對移動端的不同硬體配置,比如:流水線長度、順序亂序、超標量等特點進行指令重排、訪存優化,結合業務的計算特點,使得 IFX 的性能取得不俗的表現:在 IFX 的優化過程中,大量的重複工作基本在 Tuning Blas 計算,由於硬體架構不同,不同模型的計算量、計算訪存比、計算訪存模式都不同,在極高性能要求下都需要綜合這些具體的情況做針對性的優化。為解決這類問題,平臺開發了 Autotuning 工具鏈,包括 Kepler、Pascal、Volta 架構的原生彙編器。對於用戶來講,只需要把 GPU 上的二進位代碼發給平臺,平臺就可產生在該 GPU 平臺上幾乎是最優,也就是當前最高性能優化後的二進位代碼。
  • 四種調試深度學習模型的方式 | 機器之心摘要:作者總結了四種調試深度神經網路的方法,分別是預測合成輸出、可視化激活值(通過在熱圖中繪製單元激活值,分析發現如無法傳導梯度的死神經元)、梯度分析(衡量模型能否追蹤長期依賴的一種簡單方法是去檢查輸入數據的每個時間步長對輸出預測的影響。如果後面的時間步長具有特別大的影響,則說明模型沒有有效地利用早期數據)、分析模型預測。此外,查看最好和最壞的樣本也是很有啟發性的。

?


Editor: github.com/ysh329

Project: awesome-embedded-ai


本作品採用知識共享署名-相同方式共享 2.0 通用許可協議進行許可。


推薦閱讀:
相關文章