2017年台湾人工智慧年会于11/9,10两天在中研院举办,

是由中研院资讯所和台湾资料科学学会共同主办。

这场年会总共多达2200多人参加,

包括众多业界和学界人士,

我认识的朋友当中包括在交大数学建模所硕士班的同学Summit和启豪都有参加,

两年前5月初被制服地图站长一起找去家齐女中外拍时认识的摄影师史旺基也有参加哩!

DSC_8974.JPG

IMG_8985.JPG

年会开幕先是科技部政务次长苏芳庆致词,

接下来才进入主题演讲。

 

第一场主题演讲是由Google Taiwan的董事总经理简立峰主讲的 "Taiwan's Opportunities in the AI-First World" ,

他说到自从AlphaGo的新闻引发了全世界人工智慧科技发展的潮流,

最近科技部也宣布将要投资160亿在AI产业上。

他还提到现在AI大多都是做大量图像资料的应用,

目前主要应用在机器翻译(Machine Translation)、语音辨识(Speech Recognition)和影像辨识(Image Recognition)上。

其中自驾车的电脑视觉(Computer Vision on Self-Driving Cars)是近2~3年来在AI科技最具代表性的应用,

然而我们Lab就是在做这方面,

面对的竞争和挑战应该也会是最激烈的,

真觉得承受的压力好大啊!QQ

简经理说台湾在AI产业最大的问题是在开发平台(Open Source)的建立和利用是相对较弱的,

无论是学界和业界都必须善用github这类的开发平台资源。

 

他还提到2007年手机世代来临,

iPhoneAndroidFacebookYouTube等,app开发起步。

网路时代主要公司几乎都在2007年出来,

而台湾也是Google Play全世界前5大市场(排名第4)。

数位平台的出现让全世界人们的食衣住行育乐都也数位化,

包括Amazon、Netflix、Apple iTunes、Pixar、LinkedIn、Airbnb、Uber...等公司成立与崛起。

然而全世界400多万个app

每天都被使用的只有8个。

网路世代在app相对封闭,

用一个app就被封闭在他的世界里。

新的app尽管有很多marketing也不一定能增加user

现在app开发只要user不够多就是会被淘汰掉。

 

网路世代的来临,

也让全世界的科技产业几乎被网路业者主导,

现在15Internet Companies包括美国11家和中国4家,

毕竟现在用远端的商业服务(Digital Service Economy) 产生的新经济模式,

讲求的是使用者多和大量资料,

美国和中国这两个大国人口数庞大当然使用者就超多,

原本也是科技强国的几个小国像是日本、南韩、英国、法国、德国等就相对较吃亏了。

 

简经理提到现在全世界AI的发展主要趋势有以下这几点

  1. 手机更聪明,AI -> 成为新的supercomputer
  2. 硬体加速AI
  3. 家庭人工智慧(AI at Home) (2017年卖出2400万台Smart Speakers,是兵家必争的战场!)
  4. 车辆人工智慧(AI on Car)
  5. 无人机(Drone)
  6. 机器人(Robotics)

他提到台湾在AI发展方面硬体有优势,

但是AI应用要把握。

台湾常常在科技发展上缺乏应用的习惯和经验,

导致时常没赶上现在的趋势。

他认为台湾发展AI应该要往应用面去走

用硬体去跨领域,

把软体人才放进放进医疗科技、工厂、...等各个领域中,

达到异业整合(包括智慧医疗、智慧照护、智慧制造、智慧汽车),

以及产业世代整合(包括新旧产业整合、实体与数位产业整合、传统产业网路化、数位化)。

 

在享用完茶点后,

早上11点各讲座接著展开,

每个时段都有5场讲座分别在人社馆3间会议室以及学术活动中心2间会议室,

我先留在国际会议厅中听接下来了两场讲座。

 

首先是Google研究科学家纪怀新主讲的 "Optimizing for User Experience with Data Science and Machine Learning" ,

纪怀新在Google领导一个著眼于推荐系统、机器学习与社会互动的研究团队,

在 YouTube、Google Play Store和Google+等社群平台的推荐功能做了大幅的性能提升。

他认为AI结合机器学习要能达到增进使用者经验是很重要的事。

他们团队总是在探讨要如何衡量、创造一个metrics,

再Optimize用户的体验,

做了optimization后是否达到impact,

达到想要的效果让用户受益。

他分享了4个故事,

  1. 多语言社群互动(Interlingual Social Interaction)

要利用社群媒体(Social media)来减少隔阂(isolation),

并透过Graph Mining来测量社群网路连接的分布(Distribution of social network connection (Followers))。

现在有很多paper在做社群网路的measurement。

他希望在G+能做到Connecting People Across the World,

但是面临的挑战就是如何跨越语言隔阂,

所以在Google翻译的技术增进也相当重要,

更大的挑战则是机器对语言的定义问题,

包括多语言组合,

以及同一单字或词汇在不同国家有布一样的意义。

后来G+ Translate20138月启用,造成很大的影响。

  1. 循序推荐(Sequential Recommendation)

ContextMachine Learning做,

并且使用Sequential RNN来做推荐系统(recommendation system)。

毕竟语言是以时间序列的方式产生的,

然而时间是因果关系的重要因子(Time is an important factor in causality)。

他们团队创造了 Novalty: Time-based sequential RNN,

将在明年2WSEM发表paper。

  1. Focused Learning

举例来说包括电影推荐系统对于不同世代的效度差异很大,

因此在系统的深度学习的三步骤中训练(Training)、测试(Testing)和验证(Validation),

将验证分开来做。

  1. Deep Retrieval

要了解并衡量你要对哪个东西做最佳化,

毕竟最佳化在真实世界里是很复杂的。

 

接下来是同样在Google的工程师邱中镇,

他是担任Google Brain的软体工程师。

演讲的主题是 " Recent Advances of Deep Learning in Google "

他首先谈起影像分类(Image Classification)技术上的突破,

从Yann LeCun提出的最初始的CNN(卷积神经网路)模型,

到2012年的AlexNet、2014年的VGG,

到了2015年Google Research提出了Inception Network,

网路的卷积层大幅增加让结构更复杂也大幅提升了运算性能。

然而对于类神经网路系统,

大家觉得本质跟过去一样,

只是变深变厚变复杂,

但就是应用性提升了才吸引很多目光。

他提到Google运算资源很多,

大家有阵子很爱训练超深的网路,

但实际上却获得相反结果。

后来发现处理layer-to-layerinputoutput以及调整结构(architecture)是件重要的事情。

如果能尝试设计一个学习网路让机器去学习如何设计一个网路(Design a learning network to learn the design of a network),

达到Learning-to learning的效果,

机器设计出来的network其实在特定domain中随著时间可以比人类有更强的效能,

又运用更少的运算资源。

做法是处理Sequential Data,

利用RNN(Recurrent Neural Network)和Sequence-to-sequence model,

attentionidea加进去。

这样只需要100多行的程式码,

比起原先的phrase-based mechanism(10万多行程式码)简单很多,

并且大幅降低RNN的工作量。

 

Transformer model: Autoregressive pure attention model

 

GoogleDeep Learning的技术用在健康照护(Health Care)上面 (增进Google产品研发)

包括应用在视网膜症状辨别、癌症辨别、等

设计预测模型(prediction model)让医生方便判断是否要回诊,

有什么task、处方(prescription)等都能给一些reminder。

 

他提到Google在AI的重要应用之一是机器人,

机器人的学习方式包括借由观察人类的示范从中学习(Learning from demonstration),

还有透过模拟去学习(Learning from simulation),

在云端(Cloud)上做大量运算,

并设计奖励方式让机器人遵照原先的示范(Design rewards for robots to follow original demonstration)。

但是训练机器人要避免Reality gap

否则机器人会钻漏洞。

在自驾车(Self-Driving Cars)的应用是抓取动态资讯,

visionroboticsidea结合作监督是学习(supervised learning)

Google也将AI应用在艺术方面软体的开发,

包括音乐产生(Music generation)以及画图(Sketch RNN)。

 

中午我就跟启豪领了便当在找座位一起吃饭,

启豪现在所在的科技公司都在做AI,

我们硕士已经毕业5年了,

总算在参加这场重大的年会中再次相见真是难得啊!

 

我们还在4楼的各公司摊位看一看,

包括趋势科技、联发科和鸿海,

还有玉山银行、国泰人寿、KKBOX等。

IMG_8981-2.jpg

 

下午1点半第二场主题演讲展开,

由HTC Research & Healthcare(健康医疗事业部)的总裁张智威主讲 "Representation Learning on Big and Small Data" ,

主要提到HTC于去年成立的健康医疗事业部,

提供精准医疗的产品和服务,

像是Tricorder以深度学习及转换学习(Transfer Learning),

创造出微型医药级自我诊断工具。

他们开发了一个深度学习和AI的公开资源平台Deep Q医学百科,

让一般民众能快速掌握疾病的定义、症状、病因、诊断及治疗和药物参考等内容。

医生也能将其用于医疗应用和症状检查上。

此外HTC健康医疗事业部也跟多家医院进行产学合作,

他们利用VR(虚拟实境)、AR(扩增实境)结合AI的技术开发了很多智慧医疗产品。

尤其UCLA医学中心在脑神经研究、症状检测和手术方面受惠良多,

可以发现HTC在智慧医疗上的贡献还蛮大的。

张总经理还提出了Proactive的概念,

希望借由AI云端服务,

持续监测生理状况,

以降低成本且提供较为有效的个人化医疗。

 

在主题演讲完后就遇到另一位硕士时的同学Summit,

上一次遇到他是3年前跟他在公馆吃饭的时候了,

当时他中研院的研替快做完了,

后来他自行创业都一直在忙于新创公司的事情,

这一两年来我常上台北但是一直都没时间见面,

这次总算在人工智慧年会中再次相见。

Summit对于Deep Learning和AI方面做了蛮多的,

他还在Taiwan R User Group中担任共同创办人,

这个群组也办过多次读书会和分享会哩!

 

接下来我继续听清大电机孙民教授主讲的 "Training a Deep Agent to See and Interact",

首先简介了Deep Agent的概念,

主要构成是用数学的model和一个DNN系统,

要训练这样的agent看到东西后就做出因应互动,

透过语言和动作来互动。

最近很红的AlphaGO就是一个例子,

看到棋谱时做出因应下一步棋子放在哪里。

他还提到IMAGENET是一个很实用的影像资料库,

对于agent的训练相当适宜。

 

语言反应是常见的训练agent的方式,

原理是用CNN编码(encode)看到的东西,

再用RNN产生描述文字。

先前史丹佛大学就有做一个训练机器根据影片内容产生标题的实验。

(详细可看 "Video Title Generation, Zhen et al. EECV 2016 Stanford" )

另外清大也有在做 "Show, Adapt and Tell" 的技术。

针对鸟类、花卉做出辨识、描述和评论。

Allen Institute for Artificial Intelligence有举办THOR Challenge,

就是机器视觉理解(Visual Understanding Across Modalities)相关的比赛。

 

接著我到第一会议室听盾心科技(Umbo Computer Vision)的首席科学家吴亭范主讲的 " 从雏形到千台连网相机的挑战 "

盾心科技是2014年新成立的新创科技公司,

应用在安控领域的人工智慧影像辨识软体,

并能让监视器自己判断危安事件。

其基于电脑视觉与机器学习技术所开发出来的人工智慧影像辨识软体,

不仅可以侦测出异常,

还可以发挥自我学习与分析能力,

在短时间内借由监控画面展开学习,

并辨识影像中的物件与事件,

像是侵入、群众聚集、火灾、抢劫等特殊危安事件。

一旦发生意外或灾害,

即可透过系统即时通报负责单位,

降低酿成意外或悲剧的机率,

且进一步争取更多救援时间。

在他们开发软体时面临最大的挑战包括系统扩充能力 (Scalability) 与演算法通用性 (Generalizability) 的考验,

以及平时表现好的模型在资料不足的地方严重失常,

包括在夜晚情境、下雨情境、浓雾情境等等。

后来这些问题都可以使用既有的电脑视觉和机器学习演算法来解决。

听到他们在做语意分割(semantic segmentation)和物件侦测(object detection)的东西也感到兴趣,

并且他们也有在使用Bayesian SegNet呢!

 

在下午茶休息时间过后我回到主会议厅,

要听的讲座是台大资工系主任庄永裕教授主讲的  "Deep Learning for Computational Photography"

将Deep Learning应用在计算摄影学(Computational Photography)上,

身为有在玩摄影的对这主题当然很感兴趣啦!

3D Computer Graphics -> Computer Vision

他说摄影很讲求真实,

深度学习应用在影像处理方面,

界会直接用,

但是科学家要求真。

然而深度学习现今缺乏理论贡献,

无法解释为什么可以有这么好的表现。

传统摄影里的人工后制:曝光不同产生不同对比度。

数位相机:化学感光变成数位感光。

感测器的限制导致不完整不完美的场景取样,

若加上计算得到的结果则非纯物理光学结果,

投入多少计算达到多少目标。

他说摄影常见的缺陷主要包括摄影者的缺陷、相机本身的缺陷和场景的缺陷。

摄影者的缺陷主要有对焦没对好、选用不对的参数、手震等,

若透过计算可以处理缺陷,

将影像品质修好或接近真实。

场景不完美:雾霾、画面有杂物,

现在的技术可以达到Dehazing处理、移除物件、Re-composition等。

相机不完美则包括Sensor array受到杂讯(noise)干扰,

可以用数位演算法去除杂讯。

至于相机本身还有解析度(Resolution)限制、Dynamic Range (色阶的问题)、Color (RGB channel的问题)等,

这些则是各大厂牌的相机都会在这些方面有其优点及其缺点,

然而这些相机的背后设计也是根据人类视觉,

以线性影像推导彩色影像。

Deep Learning在计算摄影学的应用是要让相片变得更好,

目前的技术包括Demosaicking可以用来填补空白。

(ARI是传统的Demosaicking最好的演算法)

至于整个Pattern要设计得最好则是要凭经验,

包括Color Mask要怎么设计,

取样某种颜色做加权平均 (filter, convolution)等。

在影像的资料库方面他认为PASCAL VOC 2007的物件分类会有一些限制,

而且色彩比较不鲜艳,

机器会把compresseddatebase也学起来。

而Flickr500的影像资料库无论是画质、色彩和解析度都比较好。

DMCNN-DR可降低force color的产生

Bayer Pattern:让深度学习网路辨别pattern

其他还有Color Remapping、Contrast Enhancement。

庄教授说可以训练机器从摄影师修图的结果来学习(Learning from photographers),

毕竟利用人工雕饰来得到比现有的照片更接近人对你期待的结果。

另外他还提出了未来在计算摄影学也可以使用非监督式学习(Unsupervised),

让机器能由一张不好的照片想办法去接近好的照片,

这时候如何设计GeneratorDiscriminator就很重要。

这场讲座可以发现AI和Deep Learning对摄影学方面的应用也是非常棒的议题,

听完蛮有感觉的呢!

 

最后一场讲座我则是到学术活动中心大礼堂听NVIDIA的刘冠良主讲的 "Defect Inspection with Deep Learning" ,

刘冠良是成大的校友,

毕业于资管所博士班,

他先前在8/11那天NVIDIA在成大办的研讨会中有回成大演讲,

当时我就有去听。

他这次主讲的内容是Deep Learning演算法应用在生产线上产品瑕疵检测方面,

其中将包含利用 CNN 以 object detection 的方式对目标物做检测,

以及 FCN 以 pixel in, pixel out 的方式 segment 瑕疵范围,

或透过 autoencoder 了解待测物结构后将瑕疵当作 anomaly 检测出来。

 

晚上6点半是交流餐会,

是餐厅外包来的自助餐哩!

餐点都蛮不错的甚至还有炉烤火腿哩!wwww

我跟Summit和他在台大数学系的两位同学一起吃晚餐和互相交流,

我也跟他们分享我们Lab在Deep Learning应用方面的研究,

以及我从暑假以来自学Machine Learning和Deep Learning的心路历程和经验。

Summit说其实很多人都是最近才开始接触Deep Learning的,

他很鼓励我多学理论、多写code、多跑data、多接触一些不同的应用。

我们在那吃到快8点才各自回去。

IMG_8986.JPG

 

 

相关文章