想通过多渠道了解这个领域


知乎上比较火的活跃 NLP 老师之前都有提及,这里我就推荐几个网站和公号:

Sebastian Ruder:Deep Mind 的大牛,经常会总结各个会议的 Highlights 以及 Trendings

Arixv Sanity:Arixv 版的热搜,由 Karpathy 维护,可以选择 cs.CL 来看目前最火的 NLP 文章

中国中文信息学会:CIPS,国内 NLP的相关会议、讲习班的信息可以从这里获取,不要小看国内的会议,随著中国的 NLP 的蓬勃发展,参加 CIPS 暑期学校等也是不出国门和大佬们交流的好机会

Paperweekly(paperweekly): 质量高的 AI (特别是 NLP)公众号,也有网页版,大家有好的工作也可以在上面分享

AINLP(nlpjob):我爱自然语言处理博主的公号,集成了不少好玩的东西,比如最近很火的废话生成器,也有很多高质量的教程和论文笔记。

哈工大SCIR(HIT_SCIR): 哈尔滨工业大学社会计算与信息检索研究中心维护的公众号,会有相关的会议信息(最近 ACL 的新投稿政策)、组内论文推荐等

TsinghuaNLP: 清华大学自然语言处理与社会人文计算实验室维护的公众号,也是干货多多


哈哈趁理发排队的时候来答一发

我就按平时自己获取进展信息的渠道给题主一些建议⊙?⊙

首先一个不得不安利的网站是

Browse state-of-the-art in ML?

paperswithcode.com图标

这个 网站包含了不少方向,进入NLP的主页就有几十个子方向,

里面包括每个方向一些经典的数据集以及在这些数据集上最新的达到SOTA的文章,以及它们的代码!!每次当我想进入一个相对陌生的小方向的时候我一般会上这个网站找到该方向下的近年论文,把它们都下下来看一遍,经典的想做进一步了解就再看看代码。除了这样,有时候遇到一个任务不太清楚这个方向有哪些常用方法可以拿来用的时候也可以来这找代码,用这个网站比用gayhub的导向性可强太多了~

然后就是soulbliss大佬维护的这个专栏:

NLP-conference-compendium?

github.com

他把NLP几个主流的顶会ACL, EMNLP, COLING, NAACL等等上的一些有代表性的论文、tutorial都按年份整理好了,可以上去找一找你感兴趣的来看一看。

再者就是一个叫AI研习社的网站,

AI研习社 - 研习AI产学研新知,助力AI学术开发者成长。?

www.yanxishe.com

他们有个特别好的运营方式就是每当一个顶会的接收结果出来后小助手就会把这个会的论文打包发布出来,并且给每个会议都组一个讨论组,可以在里面发布一些观点或者疑问之类的。而且他们有个超赞的活动就是每次都会放出几个顶会参与赞助名额!!上次就送了我一张CCF-GAIR的门票,不过我去不了送人了哈哈哈。想详细了解上面这些就关注一波AI研习社的公众号然后把小助手加上(小助手看到了这条回答记得后台打钱)

最后就是一些活跃的公众号,博主,知乎专栏blabla,这个题主逛久了就慢慢都认识了,不过有些时候为了恰饭他们的内容质量也不总是有保证哈哈哈,需要你有一点辨别能力。

到我了,剪头去咯嘿嘿


经提醒,想起来还有一个也相当不错的网站,就是这个:

Tracking Progress in Natural Language Processing?

nlpprogress.com图标

这个跟第一个网站的功能比较接近,也是收集了NLP下面很多个track的一些sota论文及其代码;虽然界面没有第一个好看,但优点是靠大家一起维护的,所以更新速度比较快~


看楼上有人提了Seba老哥的gayhub项目,那这个回答稍微细讲一下怎么用:

这里贡献一个简单快捷的方法,是答主做毕设的时候发现的:

1.在哪里

https://github.com/sebastianruder/NLP-progress

(当然去全球最大的同性交友平台找啊)雾

sebastianruder/NLP-progress?

github.com图标

(DeepMind的Scientist,先膜为敬)

这位老哥搞了个github repo,专门供大家把NLP各个方向领域的最新进展贡献集成过来

这个项目已经一万两千多star了


2.怎么用

2.1 目录

Readme开门见山一个目录,各个热门方向基本全部囊括:

包括语音识别, 信息抽取, 语言模型,机器翻译,命名实体识别,词性标注(PoS Tagging,不知道这么翻对不对),语义分析(Semantic Parsing),文本分类,blabla

简直耳熟能详的都在里面啊!

Readme原文后面还有一大堆,都是讲你如何给这个项目贡献的,作为白嫖战士,不看,略过。只有这个目录有用。

值得一提的是,这个项目还有中文NLP的跟进,现在有实体链接,中文分割两个子类,项目做中文相关的同学也可看。

2.2 然后呢

从这个目录,我可以直接导航到我想看的细分方向。比如说答主毕设做的Text Classification,那我想康康目前最牛的model长什么样/到哪里了:

最强model排名、论文原文、官方源码直接全都给你了(后面Official Code直接链到模型原UP主的repo)而且当前方向下大家常用的数据集打榜结果都会有(比如对于Text Classification,就是AG News,DBPedia 和 TREC这几个数据集上的效果排行都有)

比如答主的paper要学习State-of-the-art的模型,那我直奔XLNet就ok了。

答主觉得这个repo的可贵之处在于,他是整个社区都在贡献,所以更新速度很快(以至于答主前一个SOTA模型的related works还没写完,2019年新SOTA就更新上去了,掀桌)

3. 总结

答主觉得不管你是nlp的phd,还是在跟老板做项目的学生,还是想ctrl c+v无脑扔最强模型拿到最佳效果的白嫖党(不是),经常盯著这个repo来跟进NLP最新进度,理应是单位时间获取有效信息量最大的效率方法。


NLP的最新进展可以从以下几个方面获取:

1. NLP三大顶会的最新论文,分别是ACL、EMNLP以及NAACL.(之前同为NLP四大顶会之一的COLING影响力渐渐不如前几年,不过相比其他水会还是要好的),可以搜索 ACL Anthology ,获取最新的论文。每次开会前,国内一些机构(比如中文信息学会CCF等)还会组织一些中稿学者进行提前交流分享,这也是一个获取NLP最新进展的途径。

2. 养成每天浏览arxiv的习惯(NLP方向的论文到http://arXiv.org &> cs &> cs.CL下搜索),arxiv是学者提前提交自己的工作的平台,当然这其中也有很多是来占坑的。它其实就是一个大的资料库,你需要自己筛选甄别出对你有价值的文章,时刻保证自己的科研嗅觉。

3. 关注NLP/人工智慧等领域大牛的知乎、微博、推特、公众号或者个人网站,他们会时不时发布一些NLP或者其他相关领域的最新动态和进展。就知乎来讲,NLP领域比如清华大学刘知远老师 @zibuyu9 ,复旦大学邱锡鹏老师 @邱锡鹏 ,Paper Weekly博主张俊老师 @张俊 ,每天各种CV/NLP等资讯分享可关注爱可可老师@爱可可-爱生活 (微博同名),等等。


你也可以去查看本文作者刘知远的知乎

1. 国际学术组织、学术会议与学术论文

自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合,是计算机科学与语言学的交叉学科,也是人工智慧的重要方向。与其他很多计算机分支方向类似,由于技术发展迅速,NLP/CL重视学术会议胜过学术期刊。由于发表周期短,并可以通过会议进行交流,绝大多数最新的重要科研进展都首先发表在学术会议上,而学术期刊更多用来发表会议论文的扩展整理版本,起到归档作用。

NLP/CL领域重要的国际学术会议均由国际专业学会发起和举办。NLP/CL最权威的国际专业学会是The Association for Computational Linguistics(ACL,URL:The Association for Computational Linguistics Member Portal),这个学会主办了NLP/CL历史最悠久也最权威的国际会议,即ACL年会。ACL学会还会在北美和欧洲召开分年会,分别称为NAACL和EACL。此外,ACL学会下设多个特殊兴趣小组(special interest groups,SIGs),性质类似大学校园的兴趣社团,聚集了NLP/CL不同子领域的学者。其中比较有名的包括SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。这些SIGs也会组织一些国际学术会议,其中比较有名的就是SIGDAT组织的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL组织的CoNLL(Conference on Natural Language Learning)。此外,还有一个全称International Committee on Computational Linguistics的老牌NLP/CL学术组织,每两年组织International Conference on Computational Linguistics(COLING)国际会议,也是NLP/CL的重要学术会议。NLP/CL领域的绝大部分重要进展都发表在这些学术会议上。

从论文水平和关注度来看,一般公认ACL、NAACL、EMNLP、COLING为NLP/CL最重要的四大顶级学术会议。其中ACL是公认最权威的NLP/CL会议,参会人数也最多。ACL 2015在北京举办,参会人数为1200;ACL 2016在德国举办,参会人数达到1600多人。美国是NLP/CL重镇,因此NAACL的论文质量也非常高。EMNLP是相对年轻的学术会议,创立于1995年前后。创立EMNLP的目的就是关注统计机器学习方法在NLP/CL中的应用。因此,随著最近10余年互联网高速发展,基于大规模数据的机器学习方法特别是近年来深度学习大行其道,最近几届EMNLP发展很快,例如EMNLP 2016有800余人参加。COLING是老牌的NLP/CL的学术会议,历史非常悠久。也许由于每两年召开一次的传统,似乎不太适应最近NLP/CL技术高速发展的特点,近年来COLING论文关注度有较为明显的下降,不过仍然是NLP/CL值得关注的重要会议。

作为NLP/CL领域的学者最大的幸福在于,ACL学会网站建立了称作ACL Anthology的页面(URL:ACL Anthology),为其主办的所有国际学术会议论文提供免费下载,甚至也囊括了其他组织主办的学术会议,例如COLING、IJCNLP等。该平台还支持基于Google的全文检索功能,可谓一站在手论文我有。

NLP/CL的旗舰学术期刊是Computational Linguistics(MIT Press Journals - Computational Linguistics),发表过很多经典学术论文。该期刊每期只有几篇文章,平均质量高于会议论文,而且一般内容比较全面详细,值得认真研习。特别是其中的综述文章,是快速全面了解相关NLP/CL任务的最好文献。此外,ACL学会为了提高学术影响力,也创办了论文要求篇幅相对较短的Transactions of ACL(TACL,URL:http://www.transacl.org/),值得关注。值得一提的是,这两份期刊也都是开放获取的。此外也有很多与NLP/CL有关的期刊,如ACM Transactions on Information Systems,ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

根据Google Scholar Metrics 2016年对NLP/CL学术期刊和会议的评价,ACL、EMNLP、NAACL、LREC、Computational Linguistics位于前5位,COLING排在第9位,基本上反映了本领域学者的关注程度。

NLP/CL作为交叉学科,其相关领域也值得关注。主要包括以下几个方面:(1)信息检索和数据挖掘领域。相关学术会议主要由美国计算机学会(ACM)主办,包括SIGIR、WWW、KDD、WSDM等;(2)人工智慧领域。相关学术会议主要包括AAAI和IJCAI等,相关学术期刊主要包括Artificial Intelligence和Journal of AI Research;(3)机器学习领域,相关学术会议主要包括ICML,NIPS,AISTATS,UAI等,相关学术期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近兴起的knowledge graph研究论文,就有相当一部分发表在人工智慧和信息检索领域的会议和期刊上。我国计算机学会(CCF)制定了一份「中国计算机学会推荐国际学术会议和期刊目录」(CCF推荐排名),已经经过若干次重要修订,是迅速了解每个领域主要期刊与学术会议的方式。

最后,ACL学会维护了一个wiki页面(ACL Wiki),包含了大量NLP/CL的相关信息,如著名研究机构、历届会议录用率,等等,都是居家必备之良品,值得深挖。例如,我们可以从相应wiki页面(https://www.aclweb.org/adminwiki/index.php?title=2016Q3_Reports:_Program_Chairs )看到ACL 2016 PC主席的工作总结,了解投稿主题分布、审稿流程、录用决策方式、录用情况等信息,这对研究选题、改进论文写作和提高投稿命中率很有帮助。

值得一提的是,随著深度学习技术的兴起,NLP/CL的新模型层出不穷,这两年来有越来越多的国际顶级学者选择在预印本文库http://arxiv.org上首先发布自己的最新成果,已经成为了解NLP/CL深度学习最新技术的重要信息源。由于http://arxiv.org上的论文发布并不包括同行评审,发布速度比学术会议更快;但相应的,http://arxiv.org上的论文良莠不齐,不乏内容粗劣不堪的占坑之作。因此,建议大家在关注http://arxiv.org论文时,特别注意那些来自著名研究机构(如Google DeepMind、Facebook AI Research等)和著名学者(如Yoshua Bengio等)的论文,而对来源不太知名的论文则应多些审慎态度,避免浪费时间和精力。

2. 国内学术组织、学术会议与学术论文

国内NLP/CL领域最权威的专业学会是中国中文信息学会(654 - 没有执行单元)。通过学会理事名单(中国中文信息学会),基本能够了解国内从事NLP/CL的主要单位和学者。学会每年组织很多学术会议,例如全国计算语言学学术会议(CCL)、全国信息检索学术会议(CCIR)、全国社会媒体处理大会(SMP)、全国知识图谱大会(CCKS)、全国机器翻译研讨会(CWMT),等等,是国内NLP/CL学者进行学术交流的重要平台。近年来国内NLP/CL学者在国际会议上日益活跃,因此ACL、COLING等国际顶级会议也选择在国内举办。2010年在北京召开的COLING,以及2015年在北京召开的ACL,中文信息学会都是主要承办者,这一定程度上反映了学会在国内NLP/CL领域的重要地位。此外,中国计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议(NLPCC)也是最近崛起的重要国内学术会议。

中文信息学会下设一个青年工作委员会,基本上囊括了国内大部分NLP/CL的一线青年学者(中国中文信息学会青年工作委员会 " 委员介绍),在全国各地不定期地组织NLP/CL专题研讨会,例如知识图谱研讨会等。从今年开始,青工委还组织很多顶级会议的国内论文报告会,如IJCAI 2016、ACL 2016、EMNLP 2016、COLING 2016等等,基本反映了国内NLP/CL的最新重要进展,是很好的学习交流机会。这些活动信息均会在青工委微信公众号上发布,大家可以在微信中搜索「中文信息学会青年工作委员会」关注最新动态。

中文信息学会旗下的《中文信息学报》是国内该领域的重要学术期刊,发表过很多篇重量级论文,目前由清华大学孙茂松教授担任主编。国内著名的《计算机学报》、《软体学报》等期刊上也常有NLP/CL论文发表。

3. 社会媒体

过去国内主要的线上交流平台是水木社区BBS的AI、NLP等版面,如今早已成为明日黄花。随著社会媒体的发展,越来越多学者使用新浪微博、微信群和知乎,可以进行便捷地学术交流。很多在国外任教的老师和求学的同学也活跃在新浪微博和知乎上,例如王威廉(Sina Visitor System)、熊辰炎(熊辰炎 - 知乎)等,经常爆料国际上的最新动态,非常值得关注。总之,学术研究既需要苦练内功,也要重视交流。「言者无心、听者有意」,也许其他人的一句话就能点醒你苦思良久的疑惑。

你也可以去查看本文作者刘知远的知乎

4. 如何快速了解某个领域研究进展

最后简单说一下快速了解某领域研究进展的经验。你会发现,搜索引擎是查阅文献的重要工具,尤其是谷歌提供的Google Scholar,由于其庞大的索引量,将是我们披荆斩棘的利器。

当需要了解某个领域,如果能找到一篇该领域的最新研究综述,就省劲多了。最方便的方法还是在Google Scholar中搜索「领域名称 + survey / review / tutorial / 综述」来查找。也有一些出版社专门出版各领域的综述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它们发表了很多热门方向的综述,如文档摘要、情感分析和意见挖掘、学习排序、语言模型等。Google Scholar上也有越来越多学者建立了个人的论文主页,可以方便地看到相关领域重要学者的研究脉络。最近AI2也建立了一个叫做Semantic Scholar的学术网站,提供更精细的作者和论文引用分析。

如果方向太新还没有相关综述,一般还可以查找该方向发表的最新论文,阅读它们的「相关工作」章节,顺著列出的参考文献,就基本能够了解相关研究脉络了。当然,还有很多其他办法,例如去http://videolectures.net上看著名学者在各大学术会议或暑期学校上做的tutorial报告,去直接咨询这个领域的研究者,等等。

转载自公众号「七月在线实验室」

↓↓

公号后台回复「666」。即可免费获得 七月在线【面试求职 第四期】课程+最新升级版《名企AI面试100题》电子书。

《名企AI?试100题》涵盖计算机语?基础、演算法和?数据、机器学习、深度学习、应??向 (CV NLP 推荐 ?融风控)等五?章节,每?段代码、每?道题?的解析都经过了反复审查或review。

部分内容展示

(点击图片可查看大图)

推荐阅读:
相关文章