想通過多渠道了解這個領域


知乎上比較火的活躍 NLP 老師之前都有提及,這裡我就推薦幾個網站和公號:

Sebastian Ruder:Deep Mind 的大牛,經常會總結各個會議的 Highlights 以及 Trendings

Arixv Sanity:Arixv 版的熱搜,由 Karpathy 維護,可以選擇 cs.CL 來看目前最火的 NLP 文章

中國中文信息學會:CIPS,國內 NLP的相關會議、講習班的信息可以從這裡獲取,不要小看國內的會議,隨著中國的 NLP 的蓬勃發展,參加 CIPS 暑期學校等也是不出國門和大佬們交流的好機會

Paperweekly(paperweekly): 質量高的 AI (特別是 NLP)公眾號,也有網頁版,大家有好的工作也可以在上面分享

AINLP(nlpjob):我愛自然語言處理博主的公號,集成了不少好玩的東西,比如最近很火的廢話生成器,也有很多高質量的教程和論文筆記。

哈工大SCIR(HIT_SCIR): 哈爾濱工業大學社會計算與信息檢索研究中心維護的公眾號,會有相關的會議信息(最近 ACL 的新投稿政策)、組內論文推薦等

TsinghuaNLP: 清華大學自然語言處理與社會人文計算實驗室維護的公眾號,也是乾貨多多


哈哈趁理髮排隊的時候來答一發

我就按平時自己獲取進展信息的渠道給題主一些建議⊙?⊙

首先一個不得不安利的網站是

Browse state-of-the-art in ML?

paperswithcode.com圖標

這個 網站包含了不少方向,進入NLP的主頁就有幾十個子方向,

裡面包括每個方向一些經典的數據集以及在這些數據集上最新的達到SOTA的文章,以及它們的代碼!!每次當我想進入一個相對陌生的小方向的時候我一般會上這個網站找到該方向下的近年論文,把它們都下下來看一遍,經典的想做進一步了解就再看看代碼。除了這樣,有時候遇到一個任務不太清楚這個方向有哪些常用方法可以拿來用的時候也可以來這找代碼,用這個網站比用gayhub的導向性可強太多了~

然後就是soulbliss大佬維護的這個專欄:

NLP-conference-compendium?

github.com

他把NLP幾個主流的頂會ACL, EMNLP, COLING, NAACL等等上的一些有代表性的論文、tutorial都按年份整理好了,可以上去找一找你感興趣的來看一看。

再者就是一個叫AI研習社的網站,

AI研習社 - 研習AI產學研新知,助力AI學術開發者成長。?

www.yanxishe.com

他們有個特別好的運營方式就是每當一個頂會的接收結果出來後小助手就會把這個會的論文打包發布出來,並且給每個會議都組一個討論組,可以在裡面發布一些觀點或者疑問之類的。而且他們有個超贊的活動就是每次都會放出幾個頂會參與贊助名額!!上次就送了我一張CCF-GAIR的門票,不過我去不了送人了哈哈哈。想詳細了解上面這些就關注一波AI研習社的公眾號然後把小助手加上(小助手看到了這條回答記得後台打錢)

最後就是一些活躍的公眾號,博主,知乎專欄blabla,這個題主逛久了就慢慢都認識了,不過有些時候為了恰飯他們的內容質量也不總是有保證哈哈哈,需要你有一點辨別能力。

到我了,剪頭去咯嘿嘿


經提醒,想起來還有一個也相當不錯的網站,就是這個:

Tracking Progress in Natural Language Processing?

nlpprogress.com圖標

這個跟第一個網站的功能比較接近,也是收集了NLP下面很多個track的一些sota論文及其代碼;雖然界面沒有第一個好看,但優點是靠大家一起維護的,所以更新速度比較快~


看樓上有人提了Seba老哥的gayhub項目,那這個回答稍微細講一下怎麼用:

這裡貢獻一個簡單快捷的方法,是答主做畢設的時候發現的:

1.在哪裡

https://github.com/sebastianruder/NLP-progress

(當然去全球最大的同性交友平台找啊)霧

sebastianruder/NLP-progress?

github.com圖標

(DeepMind的Scientist,先膜為敬)

這位老哥搞了個github repo,專門供大家把NLP各個方向領域的最新進展貢獻集成過來

這個項目已經一萬兩千多star了


2.怎麼用

2.1 目錄

Readme開門見山一個目錄,各個熱門方向基本全部囊括:

包括語音識別, 信息抽取, 語言模型,機器翻譯,命名實體識別,詞性標註(PoS Tagging,不知道這麼翻對不對),語義分析(Semantic Parsing),文本分類,blabla

簡直耳熟能詳的都在裡面啊!

Readme原文後面還有一大堆,都是講你如何給這個項目貢獻的,作為白嫖戰士,不看,略過。只有這個目錄有用。

值得一提的是,這個項目還有中文NLP的跟進,現在有實體鏈接,中文分割兩個子類,項目做中文相關的同學也可看。

2.2 然後呢

從這個目錄,我可以直接導航到我想看的細分方向。比如說答主畢設做的Text Classification,那我想康康目前最牛的model長什麼樣/到哪裡了:

最強model排名、論文原文、官方源碼直接全都給你了(後面Official Code直接鏈到模型原UP主的repo)而且當前方向下大家常用的數據集打榜結果都會有(比如對於Text Classification,就是AG News,DBPedia 和 TREC這幾個數據集上的效果排行都有)

比如答主的paper要學習State-of-the-art的模型,那我直奔XLNet就ok了。

答主覺得這個repo的可貴之處在於,他是整個社區都在貢獻,所以更新速度很快(以至於答主前一個SOTA模型的related works還沒寫完,2019年新SOTA就更新上去了,掀桌)

3. 總結

答主覺得不管你是nlp的phd,還是在跟老闆做項目的學生,還是想ctrl c+v無腦扔最強模型拿到最佳效果的白嫖黨(不是),經常盯著這個repo來跟進NLP最新進度,理應是單位時間獲取有效信息量最大的效率方法。


NLP的最新進展可以從以下幾個方面獲取:

1. NLP三大頂會的最新論文,分別是ACL、EMNLP以及NAACL.(之前同為NLP四大頂會之一的COLING影響力漸漸不如前幾年,不過相比其他水會還是要好的),可以搜索 ACL Anthology ,獲取最新的論文。每次開會前,國內一些機構(比如中文信息學會CCF等)還會組織一些中稿學者進行提前交流分享,這也是一個獲取NLP最新進展的途徑。

2. 養成每天瀏覽arxiv的習慣(NLP方向的論文到http://arXiv.org &> cs &> cs.CL下搜索),arxiv是學者提前提交自己的工作的平台,當然這其中也有很多是來占坑的。它其實就是一個大的資料庫,你需要自己篩選甄別出對你有價值的文章,時刻保證自己的科研嗅覺。

3. 關注NLP/人工智慧等領域大牛的知乎、微博、推特、公眾號或者個人網站,他們會時不時發布一些NLP或者其他相關領域的最新動態和進展。就知乎來講,NLP領域比如清華大學劉知遠老師 @zibuyu9 ,復旦大學邱錫鵬老師 @邱錫鵬 ,Paper Weekly博主張俊老師 @張俊 ,每天各種CV/NLP等資訊分享可關注愛可可老師@愛可可-愛生活 (微博同名),等等。


你也可以去查看本文作者劉知遠的知乎

1. 國際學術組織、學術會議與學術論文

自然語言處理(natural language processing,NLP)在很大程度上與計算語言學(computational linguistics,CL)重合,是計算機科學與語言學的交叉學科,也是人工智慧的重要方向。與其他很多計算機分支方向類似,由於技術發展迅速,NLP/CL重視學術會議勝過學術期刊。由於發表周期短,並可以通過會議進行交流,絕大多數最新的重要科研進展都首先發表在學術會議上,而學術期刊更多用來發表會議論文的擴展整理版本,起到歸檔作用。

NLP/CL領域重要的國際學術會議均由國際專業學會發起和舉辦。NLP/CL最權威的國際專業學會是The Association for Computational Linguistics(ACL,URL:The Association for Computational Linguistics Member Portal),這個學會主辦了NLP/CL歷史最悠久也最權威的國際會議,即ACL年會。ACL學會還會在北美和歐洲召開分年會,分別稱為NAACL和EACL。此外,ACL學會下設多個特殊興趣小組(special interest groups,SIGs),性質類似大學校園的興趣社團,聚集了NLP/CL不同子領域的學者。其中比較有名的包括SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。這些SIGs也會組織一些國際學術會議,其中比較有名的就是SIGDAT組織的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL組織的CoNLL(Conference on Natural Language Learning)。此外,還有一個全稱International Committee on Computational Linguistics的老牌NLP/CL學術組織,每兩年組織International Conference on Computational Linguistics(COLING)國際會議,也是NLP/CL的重要學術會議。NLP/CL領域的絕大部分重要進展都發表在這些學術會議上。

從論文水平和關注度來看,一般公認ACL、NAACL、EMNLP、COLING為NLP/CL最重要的四大頂級學術會議。其中ACL是公認最權威的NLP/CL會議,參會人數也最多。ACL 2015在北京舉辦,參會人數為1200;ACL 2016在德國舉辦,參會人數達到1600多人。美國是NLP/CL重鎮,因此NAACL的論文質量也非常高。EMNLP是相對年輕的學術會議,創立於1995年前後。創立EMNLP的目的就是關注統計機器學習方法在NLP/CL中的應用。因此,隨著最近10餘年互聯網高速發展,基於大規模數據的機器學習方法特別是近年來深度學習大行其道,最近幾屆EMNLP發展很快,例如EMNLP 2016有800餘人參加。COLING是老牌的NLP/CL的學術會議,歷史非常悠久。也許由於每兩年召開一次的傳統,似乎不太適應最近NLP/CL技術高速發展的特點,近年來COLING論文關注度有較為明顯的下降,不過仍然是NLP/CL值得關注的重要會議。

作為NLP/CL領域的學者最大的幸福在於,ACL學會網站建立了稱作ACL Anthology的頁面(URL:ACL Anthology),為其主辦的所有國際學術會議論文提供免費下載,甚至也囊括了其他組織主辦的學術會議,例如COLING、IJCNLP等。該平台還支持基於Google的全文檢索功能,可謂一站在手論文我有。

NLP/CL的旗艦學術期刊是Computational Linguistics(MIT Press Journals - Computational Linguistics),發表過很多經典學術論文。該期刊每期只有幾篇文章,平均質量高於會議論文,而且一般內容比較全面詳細,值得認真研習。特別是其中的綜述文章,是快速全面了解相關NLP/CL任務的最好文獻。此外,ACL學會為了提高學術影響力,也創辦了論文要求篇幅相對較短的Transactions of ACL(TACL,URL:http://www.transacl.org/),值得關注。值得一提的是,這兩份期刊也都是開放獲取的。此外也有很多與NLP/CL有關的期刊,如ACM Transactions on Information Systems,ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

根據Google Scholar Metrics 2016年對NLP/CL學術期刊和會議的評價,ACL、EMNLP、NAACL、LREC、Computational Linguistics位於前5位,COLING排在第9位,基本上反映了本領域學者的關注程度。

NLP/CL作為交叉學科,其相關領域也值得關注。主要包括以下幾個方面:(1)信息檢索和數據挖掘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIR、WWW、KDD、WSDM等;(2)人工智慧領域。相關學術會議主要包括AAAI和IJCAI等,相關學術期刊主要包括Artificial Intelligence和Journal of AI Research;(3)機器學習領域,相關學術會議主要包括ICML,NIPS,AISTATS,UAI等,相關學術期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近興起的knowledge graph研究論文,就有相當一部分發表在人工智慧和信息檢索領域的會議和期刊上。我國計算機學會(CCF)制定了一份「中國計算機學會推薦國際學術會議和期刊目錄」(CCF推薦排名),已經經過若干次重要修訂,是迅速了解每個領域主要期刊與學術會議的方式。

最後,ACL學會維護了一個wiki頁面(ACL Wiki),包含了大量NLP/CL的相關信息,如著名研究機構、歷屆會議錄用率,等等,都是居家必備之良品,值得深挖。例如,我們可以從相應wiki頁面(https://www.aclweb.org/adminwiki/index.php?title=2016Q3_Reports:_Program_Chairs )看到ACL 2016 PC主席的工作總結,了解投稿主題分布、審稿流程、錄用決策方式、錄用情況等信息,這對研究選題、改進論文寫作和提高投稿命中率很有幫助。

值得一提的是,隨著深度學習技術的興起,NLP/CL的新模型層出不窮,這兩年來有越來越多的國際頂級學者選擇在預印本文庫http://arxiv.org上首先發布自己的最新成果,已經成為了解NLP/CL深度學習最新技術的重要信息源。由於http://arxiv.org上的論文發布並不包括同行評審,發布速度比學術會議更快;但相應的,http://arxiv.org上的論文良莠不齊,不乏內容粗劣不堪的占坑之作。因此,建議大家在關注http://arxiv.org論文時,特別注意那些來自著名研究機構(如Google DeepMind、Facebook AI Research等)和著名學者(如Yoshua Bengio等)的論文,而對來源不太知名的論文則應多些審慎態度,避免浪費時間和精力。

2. 國內學術組織、學術會議與學術論文

國內NLP/CL領域最權威的專業學會是中國中文信息學會(654 - 沒有執行單元)。通過學會理事名單(中國中文信息學會),基本能夠了解國內從事NLP/CL的主要單位和學者。學會每年組織很多學術會議,例如全國計算語言學學術會議(CCL)、全國信息檢索學術會議(CCIR)、全國社會媒體處理大會(SMP)、全國知識圖譜大會(CCKS)、全國機器翻譯研討會(CWMT),等等,是國內NLP/CL學者進行學術交流的重要平台。近年來國內NLP/CL學者在國際會議上日益活躍,因此ACL、COLING等國際頂級會議也選擇在國內舉辦。2010年在北京召開的COLING,以及2015年在北京召開的ACL,中文信息學會都是主要承辦者,這一定程度上反映了學會在國內NLP/CL領域的重要地位。此外,中國計算機學會中文信息技術專委會組織的自然語言處理與中文計算會議(NLPCC)也是最近崛起的重要國內學術會議。

中文信息學會下設一個青年工作委員會,基本上囊括了國內大部分NLP/CL的一線青年學者(中國中文信息學會青年工作委員會 " 委員介紹),在全國各地不定期地組織NLP/CL專題研討會,例如知識圖譜研討會等。從今年開始,青工委還組織很多頂級會議的國內論文報告會,如IJCAI 2016、ACL 2016、EMNLP 2016、COLING 2016等等,基本反映了國內NLP/CL的最新重要進展,是很好的學習交流機會。這些活動信息均會在青工委微信公眾號上發布,大家可以在微信中搜索「中文信息學會青年工作委員會」關注最新動態。

中文信息學會旗下的《中文信息學報》是國內該領域的重要學術期刊,發表過很多篇重量級論文,目前由清華大學孫茂松教授擔任主編。國內著名的《計算機學報》、《軟體學報》等期刊上也常有NLP/CL論文發表。

3. 社會媒體

過去國內主要的線上交流平台是水木社區BBS的AI、NLP等版面,如今早已成為明日黃花。隨著社會媒體的發展,越來越多學者使用新浪微博、微信群和知乎,可以進行便捷地學術交流。很多在國外任教的老師和求學的同學也活躍在新浪微博和知乎上,例如王威廉(Sina Visitor System)、熊辰炎(熊辰炎 - 知乎)等,經常爆料國際上的最新動態,非常值得關注。總之,學術研究既需要苦練內功,也要重視交流。「言者無心、聽者有意」,也許其他人的一句話就能點醒你苦思良久的疑惑。

你也可以去查看本文作者劉知遠的知乎

4. 如何快速了解某個領域研究進展

最後簡單說一下快速了解某領域研究進展的經驗。你會發現,搜索引擎是查閱文獻的重要工具,尤其是谷歌提供的Google Scholar,由於其龐大的索引量,將是我們披荊斬棘的利器。

當需要了解某個領域,如果能找到一篇該領域的最新研究綜述,就省勁多了。最方便的方法還是在Google Scholar中搜索「領域名稱 + survey / review / tutorial / 綜述」來查找。也有一些出版社專門出版各領域的綜述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它們發表了很多熱門方向的綜述,如文檔摘要、情感分析和意見挖掘、學習排序、語言模型等。Google Scholar上也有越來越多學者建立了個人的論文主頁,可以方便地看到相關領域重要學者的研究脈絡。最近AI2也建立了一個叫做Semantic Scholar的學術網站,提供更精細的作者和論文引用分析。

如果方向太新還沒有相關綜述,一般還可以查找該方向發表的最新論文,閱讀它們的「相關工作」章節,順著列出的參考文獻,就基本能夠了解相關研究脈絡了。當然,還有很多其他辦法,例如去http://videolectures.net上看著名學者在各大學術會議或暑期學校上做的tutorial報告,去直接諮詢這個領域的研究者,等等。

轉載自公眾號「七月在線實驗室」

↓↓

公號後台回復「666」。即可免費獲得 七月在線【面試求職 第四期】課程+最新升級版《名企AI面試100題》電子書。

《名企AI?試100題》涵蓋計算機語?基礎、演算法和?數據、機器學習、深度學習、應??向 (CV NLP 推薦 ?融風控)等五?章節,每?段代碼、每?道題?的解析都經過了反覆審查或review。

部分內容展示

(點擊圖片可查看大圖)

推薦閱讀:
相关文章