因為接觸前端而了解到數據可視化這樣一個研究方向,本科的導師做的是NLP,略有接觸但不算深入,在考慮以後的研究方向。

其實提這個問題主要還想聽聽各位知友的見解,感謝!


謝邀啦,我認為這兩個其實只是目前使用的演算法有交集,實際工業應用上應該算是兩個完全不同的領域。

NLP的話我是研究生主要研究的方向,總的來說和無人車一樣,必須要做而且近年有突破進展但是很難繼續高速發展。在神經網路時期其實NLP就已經開始發展了,但是始終沒有一個突破性的進展,因為傳統的NLP是基於語義學和語言學的,直到word2vector和LSTM出現以後才有了新的發展。舉個栗子,比如要翻譯一句話,傳統NLP演算法要先用Porter Alg做辭彙歸一化,然後在利用Postagging做語義補充,FOL邏輯補充,Semantic樹做結構補充等等,複雜低效準確性還差。而word2vec和LSTM則用deep learning的方式做NLP的結構學習,在準確率上有了大幅提升。然而如何進行下一步研究卻沒有像Hinton一樣的大佬作出結論。

Data Visualization的前景我比較看好,這裡我是指BI方向,例如將公司的各類報表數據以及資料投影到特徵平面可視化分析,這才是真正的visualization,而不是像CNN做個特徵投影,顯示個saliency map就算了。CNN更偏學術而BI更偏工業。不過現在的問題是Data Visualization沒有像deep learning一統的演算法,更多靠直覺,也不排除大公司研究室不願意透露相關研究,畢竟這個和利益直接掛鉤的。

二者在工業並不算相關,但是data visualization在做投影的時候其實是有用NLP來解析文字資料提取相關信息,如果選擇data visualization再有NLP知識可能比較好。總的來說,應用金融學裡有句話,「高價位低利率」說的就是NLP,這塊蛋糕很美但是很難再錦上添花,而Data Visualization則是「低價位高利率」,還沒烘焙好,有很大的發展空間。


自然語言處理和數據可視化都要用代碼吧。兩者的研究都很有前景,看個人喜歡和緣份了。剛寫完巜智能機器人》第七篇自然語言處理,感覺這裡面的問題真的好多,比如大部份人都讀過紅樓夢,現在的NLP已經可以寫讀後感了,但如果每個人都想寫一個基於自己情感和經歷的文評,那需要多大的數據量和模型呢?所以大家干萬別把機器讓人失業這句話當真了,好好學習,天天向上才是正確選擇。最後歡迎大家有空關注一下在我知乎連載的自然語言系列文章,謝謝。


毫無疑問數據可視化偏計算機特別是前端,而NLP完完全全就是一個數據科學的研究方向,NLP包括很多學科包括語言學,特別是統計和應用數學,如果你想研究深是需要很大的數理統計方面的努力的,但數據可視化就不會用到太多數理統計方面的知識,數據可視化可以應用到所有數據科學的分枝上包括NLP,但反過來卻不成立如果你對數理統計感興趣學NLP,反之學數據可視化

怎麼算髮展潛力大?


不是一個領域的東西,不好比較吧。可視化也不是只是前端的東西,不過不在這個領域不是很清楚。NLP可以算是機器學習領域很艱難的一個部分了,當前的機器視覺和NLP相比那是小巫見大巫。不過當前NLP並沒有什麼大的突。自然語言是一個高度複合抽象的符號體系,當前的機器智能尤其是基於統計的學習在抽象層面的問題毫無縛雞之力。


最近這兩年,很多interpretable neural network的work其實就可以算得上是deep learning和數據可視化的結合。 搜索下關鍵詞"deep learning visualization"能搜出一大堆。 經典的比如「Visualizing and Understanding Convolutional Networks」(引用已經超過了3000)。 不過這種visualization和傳統的visualization的區別是要求對具體演算法有一定了解。 即便是nlp, visualization lstm/rnn什麼的也有不少, 比如jiwei li的"Visualizing and Understanding Neural Models in NLP"(當時這個talk似乎座無虛席。。。)。


推薦閱讀:
查看原文 >>
相关文章