暨南大學劉華博導來學校開展講座,我聽了半會兒一直理解不了大數據是怎麼被用來研究語言學的?語言學的邏輯性和思辨性,真的能通過大數據來體現嗎?


只要是現象,只要出現的頻率足夠,就能作為某種數據去處理。

語言學的邏輯性與思辨性如果無法體現,大數據就沒用了。

如果語言學必須經由某種載體,比如文字來實現,那麼文字就可以作為純粹數據去分析。密碼學中也有利用統計學去破譯密文的手法。

這表明,雖然每個人都覺得自己用語很「隨機」,實際上在「冥冥之中」,或者說宏觀上,是有一定的 規律 或者 習慣 存在的。

不過,統計學是基於現象的,大數據也是。

如果有人不計勞苦,創造出多種語言,交流時就像一次性密碼那樣,隨機說出某種語言,隨機應用某種語法,那大數據就沒用了。這是語言自虐法。


謝邀,可以的。。

因此也有絕大部分人類是復讀機的說法。

通過分詞統計,代入模型,能算出情緒,預測行為。

比如預測某種利益的變動。

可以用對抗樣本的方法來愚弄大數據。也可以直接製造大量噪音。


樣本足夠大就能實現


數據更多是描述層吧,解讀還是要靠人工


語言編入成數據,是受到語言學的理論影響的。但是由於數據處理條件限制,或者說出去對龐大數據的處理,數據會遵守最簡單的分類方式。這些數據至多在分類上反應了最簡單的語言信息,更多需要研究語言的人進行提取的。做大數據的人,要不能夠對語言進行重新編類反應更多的信息,要不在檢索方式進行簡化。這兩者可能是有相關突破的,信息的複雜和檢索的難度是需要人員研究的。至於信息本身的複雜也取決於檢索和對信息本身的理解。


語言是組成語言的要素按照一些規則組織起來的。大數據的研究方法就是基於基本假設:如果對於每一條規則我們都有足夠多的語言材料讓機器去學習,那麼就可以通過這種方式發現相應的規則。從而實現基於語言材料讓機器學習這些規則並進行一定程度的聽說讀寫的任務。


願人工智慧不再是人工智障。


推薦閱讀:
相關文章