本文根據達觀數據特聘專家復旦大學黃萱菁教授在達觀數據舉辦的長三角人工智慧應用創新張江峰會上的
演講整理而成,達觀數據副總裁魏芳博士統稿。

一、概念

1. 什麼是自然語言和自然語言理解?

自然語言是指漢語、英語、德語、俄語等人們日常使用的語言,是自然而然的隨著人類社會發展演變而來的語言,而不是人造的語言。我們平時說的口語還有書面語,這些都是自然語言,還有其他的語言,比如說手語等等。它區別於人工語言,如程序設計的語言。

對於語言的理解是一個非常重要的任務,到目前為止人類知識80%都是採用自然語言文字進行記載的。對於自然語言的處理,稱為自然語言處理(簡稱:NLP),是指用計算機對自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。自然語言處理在人工智慧的地位有一個非常形象的比喻,它是人工智慧皇冠上的明珠。可見自然語言處理的問題解決了很多人工智慧問題也就解決了。總的來說相比較人工智慧其它領域(比如計算機視覺、語音識別),自然語言的理解難度更大一些,所以現在已經有很多的獨角獸這種級別的語音識別公司,比如科大訊飛、Face++等等,但是在自然語言處理方面還需要更多的努力。達觀數據正是在這方面進行努力探索的企業。

自然語言處理一般分成兩塊,一種叫做自然語言理解,一種叫做自然語言生成。

自然語言理解是指計算機能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達給定的意圖。比如高考的時候要做閱讀理解,這就叫做自然語言的理解。

考生寫作文,叫做自然語言的生成。但是高考的時候是人來做,現在由計算機來做。對計算機輸入一段自然語言文本,我們希望它能夠:

問答——能正確回答輸入文本中的問題

文摘生成——有能力產生輸入文本的摘要

釋義——用不同的詞語和語句複述輸入

翻譯——把一種語言(源語言)翻譯為另一種語言(目標語言)

這些都是自然語言理解的功能。如果計算機可以完成其中一個任務,我們可以認為它通過了圖靈測試,就相當於人工智慧,其它類似。

自然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分為五個層次,即語音分析、詞法分析、句法分析、語義分析和語用分析。

語音分析是要根據音位規則,從語音流中區分出一個個獨立的音素(最小可獨立的聲音單元),再根據音位形態規則找出音節及其對應的詞素或詞。

詞法分析是找出辭彙的各個詞素,從中獲得語言學的信息。

例如:「我們研究所有東西」這句話

? 我們--研究所--有--東西(交叉歧義)

? 我們--研究--所有--東西

把手放在桌上

? 把--手--放在--桌上 (組合歧義)

? 把手--放在--桌上

中文分詞是中文所特有的詞法分析。

中文由於繼承自古代漢語的傳統,詞語之間沒有分隔。這是因為古代漢語中除了連綿詞和人名地名等,詞通常就是單個漢字,所以當時沒有分詞書寫的必要。現代漢語的基本表達單元為「詞」,以雙字或多字詞居多,一個字不再等同於一個詞。

句法分析是對句子和短語的結構進行分析,目的是要找出詞、短語等的相互關係以及各自在句中的作用。

例如:

? 反對│的│是│少數人 (反對的是少數人,到底是少數人提出反對還是少數人被反對)

? 咬死了|獵人|的|狗 (咬死了獵人的狗還是一隻咬死了獵人的狗)

? Put the frog on the napkin(把青蛙放在餐巾上)

? Put the frog on the napkin in the box(把餐巾上的青蛙放在盒子里)

圖1

語義分析是找出詞義、結構意義及其結合意義,從而確定語言所表達的真正含義或概念。比如說同樣三個字,「你打我」和「我打你」,意思是完全不同的。這叫做詞義分析。詞義分析是非常困難的一個任務,這幾年有非常大的進展。

語用分析是研究語言所存在的外界環境對語言使用者所產生的影響。 描述語言的環境知識、語言與語言使用者在某個給定語言環境中的關係。

比如說吃一個漢堡包,這個話的意思是取決於誰對誰說,如果是一個小孩子和媽媽說要吃一個漢堡包,這叫做請求。如果一個孩子是很霸道的,這個媽媽完全被孩子所左右,小孩子對媽媽說要吃一個漢堡包,可能就是一個命令。如果是顧客到店裡可能是一個交易行為的發起。所以語義上似乎明確的一句話,在不同的上下文中也有不同的含義。

2. 什麼叫做表示學習?

有人問語言還需要表示嗎?

答案是肯定的。

認知科學領域認為表示學習是語言在人腦中的表現形式,關係到人類如何理解和產生語言。

人工智慧領域認為表示學習是學習語言的形式化或數學描述,以便在計算機中表示語言,並能讓計算機程序自動處理。

早期的語言表示方法: 符號化的離散表示。

? 詞表示為One-Hot向量(一維為1、其餘維為0的向量)

? 元模型等方法進行轉換

離散表示的缺點: 詞與詞之間沒有距離的概念,比如「電腦」和「計算機」被看成是兩個不同的詞。除此之外還有從心理的角度,有哲學的角度來研究客觀世界和萬物是怎麼理解的,我們一般是從人工智慧的角度來了解語言的表示。

推薦閱讀:

相关文章