馮志偉《自然語言計算機形式分析的理論與方法》筆記(第一章)

來自專欄 NLP點滴

第一章:自然語言處理的學科定位

從自然語言處理的過程、範圍和歷史三個角度考察學科定位問題。

  • 過程:縱的角度
  • 範圍:橫的角度
  • 歷史:發展的角度

從自然語言處理的過程考察

  • 計算機對自然語言研究和處理的四個過程:
  • 語言 「形式化」
  • 形式 「演算法化」
  • 演算法 「程序化」
  • 程序 「實用化」
  • 建立自然語言處理模型需要不同平面的知識:
  • 聲學和韻律學的知識:描述語言的節奏、語調和聲調的規律,說明語音怎樣形成音位
  • 音位學的知識:描述音位的結合規律,說明音位怎樣形成語素
  • 形態學的知識:描述語素的結合規律,說明語素怎樣形成單詞
  • 辭彙學的知識:描述辭彙系統的規律,說明單詞本身固有的語義特性和語法特性
  • 句法學的知識:描述單詞(或片語)之間的結構規則,說明單詞(或片語)怎樣形成句子
  • 語義學的知識:描述句子中各個成分之間的語義關係,這樣的語義關係是與情景無關的,說明怎樣從構成的句子的各個成分中推導出整個句子的語義
  • 話語分析的知識:描述句子與句子之間的結合規律,說明怎樣由句子形成話語或對話
  • 語用學的知識:描述與情境有關的情景語義,說明怎樣推導出句子具有的與周圍話語有關的各種含義
  • 外界世界的常識性知識:描述關於語言使用者和語言使用環境的一般性常識,例如語言使用者的信念和目的,說明怎樣推導出這樣的信念和目的的內在內容

從自然語言處理的範圍考察

  • 歸納為四個大方向:
  • 語言學方向
  • 數據處理方向
  • 人工智慧和認知科學方向
  • 語言工程方向
  • 具體細分為 13 個方面:
  • 口語輸入
  • 書面語輸入
  • 語言分析和理解
  • 語言生成
  • 口語輸出技術
  • 話語分析與對話
  • 文獻處理
  • 多語
  • 多模態
  • 信息的傳輸與存儲
  • 自然語言處理中的數學方法
  • 語言資源
  • 自然語言處理系統評測

從自然語言處理的歷史考察

萌芽期

  • 20 世紀 40 年代到 50 年代末
  • A.M.Turing 演算法計算模型
  • N.Chomsky 形式語言理論
  • C.E.Shannon 概率和資訊理論模型
  • 機器翻譯
  • 20 世紀 50 年代末到 60 年代中期
  • 自然語言處理分成兩個陣營:符號派和隨機派
  • 符號派
    • Chomsky 等的形式語言理論和生成句法研究
    • 早期的自頂向下和自底向上演算法研究
    • 後期的動態規劃研究
    • Zelig Harris 的 「轉換與話語分析課題」
    • 人工智慧的研究
    • 著重研究推理和邏輯問題
    • Newell 和 Simon 關於 「邏輯理論家」 和 「通用問題解答器」
    • 把模式匹配和關鍵詞搜索與簡單試探的方法結合起來進行推理和自動問答

  • 隨機派
    • 貝葉斯方法被用於解決最優字元識別問題
    • 基於轉換語法的第一個人類語言計算機處理的可嚴格測定的心理模型
    • 第一個聯機語料庫——布朗語料庫
  • 機器翻譯
    • Yngve 主張機器翻譯分三個階段:(1)用代碼化的結構標誌來表示原語文句的結構;(2)把原語的結構標誌轉換為譯語的結構標誌;構成譯語的輸出問句。把句法分析放在第一位,促進了句法的形式化研究。
    • 語法與演算法分開,即語言分析和程序設計分開

發展期

20 世紀 60 年代中期到 80 年代末期。

  • B.Vauquois 的 「機器翻譯金字塔」
  • 六個步驟
    • 原語詞法分析
    • 原語句法分析
    • 原語譯語辭彙轉換
    • 原語譯語機構轉換
    • 譯語句法生成
    • 譯語詞法生成

  • 翻譯軟體 ARIANE-78
  • 斯坦福大學 Y.A.Wilks 提出了 「優選語義學」,強調無論在原語還是譯語生成階段都要把語義問題放在第一位。
  • 1976 年,蒙特利爾大學與聯邦政府翻譯局:TAUM-METEO 系統,里程碑
  • 1978 年,歐共體(歐盟)提出多語種機器翻譯計劃 EUROTRA,至今未取得預期效果
  • 1982-1986 年,日本 Mu 系統;隨後原定於 1987-1992 年完成實際延遲到 1995 年完成的日本多語言機器翻譯 ODA 計劃,實驗效果不盡如人意
  • 1987 年,TELECOM87 會議,自動翻譯電話通話試驗
  • 中科院 NLPR 與韓國 ETRI 合作進行了漢韓口語翻譯實驗
  • 1991 年,成立國際語音翻譯先進研究聯盟(C-STAR)
  • 2000 年,中科院 NLPR 成為該組織的核心成員之一,漢語成為 C-STAR 多語言語音翻譯系統的主要語言之一

統計學方法在語音識別演算法研製中取得成功

  • 隱馬爾科夫模型、雜訊信道與解碼模型
  • Jelinek、Bahl、Mercer 和 IBM 花生研究中心
  • 卡內基梅隆大學的 Baker
  • AT&T 的貝爾實驗室
  • 科大訊飛

邏輯方法在 NLP 中取得成績

  • 1970 年 A.Colmerauer 及同事研製的 Q 系統和變形文法
  • 1980 年 Pereira 和 Warren 剔除的定子句文法
  • 1979 年 M.Kay 對功能語法的研究,1982 年 Bresnan 和 Kaplan 在辭彙功能語法方面的工作,都是特徵結構合一方面的研究成果

自然語言理解也取得成績

  • 1972 年 Terry 研製的 SHRDLU 系統,能夠模擬一個嵌入玩具積木世界的機器人的行為;該系統首次嘗試建立基於 Halliday 系統語法的英語語法;該系統說明,句法剖析也應該重視語義和話語的形式模型的研究。
  • 1977 年 R.Schank 與其在耶魯大學的同事和學生建立了一些語言理解程序;他們使用基於網路的語義學理論,並在表達方式中引進 C.Fillmore 在 1968 年提出的關於格角色的概念。
  • 自然語言理解中的邏輯方法:1967 年 Woods 研製的 LUNAR 問答系統使用謂詞邏輯進行語義解釋
  • 話語分析四個關鍵領域:話語子結構的研究,話語焦點的研究,自動參照消解研究和基於邏輯的言語行為研究
  • 1977 年,Crosz 和同事研究了話語子結構和話語焦點

  • 1972 年,Hobbs 開始研究自動參照消解
  • 1980 年,Perrault 和 Allen 建立了 「信念-願望-意圖」(BDI)框架

1983-1993 十年中:NLP 又回到了 20 世紀 50 年代末期 60 年代初期幾乎被否定的有限狀態模型和經驗主義方法上

  • 重新評價有限狀態模型
    • Kaplan 和 Key 在有限狀態音系學和形態學方面的工作
    • Church 在句法的有限狀態模型方面的工作

  • 重新回到經驗主義
    • 語音和語言處理的概率模型
    • 傳播到連接主義方法的研究中

繁榮期

1989 年,機器翻譯進入新紀元:基於規則的技術中引入了語料庫方法。

1994-1999 年以及 21 世紀初期,自然語言處理的研究出現了空前的繁榮:

  • 概率和數據驅動的方法幾乎成了 NLP 標準方法
  • 由於計算機速度和存儲量增加,在語音和語言處理的一些子領域有可能進行商品開發
  • 網路技術的發展對 NLP 產生了巨大推力

當前自然語言處理髮展的幾個特點

  • 基於句法-語義規則的理性主義方法受到質疑,隨著語料庫建設和語料庫語言學的崛起,隨著 Web 的日益普及,大規模真實文本的處理成為 NLP 的主要戰略目標。
  • 基於規則的理性主義方法,哲學基礎是邏輯實證主義:智能的基本單位是符號,認知過程就是在符號的表徵下進行符號運算,因此思維就是符號運算。語言學家 J.A.Fodor 認為心理操作和圖靈機的操作十分類似。
  • 反駁與弱點
    • 塞爾 「中文屋子」 質疑,詳見:人工智慧哲學筆記 | Yam
    • 實踐方面,在處理大規模真實文本時有很大困難

  • NLP 中越來越多地使用機器學習的方法來獲取語言知識。
  • 有監督
  • 無監督
  • 半監督
  • 統計數學方法越來越受到重視。
  • 估計語言成分出現的可能性,而不是單純地判斷這樣的語言成分是否符合語言學規則(與傳統的規則型語言模型對比)
  • 語言統計模型已經相當成熟,如:隱馬爾科夫模型、概率上下文無關語法、基於決策樹的語言模型、最大熵語言模型、條件隨機場等
  • NLP 中越來越重視辭彙的作用,出現了強烈的 「辭彙主義」 傾向。
  • Chomsky 提出的 「最簡方案」 將所有重要的語法原則直接運用於表層,把具體的規則減少到最低限度,不同語言之間的差異由辭彙來處理。
  • 辭彙知識庫的構建成為普遍關注的問題。

小結:主要介紹了自然語言處理的歷史、研究對象、特點等,可以讓我們對自然語言處理的橫向、縱向有更加深刻的認識。書籍介紹的非常詳細,作者熟知整個脈絡,嚴謹又開放,熟悉各種技術且均能做出中立和中肯的判斷及評價,可謂大師。


推薦閱讀:
相關文章