馮志偉《自然語言計算機形式分析的理論與方法》筆記（第一章）

來自專欄 NLP點滴

第一章：自然語言處理的學科定位

從自然語言處理的過程、範圍和歷史三個角度考察學科定位問題。

過程：縱的角度
範圍：橫的角度
歷史：發展的角度

從自然語言處理的過程考察

計算機對自然語言研究和處理的四個過程：
語言「形式化」
形式「演算法化」
演算法「程序化」
程序「實用化」
建立自然語言處理模型需要不同平面的知識：
聲學和韻律學的知識：描述語言的節奏、語調和聲調的規律，說明語音怎樣形成音位
音位學的知識：描述音位的結合規律，說明音位怎樣形成語素
形態學的知識：描述語素的結合規律，說明語素怎樣形成單詞
辭彙學的知識：描述辭彙系統的規律，說明單詞本身固有的語義特性和語法特性
句法學的知識：描述單詞（或片語）之間的結構規則，說明單詞（或片語）怎樣形成句子
語義學的知識：描述句子中各個成分之間的語義關係，這樣的語義關係是與情景無關的，說明怎樣從構成的句子的各個成分中推導出整個句子的語義
話語分析的知識：描述句子與句子之間的結合規律，說明怎樣由句子形成話語或對話
語用學的知識：描述與情境有關的情景語義，說明怎樣推導出句子具有的與周圍話語有關的各種含義
外界世界的常識性知識：描述關於語言使用者和語言使用環境的一般性常識，例如語言使用者的信念和目的，說明怎樣推導出這樣的信念和目的的內在內容

從自然語言處理的範圍考察

歸納為四個大方向：
語言學方向
數據處理方向
人工智慧和認知科學方向
語言工程方向
具體細分為 13 個方面：
口語輸入
書面語輸入
語言分析和理解
語言生成
口語輸出技術
話語分析與對話
文獻處理
多語
多模態
信息的傳輸與存儲
自然語言處理中的數學方法
語言資源
自然語言處理系統評測

從自然語言處理的歷史考察

萌芽期

20 世紀 40 年代到 50 年代末
A.M.Turing 演算法計算模型
N.Chomsky 形式語言理論
C.E.Shannon 概率和資訊理論模型
機器翻譯
20 世紀 50 年代末到 60 年代中期
自然語言處理分成兩個陣營：符號派和隨機派
符號派

Chomsky 等的形式語言理論和生成句法研究
早期的自頂向下和自底向上演算法研究
後期的動態規劃研究
Zelig Harris 的「轉換與話語分析課題」
人工智慧的研究
著重研究推理和邏輯問題
Newell 和 Simon 關於「邏輯理論家」和「通用問題解答器」
把模式匹配和關鍵詞搜索與簡單試探的方法結合起來進行推理和自動問答

隨機派

貝葉斯方法被用於解決最優字元識別問題
基於轉換語法的第一個人類語言計算機處理的可嚴格測定的心理模型
第一個聯機語料庫——布朗語料庫

機器翻譯

Yngve 主張機器翻譯分三個階段：（1）用代碼化的結構標誌來表示原語文句的結構；（2）把原語的結構標誌轉換為譯語的結構標誌；構成譯語的輸出問句。把句法分析放在第一位，促進了句法的形式化研究。
語法與演算法分開，即語言分析和程序設計分開

發展期

20 世紀 60 年代中期到 80 年代末期。

B.Vauquois 的「機器翻譯金字塔」
六個步驟

原語詞法分析
原語句法分析
原語譯語辭彙轉換
原語譯語機構轉換
譯語句法生成
譯語詞法生成

翻譯軟體 ARIANE-78
斯坦福大學 Y.A.Wilks 提出了「優選語義學」，強調無論在原語還是譯語生成階段都要把語義問題放在第一位。
1976 年，蒙特利爾大學與聯邦政府翻譯局：TAUM-METEO 系統，里程碑
1978 年，歐共體（歐盟）提出多語種機器翻譯計劃 EUROTRA，至今未取得預期效果
1982-1986 年，日本 Mu 系統；隨後原定於 1987-1992 年完成實際延遲到 1995 年完成的日本多語言機器翻譯 ODA 計劃，實驗效果不盡如人意
1987 年，TELECOM87 會議，自動翻譯電話通話試驗
中科院 NLPR 與韓國 ETRI 合作進行了漢韓口語翻譯實驗
1991 年，成立國際語音翻譯先進研究聯盟（C-STAR）
2000 年，中科院 NLPR 成為該組織的核心成員之一，漢語成為 C-STAR 多語言語音翻譯系統的主要語言之一

統計學方法在語音識別演算法研製中取得成功：

隱馬爾科夫模型、雜訊信道與解碼模型
Jelinek、Bahl、Mercer 和 IBM 花生研究中心
卡內基梅隆大學的 Baker
AT&T 的貝爾實驗室
科大訊飛

邏輯方法在 NLP 中取得成績：

1970 年 A.Colmerauer 及同事研製的 Q 系統和變形文法
1980 年 Pereira 和 Warren 剔除的定子句文法
1979 年 M.Kay 對功能語法的研究，1982 年 Bresnan 和 Kaplan 在辭彙功能語法方面的工作，都是特徵結構合一方面的研究成果

自然語言理解也取得成績：

1972 年 Terry 研製的 SHRDLU 系統，能夠模擬一個嵌入玩具積木世界的機器人的行為；該系統首次嘗試建立基於 Halliday 系統語法的英語語法；該系統說明，句法剖析也應該重視語義和話語的形式模型的研究。
1977 年 R.Schank 與其在耶魯大學的同事和學生建立了一些語言理解程序；他們使用基於網路的語義學理論，並在表達方式中引進 C.Fillmore 在 1968 年提出的關於格角色的概念。
自然語言理解中的邏輯方法：1967 年 Woods 研製的 LUNAR 問答系統使用謂詞邏輯進行語義解釋
話語分析四個關鍵領域：話語子結構的研究，話語焦點的研究，自動參照消解研究和基於邏輯的言語行為研究
1977 年，Crosz 和同事研究了話語子結構和話語焦點
1972 年，Hobbs 開始研究自動參照消解
1980 年，Perrault 和 Allen 建立了「信念-願望-意圖」（BDI）框架

1983-1993 十年中：NLP 又回到了 20 世紀 50 年代末期 60 年代初期幾乎被否定的有限狀態模型和經驗主義方法上

重新評價有限狀態模型

Kaplan 和 Key 在有限狀態音系學和形態學方面的工作
Church 在句法的有限狀態模型方面的工作

重新回到經驗主義

語音和語言處理的概率模型
傳播到連接主義方法的研究中

繁榮期

1989 年，機器翻譯進入新紀元：基於規則的技術中引入了語料庫方法。

1994-1999 年以及 21 世紀初期，自然語言處理的研究出現了空前的繁榮：

概率和數據驅動的方法幾乎成了 NLP 標準方法
由於計算機速度和存儲量增加，在語音和語言處理的一些子領域有可能進行商品開發
網路技術的發展對 NLP 產生了巨大推力

當前自然語言處理髮展的幾個特點

基於句法-語義規則的理性主義方法受到質疑，隨著語料庫建設和語料庫語言學的崛起，隨著 Web 的日益普及，大規模真實文本的處理成為 NLP 的主要戰略目標。
基於規則的理性主義方法，哲學基礎是邏輯實證主義：智能的基本單位是符號，認知過程就是在符號的表徵下進行符號運算，因此思維就是符號運算。語言學家 J.A.Fodor 認為心理操作和圖靈機的操作十分類似。
反駁與弱點

塞爾「中文屋子」質疑，詳見：人工智慧哲學筆記 | Yam
實踐方面，在處理大規模真實文本時有很大困難

NLP 中越來越多地使用機器學習的方法來獲取語言知識。
有監督
無監督
半監督
統計數學方法越來越受到重視。
估計語言成分出現的可能性，而不是單純地判斷這樣的語言成分是否符合語言學規則（與傳統的規則型語言模型對比）
語言統計模型已經相當成熟，如：隱馬爾科夫模型、概率上下文無關語法、基於決策樹的語言模型、最大熵語言模型、條件隨機場等
NLP 中越來越重視辭彙的作用，出現了強烈的「辭彙主義」傾向。
Chomsky 提出的「最簡方案」將所有重要的語法原則直接運用於表層，把具體的規則減少到最低限度，不同語言之間的差異由辭彙來處理。
辭彙知識庫的構建成為普遍關注的問題。

小結：主要介紹了自然語言處理的歷史、研究對象、特點等，可以讓我們對自然語言處理的橫向、縱向有更加深刻的認識。書籍介紹的非常詳細，作者熟知整個脈絡，嚴謹又開放，熟悉各種技術且均能做出中立和中肯的判斷及評價，可謂大師。

馮志偉《自然語言計算機形式分析的理論與方法》筆記（第一章）

第一章：自然語言處理的學科定位

從自然語言處理的過程考察

從自然語言處理的範圍考察

從自然語言處理的歷史考察

萌芽期

發展期

繁榮期

當前自然語言處理髮展的幾個特點

熱門新聞

週熱門

馮志偉《自然語言計算機形式分析的理論與方法》筆記（第一章）

第一章：自然語言處理的學科定位

從自然語言處理的過程考察

從自然語言處理的範圍考察

從自然語言處理的歷史考察

萌芽期

發展期

繁榮期

當前自然語言處理髮展的幾個特點

通訊/無線電塔的輻射會影響附近的居民區嗎？

怎樣用日常生活中簡易的工具製造靜電?

如果世界上有魔法，人類還會需要科技嗎？

你為什麼相信上古文明是遠超現世的高科技文明？

有沒有大佬知道上海傑爾訊科技發展有限公司是幹什麼的，突然打電話給我，不過我沒接(電話95214232？

如何評價位元組跳動已同意出售TikTok給微軟？

如何設置GIF作為電腦的桌面背景？

如何評價 5 月 25 日舉辦的 realme（真我）破次元發布會？有哪些亮點和不足？

如果外星人命令地球上的所有國家在不用核武器的情況下進入喫雞模式互毆，否則滅絕人類，最終那個國家會勝出？

怎樣可搓出完美的球體？

飛機為什麼沒能像汽車一樣走進千家萬戶？

美國阻撓錢學森回國是否合理？

火箭的飛行原理和飛機的飛行原理有什麼不同？

如何看待迷你世界下架？

Mac比Windows好在哪裡，有什麼不足？

熱門新聞

週熱門