文本摘要的應用

文本摘要的應用 文獻自動標引,新聞信息服務,信息檢索等。

  • 文獻自動標引

它是圖書情報領域的主要研究內容,一般標引包括關鍵詞標引,主題詞標引,摘要標引。以前都是人來做,現在如果由機器自動來做,會節省大量的人力。

  • 新聞的信息服務

當新聞服務提供商提供新聞信息的時候,不管是提供單一新聞還是提供聚合新聞,用戶有時候不想看全文,或者看很多相關新聞,還希望看到一篇摘要,所以一些網站上會提供新聞的摘要顯示在新聞網站上。有一款應用叫做Summly,原名Trimit,是一款在iOS上運行的新聞閱讀類應用,是英國天才少年尼克德阿洛伊西奧(Nick DAloisio)在15歲時創建,該應用可以通過全篇幅語義分析演算法,將整篇新聞精簡成一個有明確標題並配有幾句概述的新聞摘要,用戶只要花上不到一分鐘時間就可以了解新聞中最關鍵的信息,該應用在2018年被雅虎以3000萬美金收購。

  • 信息檢索

信息檢索(Information Retrieval)是用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。輸入相關的關鍵詞會得到相關的網頁,

信息檢索中的典型應用搜索,當你打開搜索引擎,輸入搜索關鍵詞,返回搜索的結果,網頁會顯示多條符合關鍵詞條件的信息結果,每條結果都會顯示結果信息片段,這個信息結果片段會包含搜索關鍵詞,同時是網頁內容中最重要的部分,對原文的一種摘要。這是一種特殊的摘要,內容要和關鍵詞相關。很多年前有專門的人在研究這個領域,由於技術的成熟,現在研究的人比較少了。

文本摘要技術

在圖書情報領域,IBM計算機科學家 H.P.Luhn於1958年發表《The automatic creation of literature abstracts》,一篇關於自動構建文獻摘要論文。這篇論文提出一篇文章中最重要的句子就是那些帶有最多關鍵詞的句子,而關鍵詞則是那些出現次數最多的詞。他的摘要就是把最重要的句子組合在一起。從這篇論文開始到現在,人們在自動文本摘要已經研究了60多年的歷史,取得了一定進展,但是仍不能讓人滿意。

當前實現自動文本摘要還有很大的困難:

第一:寫摘要是一項非常智能的工作,這樣智能的任務又很自由 假設有一個任務,要10個人甚至更多的人根據同樣一篇長文檔寫摘要,很可能每個人寫的都不一樣,但是每個人寫的摘要可能都還可以。這種沒有統一標準,相對自由發揮的工作,機器其實很難做。這個任務本質上對機器來說是搜索問題。當你給的越多信息,組合就會越多,搜索空間就會越大,結果越不可控,相反信息越少,搜索空間越小,機器越容易做。

自然語言處理中的機器翻譯的工作相對於於自動文本摘要會容易一些,機器翻譯的任務是,給出一個源語言的句子,經過機器翻譯後,得到目標語言的句子。這個任務有有一個很強的約束,要求前後語言的語義報保持一致,甚至每個詞都能對上。這種有強烈約束關係的任務會相對容易做一些。

第二:機器寫摘要和專家寫摘要不一樣

人在寫摘要前,在腦中已經對文章內容要表達的內容和意思有了很好的理解和體會,然後動筆撰寫形成摘要,摘要寫成之後就可以擴展成文章,有摘要再有文章。機器寫摘要反過來,要先要文章,再去生成摘要。這樣會對機器自動生成摘要有挑戰。

自動摘要代表性系統

  • 密歇根大學的NewsInEssence

是一個簡單的系統,主要是採用語句抽取的方式實現,NewsInEssence是應用於新聞領域域的摘要系統,它提供新聞文章的主題群集(Topic Clustering),即時搜尋,文章摘要及使用者互動(User Interaction)等功能。

  • 哥倫比亞大學的NewsBlaster

美國哥倫比亞大學開發的多文檔文摘系統Newsblaster 它利用文本聚類 作為預處理過程,將每天發生的重要新聞進 行文本聚類 息融合和文本生成等處理之後就生成了一篇言簡意賅的摘要。這個工作比稍微複雜,可以對句子進行調整,可以把任意句子斷開後重新組合。它的結果會有語句不通順,丟失標點符號等問題。

摘要長度

自動文本摘要的長度在實際應用場景中比較重要的問題,他會影響到用戶的閱讀體驗,以及系統是否能在多少長度的文字內有效表達文章內容。,

《Introduction to the Special Issue on Summarization》論文作者Radev認為摘要是「一段從一份或多份文本中提取出來的文字,它包含了原文本中的重要信息,其長度不超過或遠少於原文本的一半」。

生成摘要的長度可以根據需要由用戶指定,可以按照摘要和原文的比例,如10%或者20%,也可以根據摘要的詞數或者位元組數,100個words,250個漢字等等,可以根據用戶的定義,還可以根據句子數目,是三句話還是五句話。

在實踐中也有人在研究自動計算合適的摘要長度,這其實是沒有一個很好的答案的,因為自動文本摘要的長度是跟用戶的需求有關係,需要長短都可以,如果需要機器預測摘要長度,其實很困難。實際應用中自動摘要生成模型,生成的摘要有長有短,在模型運行前會設置其他閾值參數,本質上其實摘要長度參數轉為設置其他閾值參數,長度變成了其他參數在控制。我們知道一個意思可以用多種表達方式,表達的句子有很多種,雖然他們表達的都是一個意思,所以自動生成摘要的內容,可能也會有多種結果,結果可長可短,所以預測生成摘要的長度很難。

摘要任務多樣化

對於傳統新聞摘要任務

  • 單文檔摘要:對單篇文檔進行摘要
  • 多文檔摘要:對文檔集進行摘要
  • 查詢相關的多文檔摘要:用戶輸入查詢描述,如詞或者句子,描述用戶關心的內容,然後系統對目標文檔生成一個摘要,生成的摘要要跟查詢描述相關。

請看前文:

飄哥:自然語言處理系列之文本自動摘要技術(一)信息摘要概述?

zhuanlan.zhihu.com圖標

請看自然語言處理其他系列文章:

飄哥:自然語言系列學習之表示學習與知識獲取(一)分散式表示?

zhuanlan.zhihu.com
圖標
飄哥:自然語言系列學習之表示學習與知識獲取(二)word2vec?

zhuanlan.zhihu.com
圖標
飄哥:自然語言系列學習之表示學習與知識獲取(三)知識圖譜?

zhuanlan.zhihu.com
圖標
飄哥:自然語言系列學習之表示學習與知識獲取(四)TransE?

zhuanlan.zhihu.com
圖標
飄哥:自然語言系列學習之表示學習與知識獲取(五)融合文本和知識,利用cnn方法進行關係抽取?

zhuanlan.zhihu.com
圖標
飄哥:自然語言系列學習之表示學習與知識獲取(六)融合實體描述的知識表示和融合實體所在句子的知識表示?

zhuanlan.zhihu.com
圖標
飄哥:自然語言系列學習之表示學習與知識獲取(七)利用關係路徑進行關係抽取?

zhuanlan.zhihu.com
圖標
飄哥:自然語言系列學習之表示學習與知識獲取(八)利用遠程監督多實例的關係抽取?

zhuanlan.zhihu.com
圖標

推薦閱讀:
相关文章