萬維網的未來——語義網


在萬維網日益普及的今天,人們充分體會到網路的巨大魅力。現在,我們可以與處於地球上遙遠地方的人進行交流,瀏覽世界各地的信息,享受網上衝浪的樂趣。但是上過網的人都知道,現在所使用的萬維網的功能並不盡如人意,如網頁單調枯燥、搜索引擎智能化程度低等。但不管怎樣,我們還是可以說,萬維網是空前而不絕後的。那麼,您是否想過萬維網的未來又是什麼樣的呢?

目前的萬維網其進化、擴大和完善的空間還很大,可以說萬維網還沒有走出嬰兒期。為使萬維網邁上一個新的臺階,從此擺脫幼稚,走向成熟和真正的智能化,10年前為我們發明網際網路超文本系統的麻省理工學院萬維網協會主席蒂姆·伯納斯·李,現在又在致力於開發新一代的萬維網(互聯網),他為之取了一個直觀的名稱——「語義網」(the SemanticWeb)。

1、什麼是「語義網」?

所謂「語義」就是文本的含義。語義需要理解文本的意思和結構,而與顯示方式無關。語義網就是能夠根據語義進行判斷的網路。

目前在萬維網中,網頁僅僅是一個單調的內容顯示,電腦只負責將一個網頁鏈接到另一個網頁,網路不能按照用戶的要求自動搜尋和檢索網頁,直至找到所需要的內容。而語義網則是希望計算機能「看懂」網頁的內容,使計算機成為「智能」的導航工具。當然語義網還並不僅僅能完成這個功能,它比這還要「聰明」得多。

簡單地說,語義網是一種能理解人類語言的智能網路,它不但能夠理解人類的語言,而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕鬆。

語義網就好比一個巨型的大腦,它由資料庫智能化程度極高,協調能力非常強大的各個部分組成,可以解決各種難題。在語義網上連接的每一部電腦,都能分享人類歷史上所有科學、商業和藝術等知識。它不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關係。

在語義網中,網路不僅能夠連接各個文件,而且還能夠識別文件裏所傳遞的信息,也就是說,它是一種聰明的網路,可以幹人所從事的工作。例如:它可以讓計算機辨認和識別「head」這個單詞的意思是「頭腦」還是「領導」;在讀者看新聞時,它能輕鬆地分辨出哪句是標題、哪句是導語。

2、語義網與萬維網的區別

目前我們所使用的萬維網,實際上是一個存儲和共享圖象、文本的媒介,電腦所能看到的只是一堆文字或圖象,對其內容無法進行識別。萬維網中的信息,如果要讓電腦進行處理的話,就必須首先將這些信息加工成計算機可以理解的原始信息後才能進行處理,這是相當麻煩的事情。而語義網的建立則將事情變得簡單得多。

語義網是對萬維網本質的變革,它的主要開發任務是使數據更加便於電腦進行處理和查找。其最終目標是讓用戶變成全能的上帝,對網際網路上的海量資源達到幾乎無所不知的程度,計算機可以在這些資源中找到你所需要的信息,從而將萬維網中一個個現存的信息孤島,發展成一個巨大的資料庫。

語義網將使人類從搜索相關網頁的繁重勞動中解放出來。因為網中的計算機能利用自己的智能軟體,在搜索數以萬計的網頁時,通過「智能代理」從中篩選出相關的有用信息。而不像現在的萬維網,只給你羅列出數以萬計的無用搜索結果。

例如,在進行在線登記參加會議時,會議主辦方在網站上列出了時間、地點,以及附近賓館的打折信息。如果使用萬維網的話,此時你必須上網查看時間表,並進行拷貝和粘貼,然後打電話或在線預訂機票和賓館等。但假如使用的是語義網,那麼一切都變得很簡單了,此時安裝在你計算機上的軟體會自動替你完成上述步驟,你所做的僅僅是用滑鼠按幾個按鈕而已。

在瀏覽新聞時,語義網將給每一篇新聞報道貼上標籤,分門別類的詳細描述哪句是作者、哪句是導語、哪句是標題。這樣,如果你在搜索引擎裏輸入「老舍的作品」,你就可以輕鬆找到老舍的作品,而不是關於他的文章。

總之,語義網是一種更豐富多彩、更個性化的網路,你可以給予其高度信任,讓它幫助你濾掉你所不喜歡的內容,使得網路更像是你自己的網路。

3、語義網的實現

語義網雖然是一種更加美好的網路,但實現起來卻是一項複雜而浩大的工程。

要使語義網搜索更精確徹底,更容易判斷信息的真假,從而達到實用的目標,首先需要制訂標準,該標準允許用戶給網路內容添加元數據(即解釋詳盡的標記),並能讓用戶精確地指出他們正在尋找什麼;然後,還需要找到一種方法,以確保不同的程序都能分享不同網站的內容;最後,要求用戶可以增加其他功能,如添加應用軟體等。

語義網的實現是基於XML(可擴展標記語言eXtensible MarkupLangauge)語言和資源描述框架(RDF)來完成的。XML是一種用於定義標記語言的工具,其內容包括XML聲明、用以定義語言語法的DTD(document typedeclaration文檔類型定義)、描述標記的詳細說明以及文檔本身。而文檔本身又包含有標記和內容。RDF則用以表達網頁的內容。

當然,要實現語義網並非僅有XML和RDF就行了。更主要的技術難題還在於要讓電腦可以進行過多的「思考」和「推斷」,而面對紛繁複雜的問題,尤其是社會問題,人尚且難以決斷,更何況計算機呢。因此,要真正實現實用的語義網還有很多工作要做。

4、XML和語義

XML的最突出的特點就是功能強大又易於使用,它使網頁能夠容納更豐富的信息資源。其中元數據管理、語義透明性和自主主體都是XML所獨有的概念,而XML對統一結構化語法和半結構化語法的承諾,將有助於把幾乎不可能完成的事變成切實可行的。

那麼在XML的基礎上所講的語義又是什麼呢?雖然語義這個單詞每個人對其定義的觀點各有不同,但一般來說,我們可以將語義解釋為構建在公用語法之上的系統中XML數據的一層規範。這就引出了下面標記了XML語義的概念(在下面三概念之間有一些重疊):

元素類型名稱、屬性名稱和某些情況下內容術語的解釋;

用於使用有效文檔引導事務的處理規則(也稱作商業規則);

一個文檔中的結構化元素與另一個文檔中的結構化元素之間的關係。

5、語義網的優點

建立語義網的重要性在於,對信息含義的理解不再是隻有依靠人才能完成的事情,計算機同樣也可以完成這樣的工作。

例如,我們看到網頁上的天氣預報,自然就會知道其中的含義,但計算機並不知道在那麼多的數字中,哪一個數字代表溫度,哪一個數字代表濕度。而語義網的意義就要在隱藏的編碼中,指明哪個數字代表溫度,哪個數字代表濕度,並且說明「溫度」和「濕度」的含義。

語義網最大的好處是可以讓計算機具有對網路空間所儲存的數據,進行智能評估的能力。這樣,計算機就可以像人腦一樣「理解」信息的含義,完成「智能代理」的功能。使用語義網搜索引擎搜索的結果也將比萬維網更為精確。

另外,由於大部分科技創新和突破,都是對已有知識的重新組合和更新,因此語義網也為新的科技創新提供了無盡的資源,它可以在很短的時間內,完成一個人甚至需要一輩子才能做出的組合結果。

蒂姆·伯納斯·李曾說過:「完全可以想像,一旦這種技術被運用於世界上所有的數據表格,它將產生極大的社會效益。」

6、語義網的研究進展

從互聯網剛剛誕生開始,人工智慧專家就密切關注著它的發展。現在,發展語義網的兩種主要技術:可擴展標記語言(XML)和資源描述框架(RDF)已經誕生。XML用來制定隱藏的標記,並將其作為標註放置在網頁中,以便引導計算機程序處理網頁內容。這裡XML不涉及網頁的具體內容,而網頁的內容則由RDF來表達。

為瞭解決計算機理解「人的語言」的問題,目前人們已經建立了「目的」和「對象」兩個資料庫,在這兩個資料庫中,應用分類學和分級學,按照人的思維習慣建立一個樹形「邏輯庫」,由計算機查詢出它們的區別,從而得出正確的結論。當然,人的語言系統是非常複雜的系統,僅僅建立這些還不夠,還有許多問題需要解決。不過現在將「語義網」嵌入互聯網的第一步工作已經展開,在不久的將來,計算機一定能看懂並處理網頁中的內容。

目前,有消息稱美國將於2005年推出語義網。我們有理由相信,語義網一定會給我們帶來互聯網的新時代。(摘自計算機世界)


推薦閱讀:
查看原文 >>
相關文章