老師有電路基礎這麼一門課,要我基於電路基礎第六版這本書構建知識圖譜。第一步獲取數據就遇到了困難,把整本書手打一遍不太現實,從維基百科爬下來的內容又比較亂還要花費大量人工來處理,而且也沒有關於這個領域的詞典可以拿來用。所以只能用大量人工代替機器了嗎?


利益相關: 支持知識圖譜抽取的開源項目!

觀點: WHY NOT

不完全贊成 @邵浩博士 的答案; 我們認為極小量的人工+大規模的機器學習, 有機會完成構建領域知識圖譜這項任務.

針對題主的問題, 給一個利用我們SmoothNLP項目可以做到的效果, 以下是基於百度百科-("百度")該詞條抽取出來的內容:

(由於內容太多, 用2000X2000像素的圖, 歡迎放大); 當然, 現有幾乎不存在一款工具可以完美的抽取出來, 但是用機器初篩+領域專家調整的思路上, 就是NLP可以大大降低知識圖譜構建的成本

這裡在貼兩張關於百度與李彥宏直接相關的1度空間的展示:

talk is cheap, show me your code; 這裡直接貼一段使用SmoothNLP項目, 構建知識圖譜的demo代碼.

from smoothnlp import kg
rels = kg.extract(text = ["SmoothNLP在V0.3版本中正式推出知識抽取功能",
"SmoothNLP專註於可解釋的NLP技術",
"SmoothNLP支持Python與Java",
"SmoothNLP將幫助工業界與學術界更加高效的構建知識圖譜",
"SmoothNLP是上海文磨網路科技公司的開源項目"]) ## 調用SmoothNLP解析
g = kg.rel2graph(rels) ## 依據文本解析結果, 生成networkx有向圖
fig = kg.graph2fig(g,x=1000,y=1000) ## 生成 matplotlib.figure.Figure 圖片

如果你對我們的項目感興趣, 想自己構建領域知識圖譜, 歡迎關注:

https://github.com/smoothnlp/SmoothNLP?

github.com

對於知識圖譜的商業化, 我們的觀點是: 目前來看, 機器還沒有獨立的能力構建知識圖譜, 但依靠NLP結構化的技術, 大規模減低初步建模的成本, 結合領域專家經驗, 會是一條可能且有效的途徑.

如果你對知識圖譜感興趣想自己嘗試構建, 或者您從事的業務有構建知識圖譜的需求, 歡迎聯繫contact@http://smoothnlp.com

再跟一個之前的回答:

知識圖譜是否是NLP的未來??

www.zhihu.com圖標發佈於 2020-03-20繼續瀏覽內容知乎發現更大的世界打開Chrome繼續邵浩博士邵浩博士?

vivo 高級技術總監

所以只能用大量人工代替機器了嗎?

是的,只能用大量人工代替機器。


所以只能用大量人工代替機器了嗎?

是的,只能用大量人工代替機器。


知識圖譜構建一看有沒有工具,二看有沒有方法。

知識獲取和梳理方面,紙質書電子化處理一下很方便的了,這兩天剛好了解了一下書籍電子化的市場,哈哈哈。然後書籍作為知識來源,就很好處理啦,圖譜前幾層可以參考書籍目錄、標題。

以極天信息為例,打造了「軟體+方法+模型」三位一體知識圖譜服務體系。因為同學這個疑問場景主要是目的就是為了學習或者說實操知識圖譜構建,暫未涉及知識圖譜解析應用。

而在實戰中,知識圖譜構建的目的就是為了應用,所以一是知識圖譜構建高效嗎?二是構建之後便於應用嗎?不然對於實際中那麼多複雜場景,花了好多時間精力去構建,做出來應用效果卻不咋地,這就不行。

極天信息「三位一體」知識圖譜服務體系主張的就是「開箱即用」,讓客戶不需要關心模型和演算法細節,直接使用智能服務。其準確性也是可驗證和體驗。真正實現AI賦能行業發展。

發佈於 2020-03-05繼續瀏覽內容知乎發現更大的世界打開Chrome繼續禾雀花開禾雀花開本體 知識圖譜

首先,需要清楚,建知識圖譜的目標是什麼?面向什麼應用場景,典型的場景包括:

1、查找類,例如問答、搜索、推薦等,也包括對信息抽取的支持;

2、分析類,例如:自動分類、分析視圖(類結構分析視圖、類多維分析視圖、實體/實例關係分析視圖)等

3、知識自動化類, 用於推理決策等

4、知識管理類,自動標籤、知識目錄等

不同的應用場景,對圖譜節點範圍、關係定義深度是不一樣的。節點和關係部分存在數據源中(你提到那本書,百科詞條,領域詞典),當然,也有一些存在人的腦中!

其次,你這種針對一本書的知識圖譜,可能需要2個工具,一個幫助你提取辭彙的工具;一個是知識圖譜的編輯工具。


首先,需要清楚,建知識圖譜的目標是什麼?面向什麼應用場景,典型的場景包括:

1、查找類,例如問答、搜索、推薦等,也包括對信息抽取的支持;

2、分析類,例如:自動分類、分析視圖(類結構分析視圖、類多維分析視圖、實體/實例關係分析視圖)等

3、知識自動化類, 用於推理決策等

4、知識管理類,自動標籤、知識目錄等

不同的應用場景,對圖譜節點範圍、關係定義深度是不一樣的。節點和關係部分存在數據源中(你提到那本書,百科詞條,領域詞典),當然,也有一些存在人的腦中!

其次,你這種針對一本書的知識圖譜,可能需要2個工具,一個幫助你提取辭彙的工具;一個是知識圖譜的編輯工具。


將一本書做成「知識圖譜」?本身命題就不太現實。如果真的能夠將一本書做成知識圖譜,那可真的值錢了,用起來會非常方便。不過,如果非要將一本書做成知識圖譜,最簡單的辦法是:將章節標題作為知識的概念,其中的內容作為知識描述文本,根據章節關係,構架知識圖譜。但如何將一本書變成文本卻是個難題,即便是OCR,工作量也很大。


推薦閱讀:
相關文章