通用論壇內容提取演算法

很久之前參加了個比賽，實現了一個提取論壇內容的演算法。

一、挖掘目標

將論壇之中的內容按以下方式存儲：

二、總體流程

總體流程圖

三、主要貢獻

本文做的主要貢獻是實現了根據樓層相似結構地位並分割樓層。

我們查看BBS論壇頁面的網頁結構發現以下特徵：

1.在同一個web頁面中，每個樓層所在的DOM結構的節點的子樹都很相似。

2.不同樓層都位於同一個父節點下面。

3.不同樓層之間為兄弟節點。

如下圖所示：

樓層分割演算法具體步驟：

1.篩選標籤

首先將web頁面轉化為DOM結構，找出不可能成為節點的標籤並剔除例如：

對於一個帖子而言，有這麼幾方面重要的內容：作者、時間、正文內容，這三個方面之中，作者、正文內容結構是難以預測的，但是時間我們可以通過使用正則表達式進行匹配。因此，我們遍歷出所有節點，將節點中不含有時間的節點剔除。

另外我們發現，一個樓層塊中必定有很多的標籤塊，如作者、時間、內容等等，我們對每個樓層下的節點進行遞歸循環，發現樓層下的標籤數量比較多，因此我們設置一個閾值進行過濾。將的標籤數目少的節點過濾。

2.定位樓層

經過以上幾個步驟之後，我們將每一塊與他的所有兄弟節點進行比較，找到相同的塊，並作為一個列表存儲。如下圖：

將2、3與4進行比較，8、9、10進行比較，最終我們會得到幾個列表：

[2] [3] [4] [5,6] ...[8,9,10]...

列表內節點個數最多的為樓層序列。

通用論壇內容提取演算法

一、挖掘目標

二、總體流程

三、主要貢獻

熱門新聞

週熱門

通用論壇內容提取演算法

一、挖掘目標

二、總體流程

三、主要貢獻

有哪些非黑箱的機器學習模型，或者預測演算法？

怎樣學習遞歸？

怎麼學好數據結構，計算機組成原理？

有什麼方法可以檢測視頻裏是否用了AI視頻換臉演算法？

我是計算機系的一個學生，可以給一些練習演算法的建議嗎？

怎麼把C/C++演算法翻譯成Verilog語言？

演算法工程師真的是調參俠嗎？

XGBoost中的正則項為什麼包含樹模型的輸出值？

演算法工程師在工作中產出太慢怎麼辦？

如何用擴展中序序列創建一個二叉樹？

如何評價NLP演算法ELECTRA的表現？

這種問題在數學領域中叫什麼？或者計算機中有沒有類似的演算法？

某酒鬼有90%的日子都會出去喝酒，喝酒只隨機去固定的三家酒吧。今天警察找了其中兩家酒吧都沒有找到酒鬼。 問：酒鬼在第三家酒吧的幾率？

遞歸的本質是什麼？

如何評價 NGA（艾澤拉斯國家地理論壇）於 2019 年 7 月 26日起無法發貼？

熱門新聞

週熱門

某酒鬼有90%的日子都會出去喝酒，喝酒只隨機去固定的三家酒吧。今天警察找了其中兩家酒吧都沒有找到酒鬼。問：酒鬼在第三家酒吧的幾率？