本文作者將使用多種文本挖掘方法,來分析《全唐詩》。篇幅略長,請耐心閱讀^_^
楔子
近些年來,弘揚中華傳統文化的現象級綜藝節目不斷湧現,如《中國漢字聽寫大會》、《中國成語大會》、《中國謎語大會》、《中國詩詞大會》等,其背後的社會成因,在於人們對中國文化中最精緻文字的膜拜心理,雖然浸淫於層出不窮的網路語彙,時時面臨「語言荒漠」的窘境,仍心嚮往之。
上述節目中,筆者最感興趣的還是《中國詩詞大會》---通過對詩詞知識的比拼及賞析,帶動全民重溫那些曾經學過的古詩詞,分享詩詞之美,感受詩詞之趣,從古人的智慧和情懷中汲取營養,涵養心靈。
由於在新浪微輿情從事的是語義分析產品方面的工作,平時用到很多文本挖掘的方法。所以,筆者想從文本(數據)挖掘的角度去「探索」全唐詩,挑戰一些不同場景下(現代漢語和古漢語)文本處理和分析的異同點,錘鍊自己的分析技能;但更想做的是,結合數據之美和詩歌之雅,用跨界思維去發現一些有趣的東西。
在這裡,筆者分析的語料是《全唐詩》,它編校於清康熙四十四年(1705年),得詩四萬八千九百餘首。
接下來,筆者將使用多種文本挖掘方法,來分析《全唐詩》。
以下是本文的行文脈絡: