本文從業務的角度來談談基於大數據的文本分析及其在商業場景中的應用,正文會附上一些實例及開放的工具,力求讓理論落地,服務於實踐。大數據離我們越來越近,從事數據運營的小夥伴們,你準備好了嗎?

本文是《數據分析中,文本分析遠比數值型分析重要!》的上篇,聊的是文本分析的一些基本知識,下篇將以一個實際案例來聊聊基於大數據的文本分析是如何應用在商業場景中的。

1 我們日常所理解的「數據分析」

在我們日常的產品和運營工作中,經常接觸的數據分析方法、形式絕大部分是基於對數字(值)的描述性分析,如銷量情況、用戶增長情況、留存情況和轉化情況等,高級一些的數據分析方法有因子分析、聚類分析和回歸分析等方法,見下圖:

常用的數據分析方法/形式

這些分析方法/形式有一個共同點:都是跟數字在打交道,說的專業一點,就是基於對結構性數據(即行數據,存儲在資料庫里,可以用二維表結構來邏輯表達實現的數據)的分析,比如姓名、性別、年齡這些信息,以Word、Excel等形式呈現的數據。這種類別的數據比較好處理,只要簡單的建立一個對應的表就可以了。

典型的結構性數據表格

然而,數據分析僅僅只有這一種類型嗎?答案當然是:NO!

一個完整而清晰的數據分析過程,除了在範圍上,要進行宏觀和微觀的分析外,還需要在分析的層次上有所遞進和深入,以下是我們進行數據分析時常會考慮到7個維度,見下圖:

數據分析的7個維度(來源:《誰說菜鳥不會數據分析(工具篇)》)

在上圖中,對數值型數據的分析能覆蓋絕大部分的維度,但它更多的是描述事物的表層現象,主要是在事物的「量」上進行描述。也就是說,對數值型數據的分析並不能回答其中最為重要的一個維度——「Why」,但在產品和運營的實際工作中,發掘出用戶的喜好、購買/使用及流失的內在原因(也就是洞察用戶的行為動機),對我們的工作至關重要,它會直接影響產品的功能設定和運營策略。

這時,對非結構性數據進行分析的需求呼之欲出。

據國際數據公司(IDC)的在2011年的調查顯示,在今後十年里,非結構化數據將佔所有產生的互聯網數據的90%。而作為一個尚未得到充分開發的「信息金礦」,非結構化數據分析可以揭示出,我們之前所認為的異常複雜、且難以捉摸的諸多商業驅動因素間的重要相關關係。

所以,我們有必要對非結構性數據引起高度重視!!!

先等等,什麼是非結構性數據呢?

2 什麼是文本分析?

非結構性數據是與結構性數據相對的一個概念,它包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。

非結構性數據組成部分

本文所提及的非結構性數據特指文本數據,這裡包括且不限於社交網路(微博、微信、QQ和脈脈等)、客戶反饋(客戶抱怨郵件、社交媒體網站的帖子、開放式問卷調查、消費者點評)新聞媒體、銷售人員的拜訪記錄等。

文本分析的目的在於從根本上把所有的非結構化數據整合從而化為結構化數據,從之前被認為難以量化的海量文本中抽取出大量有價值的、有意義的數據或信息。

所以,對文本數據進行分析,我們能得到哪些有價值的商業線索或洞察呢?

3 基於大數據的文本分析的商業價值

文本數據來源異常廣泛且多樣,很多時候需要搜索海量的網頁。當然,只有基於恆河沙數般體量的大數據文本分析,才有可能得出比較可靠、有說服力的商業insight。

所以,「文本分析」常常被冠以「大數據文本分析」的全名。

「文本分析」,或者「語義分析」通過分析海量的非結構性的文本(信息)數據,得出的不僅是關於「是什麼」的描述性分析,更多的回答了「為什麼」,即目標用戶購買和使用產品的潛在動機/真實需求。

在商業實踐中,基於大數據的文本分析被廣泛應用於各行各業,利用認知技術獲得全新的商業洞察,解決關鍵的知識性問題,這被IBM稱為「認知商業」。例如企業可以從客戶關係數據、 社交網路、 新聞網站和購物網站評論等渠道獲取文本數據,進而通過計算機進行自然語言處理,從而揭示出在任何非結構化文本信息中的「4W」要素,即人物(Who)、事件(What)、時間(When)、地點(Where)等,結合其中隱藏的「Why」進行關聯分析,最終得到貫穿所有業務的全新層面的商業洞見。

大數據文本分析提取出的主要維度

舉例來說,某個APP的用戶滿意度一段時間內上升不少,可以從評論量中好評數量的增加以及服務評價幾顆星來看出,但這只是描述性的分析,並不能知道為什麼用戶會給好評或差評,產品或服務的哪些方面會得到好評。

然而,藉助大數據文本分析,我們通過提取出的「4W」要素獲得對用戶「Why」的理解:

  • 什麼時候用戶的評論較正面,什麼時候較負面(When)
  • 用戶所給的好評和差評分別集中在該APP的哪些方面(What)
  • 哪些人評論給差評,哪些人給好評,他們在用戶中的言論影響力如何(Who)
  • 哪些地區的用戶給好評/差評,這些地區的用戶分別注重該APP的哪些方面(Where、What)

簡而言之,基於大數據的文本分析能夠揭示出潛藏在文本信息當中的趨勢和關聯,為商業決策、行業趨勢研究和熱點內容追蹤提供有力支持。

那接下來的問題是:我們要去哪裡找這些非結構性的文本數據呢?

4 這些有價值的海量文本數據「藏」在哪裡?

社會化媒體時代,用戶在購買產品/服務前,使用中,或是使用之後,一般會在互聯網上表達自己的對產品的疑慮或看法,通過互聯網這個平台表達社情民意,體現自身的真實意願和產品/服務的體驗感受等。

一般來說,用戶產生的有價值的「發聲」主要集中在如下6個 「場所」:

大數據文本信息的來源

同時,在互聯網的產品和運營工作中,我們需要重點瞄向社交媒體、電商平台及APP應用市場這3個用戶「言論集結地」,從上面獲取用戶對於產品/服務的「發聲」。

(1)社交媒體

社交媒體發展日益矚目,論壇、博客、微博、微信等社交網路接踵而至,它們在悄無聲息中改變著我們的生活方式。

在交互性強、容易沉澱價值信息的網路論壇上,網民們可以獲得各種信息服務,同時可以發布信息、進行討論、聊天,用發帖回帖來表達對事件、產品、品牌和企業的看法。

在容易爆發熱點話題的微博上,用戶除了會主動發布的微博外,還會主動追蹤熱點事件、喜愛的興趣頻道和明星的微博,轉發和評論這些微博。

在具有強關係屬性的微信上,用戶會對自己關注的公眾號發布的內容進行評論和轉發,以此來表達自己的觀點和情緒……

在這個社會化的媒體時代,用戶成為企業最好的品牌推廣大使。如何從這些可觀的社交媒體數據中分析出用戶的潛在且準確的購物意願及用戶需求,將成為提高品牌價值和聲譽,改善用戶體驗的新興途徑。

例如,新浪微博上粉絲過萬的零售商,可以根據對某條轉發量極大的微博進行傳播分析,從中挖掘出粉絲的性別、地域、關注的微話題、星座及興趣標籤,為粉絲個性化的去推送優惠及新品信息。

由此可見,這些看似龐大且無規則的社交數據,往往包含著大量的用戶基本信息和興趣標籤,它們是繪製用戶畫像的絕好素材。

(2)電子商務平台

電子商務網站上的海量的用戶言論數據隱含著巨大的信息,這些網站包括且不限於淘寶網、京東商城、亞馬遜和大眾點評網等主流購物、服務平台。

例如,亞馬遜上的用戶對某商品的評論,商家可以根據用戶的評論和反饋,為用戶提供定製性的服務,甚至可以預測用戶的需求,從而達到更加準確的銷售目的。

(3)其他第三方應用市場

移動互聯網時代誕生了的APP,這些APP除了「掛」在自家的官方網站以外,更多的是分布於第三方應用市場(如蘋果商店、91助手、豌豆莢、小米應用市場、百度手機助手等),這時收集用戶的大量吐槽對於改善APP的用戶體驗至關重要。通過對用戶大量評論的文本分析,我們可以第一時間了解到產品的哪些方面是用戶喜歡的,哪些方面是用戶比較嫌棄的,哪些是無關痛癢的「偽需求」,力求在短時間內改善產品的功能與設計。

綜上所述,相關文本數據的來源多樣,而且覆蓋了非常廣泛的話題。任何和產品/服務相關的陳述和評論本質上都是有用的信息,因為這些陳述可以讓產品/品牌所有者了解用戶的最真實的想法。

5 大數據文本分析的一些應用場景

以上說的是大數據文本分析的一些原理、數據來源及其商業價值,現在筆者就從以下5點來談談它的實際應用場景:

(1)開放式作答處理

大量問卷調研中的開放式問題的處理,這些開放式的問題以電子文檔的形式進行存儲,使計算機進行文本分析成為可能,可以在短時間內從數以萬計的作答中提取出有價值的分析維度,獲得對(潛在)用戶的需求的洞察。

從近萬份某3.15開放式問答題中提煉出的焦點話題

(2)內容運營優化

捕捉優秀作者的寫作風格

對於一些初入新媒體運營崗位的小夥伴來說,研究和模仿某些知名自媒體作者的寫作風格很有必要,學習他們的寫作手法和套路可以使我們的文案寫作進步神速。

要想對這些優秀作者的行文風格進行深入研究,除了熟悉他們的行文脈絡和篇章結構,更要熟稔其遣詞造句上的套路(包括措辭特點、常用關鍵詞和情感傾向等),在模仿中逐步形成自己的寫作風格。

如下圖,對咪蒙10幾篇具有代表性的文章進行文本分析,從如下各種屬性的關鍵詞,再結合對咪蒙作品的一定了解,可以得出這樣的結論:咪蒙的文章里經常進行宣洩負面情緒,把粉絲心中想說卻不敢說的話酣暢淋漓的表達了出來,使萬千粉絲感同身受,被其感染;另一方面,她身邊的人常是被吐槽和分析的對象。

對咪蒙10幾篇具有代表性文章進行文本分析

新媒體熱點採集、追蹤及預測

基於大數據的文本分析能快速獲取全網具有趨勢傳播的關鍵詞,可以實時監測傳播趨勢(包括全面研究閱讀數、評論數、分享量、傳播趨勢),並且通過分析內容屬性和成功原因,預測內容在未來的傳播潛力。

能夠嫻熟使用大數據的媒體人在未來的媒體行業才有立足之地,就如熱巢網CEO穆青所強調的:

在未來的媒體競爭中,媒體人需要轉型為「內容+技術」的複合型人才,一方面發揮自己在內容創作中基於人性的獨立判斷和分析,另一方面需要藉助大數據分析技術提升文章的傳播效果,進行科學的人工傳播干預。

(3)口碑管理

基於大數據的文本分析能快速準確的識別出企業/品牌/產品自身及競爭對手在互聯網上的口碑變化,深度挖掘文本數據價值,在消費者洞察、產品研發、運營管理、市場營銷、品牌戰略方面,為管理決策提供科學依據。

某餐飲品牌的口碑管理

(4)輿情監測及分析

利用基於大數據的文本分析,我們可以清晰的知曉事件從始發到發酵期、發展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情的傳播路徑、傳播節點、發展態勢和受眾反饋等情報。

對滬文化廣播影視管理局的輿情監測

(5)了解用戶反饋

通過基於大數據的文本分析,企業可以用正確的方式閱讀用戶散落在網路上的「聲音」,企業可以直接讀懂自己用戶的想法,挖掘出用戶對於產品/服務的情緒和態度。比如,大數據文本分析可以回答如下問題:

  • 用戶喜歡的是它產品的哪一方面?
  • 比起其他公司的產品來,客戶是否更傾向他的產品?
  • 這些偏好會隨著時間發展和變化嗎?

本文偏向於科普大數據文本分析的基本知識,下一篇將用一個生動的案例來說明,大數據文本分析是如何在互聯網商業實踐中體現其巨大商業價值的。

推薦閱讀:

相关文章