圖片來自網路

截止到今天,中國首部重工業科幻電影《流浪地球》票房已經突破 32 億元,而且現在仍然保持每天 2 億票房的入賬,很可能會最終突破 50 億票房。驚人的票房數據讓眾多票房預測機構大跌眼鏡。根據我們的統計,在春節檔之前,不同預測機構給《流浪地球》的票房預測普遍在 10 億左右,與本片的實際票房差距在五倍左右。

與此同時,在春節檔其它電影的票房預測上,預測機構也普遍呈現了非常大的偏差,甚至在電影第一天的票房數據之後,貓眼APP 給出的《喜劇之王》的預測值仍然達到了 24.96 億,而實際上,《喜劇之王》的票房之後就大幅縮水,最終的票房很可能只停留在 6 億左右。

票房分析可以說是大數據分析一個非常典型的應用了,具有數據來源多(歷史票房數據、社交媒體互動、受眾反饋等)、數據量大影響因子多(用戶評價、宣傳流量、預售量、檔期、題材、流量明星)等等特點,可是真正到實踐之中仍然不盡如人意。那麼,為什麼數據預測這麼難呢?怎麼來提升數據預測的準確性呢?

一、大數據來進行票房預測的三種思路

Datahunter 資深數據分析師介紹稱,目前針對電影票房的預測主要有以下三種思路:

第一種思路可以形象的理解為「照貓畫虎」,其原理在於:目前市場上已經上映了大量的影片,並積累了海量的票房變動數據,深度神經網路模型可以依據某一部影片的大量用戶行為數據,在定檔影片上映前一個月就可以給出該片的首日票房預測;同時,系統自動篩選出與之最相似的電影,描繪出待映電影的未來票房走勢圖,進而預測出這部影片在上映期間的每日票房以及最終的總票房。谷歌所採用的預測模型只選取了三種維度:電影預告片的搜索量、同系列電影前幾部的票房表現、檔期的季節性特徵,最終獲得94%的預測準確率。

谷歌建立的票房預測線性回歸模型

這種方式的優點在於簡單直接,更接近傳統大數據分析「只反映趨勢,不深究因果」的理念,上映時間越長,其預測的數據就越為精準,往往適用於貓眼等掌握了大量票房數據的企業。但缺點在於,其無法將電影上映過程中眾多的複雜因素考慮進來,所以經常會出現預測波動大、與實際偏離值較高等缺陷

第二種思路則較為複雜,而且會將更多的因子納入到考量因素中來。其先根據歷史票房變化預測出某一個檔期的總票房,然後根據社交媒體討論數量、不同導演與演員的歷史電影質量、點映用戶的評價、票房情況、SEO情況等預測出各電影票房佔比,之後綜合預測出各電影的實際票房。這種方式優點在於更多的將「電影評價」這一個重要因子納入到考量範圍內,通過電影導演表現、上映前反饋等等因素來判斷齣電影的流行趨勢,因此預測精準性方面有更好的效果。

第三種思路則綜合了大數據分析與人工決策,即先使用大數據分析來對於影片的票房進行一個事先的預測,並輸出可視化的數據圖表。與此同時,專家會對具體的電影進行分析,找出其潛在的爆點或是隱患,並評估其可能帶來的影響,並以加權的方式納入到模型之中進行修正。這種方式在預測爆品方面有更好的表現,也是 Datahunter 優先推薦的方式,這種方式我們在稍後會繼續講到。

二、票房預測為什麼這麼難?

儘管有著大量的數據以及先進的工具,但是票房預測仍然沒有達到讓人滿意的精準率,這就要像金融行業中經常談到的「黑天鵝」概念一樣,非常難以預測、且不尋常的事件經常會發生,而且還會引起連鎖負面反應甚至顛覆。體現在大數據分析與預測場景中,只要某個隱性但關鍵的因素沒有沒納入到模型中,將可能使預測與事實產生重大偏差。

這也是大數據分析的難點所在:事物變化的影響因素非常多,幾乎不可能窮盡,誰知道哪一個因素將會產生連鎖式的反應?而且,由於很多大數據分析工具並不考慮因果性,只考慮相關性,經常會帶來「虛假相關」的問題,也就是無法對於數據變化的真正原因進行歸因。在大多數場景下,這樣的預測並沒有什麼問題,但是在特定的場景下,偏離預測的情況仍有可能會發生。

更加不可控制的則是不成熟的市場環境,以及潛在的風險因素,比如影片檔期選擇、宣發策略的一招失誤,就可能導致整個影片的票房成幾倍的誤差。而某個關鍵演員的負面新聞也同樣會帶來不可預期的影響,例如吳秀波的醜聞導致《情聖2》的撤檔,范冰冰事件則直接導致《大轟炸》放棄國內上映,賠的血本無歸。

如果將具體電影代入到預測模型中,我們將很容易發現預測的難度:如果使用谷歌預測模型來預測《流浪地球》,只有檔期的季節性特徵是利於其票房發揮的,其不僅電影預告片的搜索量不及同檔期競爭電影,而且同系列的科幻電影幾乎沒有市場表現,無怪乎得到眾多預測機構的看衰。這樣的例子並不少,其突出的特點就是口碑的大幅引爆,比如《瘋狂動物城》、《白蛇傳》、《紅海行動》乃至票房榜首《戰狼》都屬於這個類型。

三、數據預測準確率如何改善?

儘管電影票房預測看似困難重重,但是仍舊可以通過不同的方式進行改善。在前面我們提到了大數據分析與人工決策相結合的方式,其核心原理就是利用人工思維的主觀能動性與創造性,發掘電影票房中潛在、但關鍵的影響因子,最終來得出結論。而這一影響因子是不斷發生變化的,幾年之前,這一關鍵因子往往體現在 IP、流量明星中,現在,口碑、開創性對於票房會帶來更大的影響。

有些人會問,電影尚未上映,口碑怎麼來進行判斷呢?其實,這往往是有跡可循的,其數據可能來源於電影的提前點映評價、預告片、拍攝周期等等因素。例如,在上映之前,《流浪地球》的點映就得到了觀眾的超高評價,而《愛情公寓》大電影還沒上映我們就基本可以判斷是爛片。當然,這些都是大數據系統無法完全告訴我們的,需要專家進行評判。

要評價電影對於觀眾的吸引力,還可以採取 LDA 來進行分析,LDA 是一種非監督機器學習技術,可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。下面是不同機構通過 LDA 對《流浪地球》進行的詞雲圖分析,可以看出《流浪地球》的科幻、特效等核心辭彙很好的切中了當前觀眾的「痛點」,完全可以在預測中給出更高的評判。

四、數據分析的其它應用場景

除了票房之外,其它應用場景可以利用大數據分析+人工決策的方式進行分析么,答案是肯定的。目前 Datahunter 正在搭建 Data Analytics 數據分析平台+Data Wisdom數據智能決策的人工智慧決策輔助平台,這套系統並沒有激進的將所有決策任務都交給機器系統,而是將數據挖掘結果輸出給專家,並結合專家判斷進行調整,能夠更好的預防「黑天鵝」事件的發生。

例如,在銷售數據預測時,除了可以根據歷史銷售數據、人口密度、消費水平、消費習慣、商圈口碑等數據進行深度數據挖掘之外,管理者或是專家還會根據帕努單那納入其它的影響因子(例如某項活動的舉行、補貼政策的退出等等),根據結果進行相應的資源調配以及銷售額調控措施,讓銷售更富精準性。

歡迎關注公眾號:數獵天下DataHunter

-數據分析展示就用 DataHunter-

手把手教你免費使用數據可視化軟體

手把手教你免費使用數據可視化軟體?

www.datahunter.cn


推薦閱讀:
相关文章