董磊 集智AI學園

「電子足跡」如何預測城市發展?| 數據科學應用案例?

mp.weixin.qq.com圖標

今天想探討的主題是數據與地區發展,這裡面有幾個關鍵詞,一個是數據,一個是地區發展。地區發展是城市研究的一個核心問題,地區發展蘊含了大量的數據,所以說數據和地區發展的碰撞能產生什麼樣的火花呢?

本文要點:

Google大數據在流行病學、經濟預測、社會發展等方面的應用

人們是如何利用大數據預測農產品產量的如何利用中國手機用戶數據預測中國的「鬼城」

關於大數據的批判與反思


一、學科領域的演變

簡單地做一個自我介紹,我叫董磊,清華大學博士,具有建築學、經濟學、城市研究等多個領域的學習和研究背景,曾在百度研究院Big Data Lab (BDL),從事時空數據挖掘工作。主要研究興趣是數據驅動下的城市研究、時空數據挖掘與建模,空間網格。本文主要介紹地區發展和大數據之間的一些研究。

首先先來梳理一下複雜科學領域的學科發展,梳理一下相關研究的脈絡,大概分成圖中的五支:

學科發展框架

第一支(紫色)是以數學為代表,比如分形、非線性動力學;

第二支(藍色)是生物領域複雜性的探索,最後到計算生物科學以及生物的組織演化,包括@張江 老師一直在做的工作;

第三大塊(中間黃色)是一個最主流的領域,以自組織以及系統科學最後到網路科學為代表,這是最大的一支。

下一支是從控制理論開始,最後一支(橙色)是計算機科學。


二、關於大數據的三個故事

大數據究竟能做什麼?先跟大家分享三個Google在大數據領域的經典故事。

1、Google Flu

第一個故事是Google流感,又叫Google Flu。可能很多人聽說過,但不太清楚它背後的原理、機制,以及它到底做了什麼、有什麼樣的結果。

Google Flu是Google在2008年的時候做的一個工作,在學術界和業界都引起了極大的影響。大家突然發現,一個互聯網公司竟然開始介入流行病與地區發展相關的研究,而且很重要的是文章作者們,除了一位貢獻了調查數據之外,全都是Google的計算機科學家,而他們都沒有任何的傳染病研究或者城市研究的背景。有趣的是,他們寫了這麼一篇Nature的文章,沒有任何的「公式」。他們是怎麼做的呢?為什麼會引起很多的質疑以及爭端?

Google Flu (參考文獻[1])

關鍵詞數量與準確率關係 (參考文獻[1])

原理是這樣的,大家都用Google或者百度的檢索,這種搜索數據稱為Query,他們把大概5000萬條最主要的搜索數據一個一個去和流感爆發的數據做了相關性的分析,篩出高度相關的關鍵詞。把主要的關鍵詞篩出來以後,再把它進行各種組合,y軸代表準確率,x軸是數量,當組合到45個詞的時候,準確率是最高的(雖然不知道為什麼)。於是他們就認為,這45個關鍵詞能夠預測一個地區的流感的發病趨勢,而且這個能夠做到州級別的精度,對於每個州他們都能做一個很好的預測。

預測結果與實際結果比較 (參考文獻[1])

黑色的先表示預測結果,紅色的線是實際結果,根據預測結果和實際結果的對比發現,預測能夠比實際的早一到兩周。這在當時引起了很大的轟動,這篇文章也被廣泛引用,但這也埋下了爭論的伏筆。Google在2008年做的流感研究,被認為是用互聯網和大數據做地區傳染病的研究先驅。

2、Google Unemployment [2]

第二個Google做的很重要的工作是來預測地區的經濟,這也特別神奇。緊接著2008年Google Flu的工作,2009年Google發了一篇內部的技術報告,講了他們用搜索來看美國的失業率。黑色的線是美國的調查失業率,紅色的線是Google與失業相關的詞頻的變化,經過一個簡單的時間序列的回歸以及一些季節性調整之後,他們發現有非常好的相關性。

所以說他們認為Google檢索詞不光能預測流感,也能預測地方經濟的活力。而且不僅是宏觀經濟,檢索還可以預測一些微觀經濟的情況,我們可以去預測一個汽車的銷量,或者給公司提供一些商業諮詢。比如這個車怎麼賣,或者下一季度賣得好不好,或者樓盤怎麼賣,他們都能做一個很好的預測。

下面這張圖代表的是Google預測的汽車的銷量,黑色的線是官方的統計數據。但這裡也有一個trick的地方,就是他們在文章裡面特彆強調的一點就是Google預測當下,從來不強調預測未來。

詞頻檢索與汽車銷量 (參考文獻[3])

3、Google Culture

提到Google關於經濟的研究就不得不介紹一個人,非常有名,叫Hal Varian,是Google的「CEO」,不是首席執行官的意思,他在Google的職位是首席經濟學家,Chief Economist。他在經濟學界也是一個很先鋒性的人物,他最早關注了信息經濟學以及網路經濟學,寫過一本名叫Information rules: a strategic guide to the network economy的重要著作。Hal Varian2007年全職加入Google任首席經濟學家,但早在2002年都開始參與Google的許多工作。

Hal Varian的Google Scholar主頁

兩本Varian寫的重要著作

他從2002開始就參與Google的很多研究與決策,他參加了改善了Google的競價排名,通過經濟手段優化拍賣機制,也在Google做過一些計量經濟學的分析,包括公司的戰略合作,還有公共政策。他們的很多工作看上去並不能夠給它帶來商業上的直接收入,比如說它做流感、做宏觀經濟預測,但是對於它在公眾領域的形象和政府關係是有非常重要的影響。

我們看到,前面講了Google做了地區性流感的預測,做了經濟分析,它能夠分析出一個地區的失業情況,還能分析出產品銷量的變化情況。但不止於此,他們還想去看看歷史和文化的變遷。

Google Culture (參考文獻[4])

在2011年,他們寫了一篇文章,之前Google基於所有的電子化的書籍整理了一個資料庫,開發了一套演算法,這樣可以統計歷史的長河中詞頻的變化。Google圖書計劃在當時(2011年)一共電子化了500多萬本書,約佔人類全部出版物的4%。他們做了大量的工作,但文章寫得很輕鬆,以圖為主,我們可以來看一下他們的工作。

出版物中詞頻的變化 (參考文獻[4])

他們認為歷史的演變會體現在出版物詞頻的變化上,通過一些關鍵詞可以看出這種趨勢。他們認為書籍中的詞頻能成功反映三次大流感的爆發,還有世界政治格局的演變,像所謂的南北問題,有神論和無神論。包括男性和女性這兩個詞,男性的詞頻在下降,女性在上升,這對應了女權主義的崛起。通過這種方式可以很好地刻畫歷史長河中文化的演變。

紐約、倫敦、巴黎和羅馬四個城市200年間詞頻的變化 (作者自繪)

這是用Google的數據去看一個城市的興衰和演變,可以看到,如果把紐約、倫敦、巴黎和羅馬這四個世界大都市的關鍵詞輸進去,很明顯的現象就是羅馬從1800年開始慢慢地衰落,這其實與大家的認識也吻合,羅馬在世界經濟和文化中的地位正在減弱;巴黎不怎麼變,還是比較穩定;但是這裡面有兩個在躍升的,一個是倫敦是穩步上升,而紐約有了大幅度地飛躍,這與整個經濟和文化的中心從歐洲往美國轉移有很大關係。圖上有兩條灰色的線,對應的是紐約的高峯,歐洲城市的低谷,其實這是兩次世界大戰的時候,歐洲是主戰場,其實就是二戰摧毀了大量的城市,一下子跌入一個谷底,美國也在那時候得到崛起。


三、」大「數據背後的四個特徵

通過這三個故事,發現他們背後有這四個特徵,這些特徵是所有這一類研究的特點,同時也是很多人批判他們的原因。

第一,他們只關注詞頻在時間序列上的變化;

第二,有些帶有一點的空間位置,比如不同區域的流感,但是都是比較粗糙的,比如說到州這一級;第三,預測當下而不是未來;第四,需要基於調查數據驗證。

所以有很多人認為,大數據其實並沒有發揮它的優勢,只不過是做實了之前的一些研究而已。還有的人認為,他的數據粒度可以做到很細,但是沒有做到,這是所有Google的一些研究他們共同的特點。

但事實是並不是Google做不到,而是很可能他們已經做了,但並不會公開地對學術界或公眾去講,因為這個非常牽涉到個人的隱私。比如說每個人有一個ID,Google檢測到他是不是檢索過流感或者疾病爆發的關鍵詞,這樣可以很精準地刻畫一個人的行為,如果把這些數據公佈出去,是一個非常敏感的事情。但是這些數據很多時候被用來做他們的廣告服務,只是沒有讓你知道。

Google Trends (Job, unemployment兩個詞)

1、百度指數與Google Correlate

Google開發了幾個產品,包括百度也有一個相關的產品,叫百度指數。比如把失業這個關鍵詞輸進去,如果從長週期來看,可以看到美國是這麼一個變化,2008年,相關詞條的檢索量突然上升,這是因為08年發生了很嚴重的金融危機;一直到2013年、2014年才稍微下降一些,這是因為美國的經濟開始復甦。如果從短週期來看,這些波峯和波谷是非常有代表性的,在中國也有類似的情況。同樣還可以做一些比較大一點區域的數據,你可以看不同的州的變化,還有重點城市的變化。

第二個更加神奇,之前所有的假設在於需要事先知道是哪些詞,比如說要研究經濟問題,需要輸入經濟相關的詞,研究戰爭問題輸入戰爭、衝突有關的詞。但不知道要找哪些詞怎麼辦?比如說房價是這樣變的,但是並不知道什麼會影響這個房價,那怎麼去做一個驗證?

Google有一個產品叫Google Correlate 只要把房價數據上傳上去,它會自動從它的詞庫裡面找到與這個曲線變化最相關的一組詞。如果炒股的話你可以去看一看,把自己選的股票的曲線扔進去,看看究竟是哪些詞頻會影響你選擇的股票的走勢。

Google Correlate (美國房地產價格)

這是一個例子,比如說把美國住房市場的變化輸進去(藍線代表),紅線是輸出最高頻的相關詞的組合,是非常好的擬合的形式,而且這個都是公開的可供下載的,可以自己構築一個房地產投資和股票的走勢。


四、衛星遙感大數據研究

前面說了三個Google大數據應用的故事,是因為Google是業界非常領先的公司。但其實在Google、百度出現之前——甚至互聯網出現之前,早就存在著用非常大量的數據去預測一個地區發展的情況,而且有一個很成熟也是很成功的應用,就是常用的遙感數據。遙感是類似於飛機和衛星掠過地球表面,它給地球拍了一個照片,是相對比較客觀的數據源。

有這樣一個故事,當年美國和中國的關係比較緊張的時候,美國說能夠預測到中國糧食的產量,就可以有提前的一些貿易上的政策,背後用的就是遙感影像。而且這個領域現在在大宗的農產品期貨和地區性的貿易上,用得非常多,好幾家創業公司就做這個領域。

農業產量與衛星遙感 (圖片來源:Orbital Insight)

這是一張衛星遙感的圖片,所有標紅的區域是農業產地。這是世界銀行在做的一個工作,他們想看全球的糧食產量到底是怎麼樣的。不同的產量區域對應的顏色特徵是不一樣的,可以用一些圖象處理的演算法來預估農業產量,這聽上去非常神奇——用數據可以預測地區微觀農業發展。

地區建設與衛星遙感 (圖片來源:Orbital Insight)

同樣也可以用一些衛星遙感的數據、用圖片的方式來檢測一個地區的建設情況。而且通過結合建築陰影的情況,在比較好的演算法的調整下,可以推測出這個房子或者這個樓盤的高度,就可以評估,比如說一個地區的住宅的總量和各種區域的建築總量。

世界銀行在和美國的一些研究機構合作,包括百度也在開展一些工作,探討如何衡量一個地區是否真正的貧困?在資源有限的情況下,應該把資金補貼投入到哪個地區,這是之前傳統的方法沒法去獲得的。可能很多貧困地區已經不貧困了,但是它為了獲得支持,會一直扣這個貧困的帽子,所以如何用科學方法去刻畫貧困,也是一個很重要的研究問題。

1、你在城市中留下了哪些「足跡」

之前說了三個Google引發的數據故事,也提到了在互聯網大規模應用之前,大家已經用遙感的數據來預測農業經濟、以及城市的蔓延。拋開檢索詞也好、遙感也好,我們來看看人真正的活動,在城市之中到底是一個什麼樣的狀況,你在城市中留下了哪些「足跡」。

城市中的電子足跡(參考文獻[5])

這張圖是我們的實驗室做的,叫百度照亮中國,用的是手機產生的位置信息數據,越亮的地方是用戶越多,或者說是電子足跡越多的地方,越暗的地方就是用戶越少的地方。圖中部是山東半島,下面是長三角,再往北一點是北京地區。這裡面沒有疊加任何的底圖,就是用手機用戶的電子足跡,就可以很精確地刻畫一個地區的結構和活力。用手機數據能把不同地區甚至街道、路網進行了非常有效的刻畫,而且用戶的覆蓋量是非常大的。

Vacant housing in China (參考文獻[6])

2、「鬼城」的研究

第二個就是吳海山博士和幾位同事做的關於「鬼城」的研究[6]。中國在快速的城市化進程中,建設了大量的住宅,但其實沒有什麼人住(蠻有意思的一個現象)。很多人都意識到了類似的問題,但是想要知道究竟哪些住宅區空置率比較高?是比較困難的。

有一些傳統的方法可以做,比如:抽取樣本、派人去數晚上的樓是不是亮燈,但這些調查能覆蓋的範圍一是比較小,二來準確率也不高,同時費時費力。

聯想到剛剛提到的百度的照亮中國這個項目,於是就可以用非傳統的方式去解決這個問題,你的足跡就是相當於你點亮了一整棟,首先去找出所有的小區樓盤和你的足跡的關係,只需要做兩個工作,第一個是要把所有的樓盤找出來,第二個去評估一下樓盤裡面所有的電子足跡情況、數量。然後就可以把空置率非常高的地區找出來,進一步去分析它的原因,看看它產生的背景。

住宅空置率比較高的地區 (參考文獻[6])

這是找出來的空置率比較大的地區。可以發現,相比於之前可能知道某個地區有空置的現象,它提供了一個更深刻的見解,即它能夠通過數據精確的刻畫出城市空置率。

把它們找出來之後,其實需要一個驗證的工作,可以藉助大量的街景地圖,去判斷是不是新開發的樓盤。

這項工作得到了特別廣泛的關注,像華盛頓郵報、MIT Technical Review等世界上數十幾家主流媒體都進行過報道。其實,像Google、百度還有大量的沒有發表的工作,都做得很有意思。

華盛頓郵報報道頁面 (圖片來自華盛頓郵報官網)

五、關於大數據的批判

對於「大」數據,大家可能多多少少都聽過來自各方面的批判,其中比較有影響的應該是2014年Science的一篇文章叫The Parable of Google Flu: Traps in Big Data Analysis的文章,引起了廣泛地討論。因為四個作者都是相關領域最資深的學者,他們的批判在某種程度上也可以認為是學術界和工業界的大戰。

對Google Flu的質疑 (參考文獻[7])

1、質疑理由

他們怎麼質疑Google之前的研究呢?

首先,這幾位學者發現,Google Flu總是高估流感的實際情況,2011-2012這兩年裏,Google Flu在108周裏有100周是高估的。更重要的是,他們發現如果只用調查數據(CDC有關於流感的調查)做一個滯後兩期的模型,來進行預測,這個模型的結果比Google還要準。也就是說用傳統數據預測比Google Flu更準,那要Google Flu何用?

Google Flu與CDC的比較,Lagged CDC比Google Flu效果更好 (參考文獻[7])

橙色的線是Google流感預測出來的,深藍色的線是官方的調查數據,在最高峯的時候,Google能高出它的兩倍。

此外,他們還從學術界的角度找了幾個批判Google Flu的原因:

第一個,是Google沒有披露究竟是用了哪45個詞,結果不可重複。這其實挺有意思的,包括現在做的很多工作或者出於商業的考慮或者出於用戶隱私的考慮,都不太可能告訴很細節的東西。

第二個,我剛才講到了Google自己給自己挖了一個坑,Google推出了GoogleCorrelate,文章四位作者去用CDC的趨勢,找擬合程度最好的詞,發現找出來的詞的趨勢和Google Flu的趨勢不一樣.他們認為Google有操縱詞條的嫌疑。Google最後出了一個更正,他們確實對詞做了一些調整,是怎麼調的呢?因為很多詞是跟季節性有關,而流感也與季節相關,但這些詞可能和流感沒什麼關係,比如球賽。

2.大數據研究的原則

後來這幾位學者就針對大數據的研究提了幾個原則:

第一個是透明性和可重複性,就是你的東西必須得告訴我為什麼,別人用你的數據能重複出你的結果來。

第二個是用大數據去理解未知而非已知。在很多商業的具體工作中面臨很多嚴峻的問題,比如中國沒有好的調查數據,沒有數據的時候怎麼辦?是不是能通過數據的方法去理解未知,而不是已知?包括研究的精度,是不是也可以藉助大數據的力量把粒度變得非常精細?但這個其實在商業上是非常危險的行為,就是用戶隱私的問題,這裡不細展開。

第三個他們覺得調查方法一般比較穩定,有一致性性,但是所有的互聯網公司的數據,包括Facebook、Google、百度,它背後的演算法和機制一直在變,用戶量也有非常大量的波動,這樣就對理解背後規律性的東西會造成影響,而且這種演算法都是不公開的。他們覺得,所有的研究人員應該對數據背後的演算法和產生過程有更好的理解。

3.關於大數據研究的反思

我再講幾個我自己現在的反思。之前在進入一些新領域的時候,我們可能會帶有一些成見、或者說偏見,包括我以前學計量經濟學的時候,學者們特別注重因果推斷,如果你只做相關性分析的話,根本是不可能發表經濟學類的文章。所以說很多人對於「大」數據的批判就集中在這些類似的問題上。

第一個就是關於相關性和因果性的問題。比如說一個地區你如果是觀測到它的警察數量多的話,往往犯罪率也是高,但是你並不能得出一個結論就是警察導致的犯罪。還有就是消防員和火災,一個地區消防員越多的話,你會看到這個地區每年的火災量也是最大的,但也不能說是消防員導致了火災。

但是在數據時代其實是更加好去解釋這個問題,因為傳統經濟學方法都是在找試驗,無論是工具變數法還是雙重差分,都想構造出一個實驗組、一個對照組,看看它們的區別。但是在很多數據驅動的公司裡面,這已經是一個非常容易而且非常現實的工作,比如說現在很多互聯網公司做的都是灰度發布,每次發布產品的時候,不是推給我的全部用戶。我會給A類用戶推這種版本,我給B類用戶推另一個版本,我看哪個比較受歡迎,最後會選擇受歡迎的那個產品。所以像我們之前做的很多的對於經濟、人口、政策的研究,都可以基於這些方式去做實驗。如果你有比較好的實驗和設計的話,就可以比較容易去解決因果和相關的問題。在數據時代是更容易去做這些試驗的。

第二個是關於樣本的偏差問題,這也是很多人質疑的。比如說你研究這個問題,Google就只有Google的用戶,百度就只有百度的用戶,微博就只有微博的用戶,這是一個樣本選擇偏差。其實這背後有兩個問題:一個是看你研究的問題是什麼,如果你研究的問題本身這個樣本能夠涵蓋,其實就並不構成問題,像現在有很多人在研究交通問題,其實就是研究通勤的問題,無非就是公交車、地鐵、私家車,如果你能把相關的這些數據(公交、地鐵、計程車,再加上部分地圖的數據可以反應私家車)收集到,那就沒有什麼問題。還有像遙感數據,它比較客觀,也一般不會構成樣本偏差的問題。第二個可以結合一些調查數據對於「大」數據進行校準。而且隨著全民移動的互聯網化、物聯網化,這種問題肯定是越來越好解決。


今天分享的內容是這些,當然還有很多值得討論的問題,比如是否能通過大數據評估一個地區(城市)的發展情況,無論是宏觀經濟、人口的、政策的;這種數據源與傳統的統計調查經濟普查、人口普查,以及對傳染病的調查究竟有什麼不同,應該如何使用?還有就是大數據的邊界在哪裡?


本文由董磊整理自《數據與大發展——從若干實例看大數據應用》課程筆記:

campus.swarma.org/vdeta (二維碼自動識別)


關注集智AI學園公眾號

獲取更多更有趣的AI教程吧!

搜索微信公眾號:swarmAI

集智AI學園QQ羣:426390994

集智AI學園-首頁?

campus.swarma.org
圖標

推薦閱讀:
相关文章