現在很多公司打電話推銷客戶的進出口數據,說通過大數據捉取了他需要的產品信息,那麼大數據怎麼捉取的呢?


這個問題,乾貨滿滿,各種大數據技術在腦袋裡面瞬間排好了隊。但您問這樣的問題,是想必是對大數據不熟悉,乾貨滿滿的技術點就不多說了。跟您簡單舉個例子,您就明白了。

在大數據時代背景下,用戶信息充斥在網路中,將用戶的每個具體信息抽象成標籤

利用這些標籤將用戶形象具體化,這也就是我們常說的用戶畫像。像複雜的電商平台,用戶畫像涉及的標籤達上百個,甚至更多。從而使得平台能為用戶提供有針對性的服務。並且進行精準的商品推薦

比如:我在鏈家app上看過一些租房信息,並設置為了收藏,很快就有鏈家或鏈家授權的第三方中介人員聯繫到我,詢問租房的需求。並按照我收藏的房屋特點,比如一室一廳,靠近地鐵等標籤,進行推薦。

再比如:我在今日頭條的app上點擊過或查看過相關英語學習或讀在職研究生的相關廣告,由於在頭條進行過用戶註冊,包含個人的聯繫方式等信息。所以,不排除這些廣告投放商可以通過頭條的後台合作,拿到相關信息。

此外,像類似於電商平台,還可以根據用戶的搜索的商品,使用協同演算法,將相關的商品推薦給用戶,使得用戶產生購買行為。

---------------------------------------假裝有分割線-----------------------------------------------

大數據應用之廣泛,現在以及未來的各行各業都離不開大數據。如果您對大數據還有其他的疑惑,或是特別想要探究大數據的神秘之處,建議您可以到 @尚矽谷教育 主頁獲取大數據【教程】自學試試。先了解一些。

發佈於 2020-07-24繼續瀏覽內容知乎發現更大的世界打開Chrome繼續大大蛙大大蛙熱愛電影,遊戲的中二少年

根據我在這方面的理解,我認為是這樣的

數據採集,又稱數據獲取,是利用一種裝置,從系統外部採集數據並輸入到系統內部的一個介面。在互聯網行業快速發展的今天,數據採集已經被廣泛應用於互聯網及分散式領域,比如攝像頭,麥克風,都是數據採集工具。

數據採集系統整合了信號、感測器、激勵器、信號調理、數據採集設備和應用軟體。在數據大爆炸的互聯網時代,數據的類型也是複雜多樣的,包括結構化數據、半結構化數據、非結構化數據。結構化最常見,就是具有模式的數據。非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。大數據採集,是大數據分析的入口,所以是相當重要的一個環節。

我們首先來了解一下數據採集的三大要點:

一、數據採集的三大要點

(1)全面性

數據量足夠具有分析價值、數據面足夠支撐分析需求。

比如對於「查看商品詳情」這一行為,需要採集用戶觸發時的環境信息、會話、以及背後的用戶id,最後需要統計這一行為在某一時段觸發的人數、次數、人均次數、活躍比等。

(2)多維性

數據更重要的是能滿足分析需求。靈活、快速自定義數據的多種屬性和不同類型,從而滿足不同的分析目標。

比如「查看商品詳情」這一行為,通過埋點,我們才能知道用戶查看的商品是什麼、價格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什麼類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進入了商品詳情頁。

(3)高效性

高效性包含技術執行的高效性、團隊內部成員協同的高效性以及數據分析需求和目標實現的高效性。也就是說採集數據一定要明確採集目的,帶著問題搜集信息,使信息採集更高效、更有針對性。此外,還要考慮數據的及時性。

不同應用領域的大數據其特點、數據量、用戶群體均不相同。不同領域根據數據源的物理性質及數據分析的目標採取不同的數據採集方法。

那麼,接下來我們再來了解一下常用的數據採集的方法。常用的數據採集方法歸結為以下三類:感測器、日誌文件、網路爬蟲。

(1)感測器

感測器通常用於測量物理變數,一般包括聲音、溫濕度、距離、電流等,將測量值轉化為數字信號,傳送到數據採集點,讓物體有了觸覺、味覺和嗅覺等感官,讓物體慢慢變得活了起來。

(2)系統日誌採集方法

日誌文件數據一般由數據源系統產生,用於記錄數據源的執行的各種操作活動,比如網路監控的流量管理、金融應用的股票記賬和 web 伺服器記錄的用戶訪問行為。

很多互聯網企業都有自己的海量數據採集工具,多用於系統日誌採集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均採用分散式架構,能滿足每秒數百MB的日誌數據採集和傳輸需求。

(3)Web 爬蟲

網路爬蟲是指為搜索引擎下載並存儲網頁的程序,它是搜索引擎和 web 緩存的主要的數據採集方式。通過網路爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,並以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的採集,附件與正文可以自動關聯。

此外,對於企業生產經營數據上的客戶數據,財務數據等保密性要求較高的數據,可以通過與數據技術服務商合作,使用特定系統介面等相關方式採集數據。比如八度雲計算的數企BDSaaS,無論是數據採集技術、BI數據分析,還是數據的安全性和保密性,都做的很好。

數據的採集是挖掘數據價值的第一步,當數據量越來越大時,可提取出來的有用數據必然也就更多。只要善用數據化處理平台,便能夠保證數據分析結果的有效性,助力企業實現數據驅動。


根據我在這方面的理解,我認為是這樣的

數據採集,又稱數據獲取,是利用一種裝置,從系統外部採集數據並輸入到系統內部的一個介面。在互聯網行業快速發展的今天,數據採集已經被廣泛應用於互聯網及分散式領域,比如攝像頭,麥克風,都是數據採集工具。

數據採集系統整合了信號、感測器、激勵器、信號調理、數據採集設備和應用軟體。在數據大爆炸的互聯網時代,數據的類型也是複雜多樣的,包括結構化數據、半結構化數據、非結構化數據。結構化最常見,就是具有模式的數據。非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。大數據採集,是大數據分析的入口,所以是相當重要的一個環節。

我們首先來了解一下數據採集的三大要點:

一、數據採集的三大要點

(1)全面性

數據量足夠具有分析價值、數據面足夠支撐分析需求。

比如對於「查看商品詳情」這一行為,需要採集用戶觸發時的環境信息、會話、以及背後的用戶id,最後需要統計這一行為在某一時段觸發的人數、次數、人均次數、活躍比等。

(2)多維性

數據更重要的是能滿足分析需求。靈活、快速自定義數據的多種屬性和不同類型,從而滿足不同的分析目標。

比如「查看商品詳情」這一行為,通過埋點,我們才能知道用戶查看的商品是什麼、價格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什麼類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進入了商品詳情頁。

(3)高效性

高效性包含技術執行的高效性、團隊內部成員協同的高效性以及數據分析需求和目標實現的高效性。也就是說採集數據一定要明確採集目的,帶著問題搜集信息,使信息採集更高效、更有針對性。此外,還要考慮數據的及時性。

不同應用領域的大數據其特點、數據量、用戶群體均不相同。不同領域根據數據源的物理性質及數據分析的目標採取不同的數據採集方法。

那麼,接下來我們再來了解一下常用的數據採集的方法。常用的數據採集方法歸結為以下三類:感測器、日誌文件、網路爬蟲。

(1)感測器

感測器通常用於測量物理變數,一般包括聲音、溫濕度、距離、電流等,將測量值轉化為數字信號,傳送到數據採集點,讓物體有了觸覺、味覺和嗅覺等感官,讓物體慢慢變得活了起來。

(2)系統日誌採集方法

日誌文件數據一般由數據源系統產生,用於記錄數據源的執行的各種操作活動,比如網路監控的流量管理、金融應用的股票記賬和 web 伺服器記錄的用戶訪問行為。

很多互聯網企業都有自己的海量數據採集工具,多用於系統日誌採集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均採用分散式架構,能滿足每秒數百MB的日誌數據採集和傳輸需求。

(3)Web 爬蟲

網路爬蟲是指為搜索引擎下載並存儲網頁的程序,它是搜索引擎和 web 緩存的主要的數據採集方式。通過網路爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,並以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的採集,附件與正文可以自動關聯。

此外,對於企業生產經營數據上的客戶數據,財務數據等保密性要求較高的數據,可以通過與數據技術服務商合作,使用特定系統介面等相關方式採集數據。比如八度雲計算的數企BDSaaS,無論是數據採集技術、BI數據分析,還是數據的安全性和保密性,都做的很好。

數據的採集是挖掘數據價值的第一步,當數據量越來越大時,可提取出來的有用數據必然也就更多。只要善用數據化處理平台,便能夠保證數據分析結果的有效性,助力企業實現數據驅動。


其實就是進行用戶畫像,根據用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標籤化的用戶模型。構建用戶畫像的核心工作即是給用戶貼「標籤」,而標籤是通過對用戶信息分析而來的高度精鍊的特徵標識。

舉例來說,如果你經常購買一些玩偶玩具,那麼電商網站即可根據玩具購買的情況替你打上標籤「有孩子」,甚至還可以判斷出你孩子大概的年齡,貼上「有 5-10 歲的孩子」這樣更為具體的標籤,而這些所有給你貼的標籤統在一次,就成了你的用戶畫像,因此,也可以說用戶畫像就是判斷一個人是什麼樣的人。

除去「標籤化」,用戶畫像還具有的特點是「低交叉率」,當兩組畫像除了權重較小的標籤外其餘標籤幾乎一致,那就可以將二者合併,弱化低權重標籤的差異。

羅振宇在《時間的朋友》跨年演講上舉了這樣一個例子:當一個壞商家掌握了你的購買數據,他就可以根據你平常購買商品的偏好來決定是給你發正品還是假貨以提高利潤。且不說是否存在這情況,但這也說明了利用用戶畫像可以做到「精準銷售」,當然了,這是極其錯誤的用法。

目前這樣的用戶畫像,大多集中於商用。大數據技術應用的經典案例:全球零售業巨頭沃爾瑪在對消費者購物行為分析時發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,於是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。

再貼一組好玩的數據:據某電商平台顯示,購買最多的文胸尺碼為B罩杯。B罩杯佔比達41.45%,其中又以75B的銷量最好。其次是A罩杯,購買佔比達25.26%,C罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。(奇怪的知識又增加了~)


這是很多人都比較關心的問題之一,作為一名IT從業者,我來回答一下。

首先,當前大數據的信息採集渠道主要有三種,其一是互聯網系統,其二是物聯網系統,其三是傳統信息系統(ERP),這些渠道都有可能會抓取到個人信息,其中互聯網系統對於個人信息的抓取是比較普遍的。

大數據是一個龐大的生態體系,在大數據產業鏈下,數據採集是非常重要的環節,也可以說是大數據的基礎。大數據採集的手段和方式也在不斷升級,比如從早期的用戶註冊,到後來的用戶數據爬取,到現在的用戶行為數據收集等等,都在不斷提升對於用戶數據的抓取維度,數據的價值密度也在不斷提升。

可以說,當前用戶在互聯網上的任何一個操作,都會被大數據系統所記錄,未來也都很有可能會影響用戶的一系列行為,所以要想在當前的互聯網時代逃避大數據還是非常困難的,與其逃避大數據,不如擁抱大數據,讓大數據為自己帶來更多的方便,甚至會為自己的帶來一些價值增量。

當前互聯網在消費端逐漸進入到存量時代之後,用戶數據會逐漸向大型互聯網平台彙集,所以目前用戶的數據往往都集中在一些大型互聯網平台的手中,而大型互聯網平台對於用戶數據的抓取還是非常方便的,而且大型互聯網平台自身就能夠完成數據的價值增量過程,能夠形成一個比較完整的閉環,這也能夠避免很多數據交換風險。

大數據採集與預處理技術 劉麗敏,廖志芳,周筠 編 數據京東¥ 31.90去購買?

最後,相對於當前的互聯網系統來說,很多線下數據的抓取往往具有更高的風險,所以用戶一定要重視在線下保障自身的數據安全。

我從事互聯網行業多年,目前也在帶計算機專業的研究生,主要的研究方向集中在大數據和人工智慧領域,我會陸續寫一些關於互聯網技術方面的文章,感興趣的朋友可以關注我,相信一定會有所收穫。

如果有互聯網、大數據、人工智慧等方面的問題,或者是考研方面的問題,都可以在評論區留言,或者私信我!


因為現在的網路高速發展,大數據時代我們的信息是容易被透露。

就拿現在的國務院大數據通行碼來說

這是國家和三大運營商合作的,它會根據你的出行記錄展現你最近14天去過什麼地方。

那麼我們的這些數據是怎麼來的呢,現在不管我們去什麼地方,都會用到數據流量,產生數據流量那麼三大運營商就可以對你的使用情況進行記錄,在通過相關數據進行匯總形成你的通行碼。

不光光是三大運營商,你去一些店面進行消費,辦理會員卡,提交了你的信息,那麼相關店鋪就會擁有你的一些基本信息,雖然這些信息都是相對保密的,但是畢竟你的信息被別人獲取的=了,而且現在網路很發達,稍有不慎這些信息就會被泄露。

微信、QQ等軟體還有一個空間和朋友圈等功能,很多人發動態的時候會把自己的定位一起發布出去,那麼軟體也會記錄你的一些信息。

當你打開你的定位系統,你的信息也是會被記錄的。

在大數據時代,我們的個人隱私都需要自己好好保護,不隨意泄露自己的信息。


大數據對用戶信息的獲取,將主要來源於平台數據共享。

我們現在使用的各種APP絕大部分都是實名註冊的,產生的數據都將被系統記錄保存。

1、我們使用的高德地圖、騰訊地圖、百度地圖等APP會自動獲取我們經常會去什麼地方,通過什麼樣的方式去,打車、騎行、還是步行,從而推斷你的出行習慣。

2、美團、餓了么等外賣APP會自動識別我們點餐的頻率、點餐大概支出的價格、都愛吃什麼類型的飯菜。

3、淘寶等電商平台會自動識別出,我們愛買什麼樣的衣服、價格區間、衣服的大小尺碼、甚至連愛穿什麼顏色的衣服,喜歡什麼品牌的鞋子都能被記錄。

4、銀行或者理財軟體將會對我們的投資理財習慣,支付金額大小流水等進行全面且深刻的統計和分析,從而對我們進行更加全新的定位。

上面還僅僅只是簡單列出了我們平時比較常見的數據,還有特別多的沒有說。


大數據抓取信息這個事,自從有了互聯網了就沒法斷絕,而移動互聯網的出現和發展更加速了這個趨勢。

當你使用app同意授權的時候,就註定你的信息已經交給app的主體了。


01 在互聯網上,沒有人知道你是一條狗

上世紀90年代,《紐約客》曾有一句俚語聞名全球:在互聯網上,沒有人知道你是一條狗。那個時候,互聯網剛剛興起,其虛擬和匿名屬性讓在互聯網上的人可以充分隱藏自己,一個矮子可以在互聯網上把自己塑造得高大威猛,一個屌絲也可以把自己塑造成高富帥而不被人知道。

但互聯網的快速發展完全超出了一開始的想像,雖然匿名性可以讓一個人深度隱藏,但互聯網開放的屬性同樣也可能讓一個人暴露自己。

02 人肉搜索讓人藏無所藏

2006年,一位網名「碎玻璃渣子」的網友在網上公布了一段虐貓視頻,視頻中一位女性將高跟鞋跟踏進了小貓的肚子里,接著狠狠地插進小貓的嘴中和眼睛裡……視頻公布後,憤怒的網友發起了「人肉搜索」,只用了6天時間,網友便通過搜集的照片、IP和地址信息基本將「虐貓事件」的主角鎖定。

人肉搜索能夠成功地找到一個匿名的人,除IP地址的貢獻外,最重要的有兩點,一是搜索引擎的強大,二是大批量用戶的參與(即現在說的UGC)。

搜索引擎能夠追蹤到匿名者在網上公開的蛛絲馬跡,從而可以更便捷地通過這些線索一步步推進,大批量用戶的參與更是實現了人人貢獻線索的可能,從而讓匿名者得意暴露。

2012年陳凱歌的電影《搜索》就探討了這個問題。高圓圓飾演的葉藍秋在獲知自己罹患癌症之後,心灰意冷的她上了一輛公交車,她拒絕給車上的老大爺讓座,這一過程被某記者拍下並報道。

很快,報道引發了一場社會大搜索,葉藍秋上市企業董事長秘書的身份被揭開,對於葉藍秋的道德淪喪的集體討伐開始上演。

如果說對於虐貓的人肉搜索還帶有正面色彩的話,那麼《搜索》這部電影將人肉搜索的負面效應展現得淋漓盡致,它帶來的是不分青紅皂白的網路暴力。

論壇時代是匿名性體現得最充分的時代,而人肉搜索正誕生於這個時代,人肉搜索的本質是搜索+UGC,它可以說是匿名者的剋星,搜索和UGC正是由互聯網開放的本質決定的,在開放的互聯網上,可以說幾乎沒有人能做到絕對隱匿。

03 實名制社交網路

早年的社交網路大部分是匿名制,而這一習慣隨著Facebook的誕生發生逆轉。

Facebook從誕生起就不遺餘力地推行其用戶的實名制,馬克扎克伯格在解釋原因時說道:「互聯網世界中已經存在了太多太多的虛擬社區,在那裡網民們可以徹底拋掉自己的真實身份和現實生活,投入到虛擬的狂歡中。與此相比,實名制的網站便顯得彌足珍貴。」

社交網站的實名制讓人「無處可藏」,電影《斷線》講了一個被社交網路影響的故事:一個熱愛音樂的孤獨少年,被兩個熊孩子盯上,後者不費吹灰之力在社交網路上把所有信息找到,並投其所好假意成為其朋友,雙方無話不談後少年的私密照片被惡意傳播,而這最終導致了少年的悲劇。

不說電影的導向性,社交網路的發展的確讓實名制用戶越來越多,Facebook,Linkedin,微博,知乎,現在幾乎每一個社交網路都必須有實名的手機號,所謂「網路不是法外之地」,這讓一個人的信息越來越容易被別人獲取。

現在哪一個APP不知道你的電話號碼?哪一個APP不會時常給你發促銷簡訊?哪一個APP不會給你打電話推銷相關產品?

馬克·扎克伯格曾預計到2030年時,Facebook用戶總數將達50億人。試想如果全球70%的人都使用Facebook,並且都是實名制,那地球將成為一個「透明球」。

04 移動互聯網時代的APP許可權

移動互聯網時代不僅讓人無處可藏,更嚴重的是你很可能24小時都處於被追蹤的狀態。

如今在中國註冊APP,很多時候都需要填寫手機號,一旦填寫,你的手機號便成了此APP(背後的公司)的數據,接踵而來的很可能是各種促銷和廣告信息。安裝APP時會有各種許可權提醒,你同意得越多,隱私也就越少。

你的使用或購買行為也會被記錄,比如根據你買貓糧或狗糧的行為,電商網站會判斷你家養的是貓還是狗,根據你購買的頻率,它會在你剛剛需要購買的時候提醒你。

你的通話信息會被記錄,它可以通過判斷你經常聯繫的人推測你的妻子、父母的聯繫方式,想一想你的支付寶是不是已經開通了「我的家」功能,裡面有你所有家庭的支付寶賬號?

通過跟蹤你的位置信息,它可以輕易地判斷你的家和公司分別在哪。想一想,滴滴出行會不會知道你的家和公司在哪?它當然知道了。

可以說,在移動互聯網時代是沒有絕對意義上的隱私的。

2019年,日本某女團的成員松岡笑南在社交網路上po了兩張自己的自拍照片,就是下面這樣普通的自拍照片。

沒想到,以為狂熱粉看到松岡笑南的自拍照後,從她瞳孔中的倒影看到其住所附近的環境,再利用谷歌地圖的街景功能,不斷搜索和對比後,找到了具體準確地址。

9月1日,當松岡笑南回到東京江戶川區的一間公寓中時,突然被這名粉絲用毛巾捂住嘴並拉倒在地,並對她進行了猥褻。

這位松岡笑南的粉絲有強大的技術和縝密的邏輯推理能力。但對於平台來說,獲取這一切簡直輕而易舉。

淺黑科技在《妹子們注意了,一張照片可能會暴露了你家住址》中發現,通過獲取一張開著GPS的照片,可以輕而易舉地看到經緯度,再通過谷歌地球就可以將其精確到一棟樓上。

05 大數據時代讓隱私幾乎不復存在

我們身處大數據時代,並且越來越多的相關數據會被跟蹤和記錄,軟銀孫正義曾說「在2020年的時候,每個人被連接的設備數量會達到一千個。在2040年的時候,這樣的現象將會非常普遍,所有的人和物都會通過移動設備聯繫起來。所有的數據都會在雲終端進行儲存。」

這意味著這些數據都會被服務商們掌控。

2018年,Facebook爆發隱私門事件,其數千萬用戶數據被第三方數據公司違規濫用,第三方公司根據這些數據精準推送政治廣告,影響美國大選的走向。

其背後的公司劍橋分析也是這麼影響英國脫歐進程的。

2018年李彥宏在中國發展高層論壇上針對隱私有過發言,他說 「中國人對隱私問題更加開放,或者說沒有那麼敏感。如果通過交換隱私而獲得便捷、效率、安全,在很多情況他們是願意這麼做的。」

李彥宏的話被解讀成「中國人願意用隱私交換便捷性」,這引發了大批網友討伐。

但仔細考慮,李彥宏說的就是事實,現在誰不是面對新聞APP推送的內容看得津津有味?誰不是在電商網站中刷自己可能感興趣的商品?誰不是為了幾個積分,為了砍幾塊錢就幫平台發展新用戶,並將他們的信息泄露了?

「數據收集」,「屬性判斷」,「精準營銷」,「大數據殺熟」,這些詞對我們都已經見怪不怪了。

下面是KK在《必然》一書中列出的美國對公民進行常規追蹤的清單,你感受一下:

拼車軟體——優步、Lyft和其他零散的打車軟體記錄你的旅程。

手機位置和通話記錄——你通話的時間、地點和對象會被儲存數月。智能家居——智能恆溫調節器(如Nest)檢測你是否在家,同時記錄你的行為模式,並將這些數據傳輸到雲端。智能插座(如Belkin)監控你的用電量和用電時間並把數據分享到雲端。   電子商務——亞馬遜之類的零售商不僅追蹤你購買的東西,還有你瀏覽或想買的東西。 電子錢包和電子銀行——諸如Mint一類的信息採集組織追蹤你的貸款、房貸以及投資等完整的財務狀況。

人臉識別——臉譜網能在他人上傳的照片中辨認(標記)你的頭像。照片的拍攝地點代表了你過去所處的位置。   

網路活動——網頁廣告cookie追蹤你上網時的舉動。上千家頂尖網站中有80%利用網頁cookies追蹤你在網上的行蹤。通過與廣告網路的合約,你沒有訪問過的網站也能得到你的瀏覽歷史。 社交媒體——它們能辨認你的家庭成員、朋友以及朋友的朋友,還能追蹤你以前的老闆以及現在同事,也能了解你如何度過閑暇時間。   搜索——谷歌默認永久記錄你查詢過的所有問題。  健康追蹤——你進行身體活動的時間、地點通常會被24小時不間斷記錄,其中還包括每天睡覺和起床的時間。

經濟學人曾說數據是互聯網時代的石油,掌握了數據的巨頭們,實際上也掌握了你的隱私。

通過無所不在無所不包的數據,幾乎關於你的一切細節都會被了解(如果這些數據的所有者想了解的話),數據的擁有者當然知道你是一條狗,甚至他們知道你有幾根毛。

原文發佈於2016年

在互聯網上很多人知道你是一條狗?

mp.weixin.qq.com圖標

你的手機號、姓名、身份證號、網站註冊號、淘寶賬號、京東賬號等等的信息都可以作為索引,把與你所有關聯的信息搜索出來。拿到這些信息後,可以查詢你的運行軌跡(出行軌跡、購物歷史、查看記錄、搜索記錄、檢索記錄),分析你的歷史,推斷你的未來,推斷出你的喜好、你的動機、你的下一步行為。特別是各大平台、應用聯合起來,組合成一個全維度的你。僅僅是一個導航系統,就能還原你開車到過的所有地點。你是透明的,只是你沒有那麼重要而已。


主要通過以下方式:整理公共信息,包括統計局數據、公司年報、市場機構研究報告等公開的零散信息;直接購買資料庫,購買大量產品資料庫,如博客、onesource、wind等;自建資料庫,收集第一手資料,如自定問卷,或收集企業經營線資料,如年度消費者調查或品牌調查。


在移動互聯網時代,主要是兩種:一種是APP平台足夠大,產生的數據足夠多,用戶訪問APP的行為都會被記錄下來在後台形成日誌。一種是靠各種sdk採集,現在APP的開發,很對基礎功能都有第三方提供,術業有專攻嘛。上層APP只要授權了,底層sdk就搭便車,也能拿到這些授權獲取數據。

先說基礎條件:移動設備有兩種基礎信息來把人和設備綁定在一起,一個是手機號,一個是設備自帶的信息,比如imsi等。如果這兩種信息分開,其實人和設備還是能分離的,也就是大家拿到的數據只知道這個設備幹了啥,還不會跟現實生活中的人能關聯上的,不能通過設備知道你是誰,你住在哪裡。但是很遺憾,這兩個信息在你設備使用APP的時候,就通過各種方式提供給APP了。

先說手機設備的各種信息,這個信息是很多APP能使用的先決條件,很多APP的基礎授權都包含了這些信息,用戶也默認都給了。

第二是手機號這些信息,基本上註冊用戶的時候都會引導你去填手機號,很多APP還會去嘗試獲取通訊錄,一旦你確認,你的生活圈子都被獲取了。在中國手機號碼實名之後,手機號碼其實就是一把鑰匙,跟你的實際信息綁定在一起。

OK,這個是數據獲取這一側,數據獲取到時候,在這些公司後台,都會有dmp平台,全稱是data manage platform,在這裡,你所有的數據會被清洗,同時按照你行為數據給你打上各種標籤。

如果到這一步,還算OK,但是實際過程中還有各種數據交換的網路,注意下這裡說的是數據交換,不是之前那種數據買賣。我舉個更多人都遇到的例子:無處不在個性化廣告。大家經常發現,我上頭條,立馬能給我推我之前在京東廣告,在微博推的是我在淘寶剛看的商品廣告。這個就是各種廣告聯盟在互換數據導致的精準廣告。光廣告有很多種類型,我用一種常見的rtb廣告舉例,你當前打開的APP把你現在手機設備信息發送個一個ad-exchange的網路,在這個網路中秋,潛在的廣告主會根據APP發過來的唯一信息做比對,大家設備信息都一樣的,兩邊才能對應上,然後發現這個用戶在我這裡有訪問記錄,哪那我就可以出高價,從這個APP喚醒這個用戶:你之前來過我這裡,再來啊。這樣,參與的雙方會完成信息的互換,關於這個用戶,雙方都多了一條數據。

寫到這裡,有人會問,這些信息,國家強制立法不用行不行?答案是真不行,至少在目前看不到希望。為啥,在互聯網上還有大家看不見的灰產和黑產,合法的APP需要這些信息去識別各種作弊用戶,否則平台就被薅光了,這個就不展開說了,


這個問題,應該是如何從大數據中獲取有價值的信息,這也是行業領域對大數據技術最常見的訴求之一,要想從大數據中獲得有價值的信息往往需要從三個方面入手,分別是數據採集、數據分析、數據應用和驗證。

1,數據採集,大數據進行數據價值化的第一步,數據採集的質量對於後續數據價值化的影響非常大,通常在進行數據採集的時候,需要做好的,數據採集從三個渠道取得信息,分別是互聯網、物聯網和傳統信息系統。

2,數據分析,大數據價值化的核心步驟,數據分析有兩種主要方式,其一是統計學方式,其二是機器學習方式。數據分析除了要掌握專業的數據分析技術之外,還需要具有一定的行業知識。目前不同行業都有針對性比較強的數據分析工具,通過這些工具可以完成大量的數據分析任務。

3,數據應用是大數據分析的目的,當然在進行數據應用之前往往還需要一個驗證的過程。數據驗證主要分為兩個驗證階段,第一是演算法驗證階段,第二是場景驗證階段。雖然目前很多演算法驗證能夠取得較好的成績(實驗環境下),但是場景驗證的結果往往更值得關注。

最後,隨著大數據技術體系的不斷成熟,未來通過大數據技術來完成數據的價值化將有廣闊的應用空間。


儘管「大數據」一詞近年來屢遭熱捧

但很多人都還不知道什麼是大數據

更不知道大數據有甚卵用

這兩年,發現「大數據」這個詞出現的越來越頻繁了

不僅企業,連國家都在部署大數據戰略

一番百度了之後

Oh~ emmmmmmmmm~ +_+

還是沒搞懂大數據到底是個什麼玩意兒

直到有一天

我發現一個秘密

不管我在網上搜索什麼

頁面都會跳出我要搜索的相關產品或關聯事物

然後,我恍然大悟!

大數據智能匹配你的專屬留學院校和專業

已失效 

所謂大數據,就是演算法!

它能夠「算」出我們「心中所想」

那麼問題來了

大數據技術是如何採集到我們的信息的呢?

數據採集,又稱數據獲取,是利用一種裝置,從系統外部採集數據並輸入到系統內部的一個介面。在互聯網行業快速發展的今天,數據採集已經被廣泛應用於互聯網及分散式領域,比如攝像頭,麥克風,都是數據採集工具。

數據採集系統整合了信號、感測器、激勵器、信號調理、數據採集設備和應用軟體。在數據大爆炸的互聯網時代,數據的類型也是複雜多樣的,包括結構化數據、半結構化數據、非結構化數據。結構化最常見,就是具有模式的數據。非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。大數據採集,是大數據分析的入口,所以是相當重要的一個環節。

我們首先來了解一下數據採集的三大要點:

一、數據採集的三大要點

(1)全面性

數據量足夠具有分析價值、數據面足夠支撐分析需求。

比如對於「查看商品詳情」這一行為,需要採集用戶觸發時的環境信息、會話、以及背後的用戶id,最後需要統計這一行為在某一時段觸發的人數、次數、人均次數、活躍比等。

(2)多維性

數據更重要的是能滿足分析需求。靈活、快速自定義數據的多種屬性和不同類型,從而滿足不同的分析目標。

比如「查看商品詳情」這一行為,通過埋點,我們才能知道用戶查看的商品是什麼、價格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什麼類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進入了商品詳情頁。

(3)高效性

高效性包含技術執行的高效性、團隊內部成員協同的高效性以及數據分析需求和目標實現的高效性。也就是說採集數據一定要明確採集目的,帶著問題搜集信息,使信息採集更高效、更有針對性。此外,還要考慮數據的及時性。

不同應用領域的大數據其特點、數據量、用戶群體均不相同。不同領域根據數據源的物理性質及數據分析的目標採取不同的數據採集方法。

那麼,接下來我們再來了解一下常用的數據採集的方法。

常用的數據採集方法歸結為以下三類:感測器、日誌文件、網路爬蟲。

(1)感測器

感測器通常用於測量物理變數,一般包括聲音、溫濕度、距離、電流等,將測量值轉化為數字信號,傳送到數據採集點,讓物體有了觸覺、味覺和嗅覺等感官,讓物體慢慢變得活了起來。

(2)系統日誌採集方法

日誌文件數據一般由數據源系統產生,用於記錄數據源的執行的各種操作活動,比如網路監控的流量管理、金融應用的股票記賬和 web 伺服器記錄的用戶訪問行為。

很多互聯網企業都有自己的海量數據採集工具,多用於系統日誌採集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均採用分散式架構,能滿足每秒數百MB的日誌數據採集和傳輸需求。

(3)Web 爬蟲

網路爬蟲是指為搜索引擎下載並存儲網頁的程序,它是搜索引擎和 web 緩存的主要的數據採集方式。通過網路爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,並以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的採集,附件與正文可以自動關聯。

此外,對於企業生產經營數據上的客戶數據,財務數據等保密性要求較高的數據,可以通過與數據技術服務商合作,使用特定系統介面等相關方式採集數據。比如八度雲計算的數企BDSaaS,無論是數據採集技術、BI數據分析,還是數據的安全性和保密性,都做的很好。

數據的採集是挖掘數據價值的第一步,當數據量越來越大時,可提取出來的有用數據必然也就更多。只要善用數據化處理平台,便能夠保證數據分析結果的有效性,助力企業實現數據驅動。


1.通過系統日誌採集大數據

用於系統日誌採集的工具,目前使用最廣泛的有:Hadoop 的Chukwa、ApacheFlumeAFacebook的Scribe和LinkedIn的Kafka等。這裡主要學習Flume。

Flume是一個高可靠的分散式採集、聚合和傳輸系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據,同時對數據進行簡單處理,並寫到諸如文本、HDFS這些接受方中。Flume的核心其實就是把數據從數據源收集過來,再將收集到的數據送到指定的目的地……

2.通過網路採集大數據

網路採集是指通過網路爬蟲或網站公開API等方式,從網站上獲取大數據信息,該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,並以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的採集。


拿電商來說。比如你現在去京東搜幾下java的書,等會它就會在你的主頁面那裡推薦這類書


推薦閱讀:
相关文章