我前段時間偶爾在新聞界面看到了「蘋果語音助手」、「Siri竊聽」這樣的字眼,並沒有點進去仔細看,也沒怎麼關注這件事情。但下面發生的兩件事,讓我有點懷疑又恐懼。

大家眾所周知大數據在現代生活中的應用,在淘寶、百度搜索過什麼之後,會時不時的再給你推薦出來,以提高你的購買可能。上周我和朋友打電話,聊到他最近壓力比較大,脫髮的問題,我就給他說了一個我在地鐵站看到的植髮廣告,在此之前我至少有半年沒有在任何界面搜索過關於「植髮」「脫髮」「增發」這類詞條,我們大概聊了半個小時左右的生活狀態,植髮的問題聊了不到五分鐘。第二天用safari百度搜索一些內容時,底下的彈窗和廣告詞條就有推薦植髮的內容,打開抖音刷視頻的時候,也至少刷到兩次關於植髮的廣告。

這件事就比較讓我覺得可疑,前兩天給和我在一起工作的大學同學說了這個事情,今早他又給我說了一個事。

他昨晚和女朋友打視頻電話,女友就說你下次再剪髮就剪寸頭吧怎麼怎麼樣,聊了也就大概幾句。之後再刷抖音時就推出「男士寸頭怎麼剪好」、「哪裡的男士寸頭剪的好」這樣的廣告推薦。

第一次寫這麼長的提問,總之這兩個事情和近期的竊聽事件聯繫到一起確實讓我不得不多想,還是細思極恐的。我倒真的希望這都是巧合,最好都是巧合。


看了題主的認真勁,蠻開心的!題主基於冷靜分析和舉證,然後拋出了這個問題。而不是聽別人說啥,然後趕緊知乎發個問題討論一波。

先說結論:普通人離被竊聽很遠,很遙遠。商業/學術/政界重要人士可能很近,甚至一直在博弈中。

利益相關以前背景:無直接利益相關,只是吃瓜群眾。本人從事過幾年硬體電路研發,對硬體電路設計,底層編程有一定了解;對MCU,FPGA,機器學習有一定涉獵;目前主要從事應用軟體開發+業餘產品經理。

對於回答本題並非專業人士,但各方面都接觸過一些,所以並不是完全不懂的胡扯。當然也是希望拋磚引玉,有相關大牛予以專業解讀。

首先,竊聽是有為了有利可圖。

要麼為了錢就是為了利,為了你所擁有的寶貴信息,都是有目的性的。至於為了倆點不點開都是問題的廣告,也是為了錢,但是吧似乎還不足以。

其次,竊聽成本很高,或者說不現實

總不能人工聽吧,現在臨時工都那麼貴,不值得。

至於AI人工智慧啥的,別想了,Siri的語義都還需要依靠人工校準的時候,你覺得它能聽懂你們在聊髮型帥不帥,或者植髮好不好的話題么?當然可以聽懂,如果租賃神經網路伺服器+比較厲害的AI演算法,那麼就闊以不斷分析你們聊天內容了。但是這個成本是非常高的,可能一句話就得幾毛錢吧,甚至更高。你想想每天說多少話,還不得聽窮了,哈哈哈!

那…怎麼收集聲音呢?

目前題主家假設沒有被安裝專業竊聽器材,假設是通過手機獲取的:

假設是哪個App在竊聽。題主是iPhone,iOS對錄音許可權管控很嚴的,開啟錄音耗電量大不說,狀態欄一定會有紅色警告條,同時會提示xx軟體在使用錄音許可權。這麼明顯的情況,題主不可能不知道的!

那…假設是iPhone手機系統在竊聽呢?就可以不提示用戶了!還是那個基礎,iPhone電池本來就不夠用,一直錄音,還要分析語義或者錄音上傳伺服器分析,電池更容易就沒電了。這個題主也很容易發現的。

那…假設Siri在竊聽呢?它不是都能息屏/鎖屏狀態下聽懂「嘿,Siri」么?說明它一直在聽!並且分析了我說的啥啊,不然怎麼能知道我在喊它?說的對啊,但是不全對!這個「嘿,Siri」是固定的喚醒口令,是由協處理器(可以理解為CPU的一個頭腦簡單但是能做一點簡單事情的小助理)完成的,在生產的時候就教會了(底層編程)它一個(一些)固定的喚起口令,比如中文語言下的「嘿,Siri」。這個協處理器一直默默的在聽,但是只能聽懂這一句,聽到之後就會通知CPU,點亮屏幕進行真正意義上的語音識別。在這一步題主是主動在和Siri溝通了,算不上竊聽。

那…微信/QQ在我語音通話的時候竊聽呢!我都在通話了,它肯定有我的通話內容啊!這個確實是的、理論上講如果QQ想偷聽是完全可以了,至於直接分析通話內容是不現實的,每天使用語音/視頻的用戶那麼多,結合第一條AI分析的理由,可能會聽到倒閉哦。

所以,通過手機直接竊聽是不切實際的 =&> 排除

然後,為啥我感覺被竊聽了?

題主最大的疑惑在於,廣告為何如此精準投放?

幾乎有活躍用戶的平台都引入了各式各樣的行為數據分析系統,能通過你平時的閱讀習慣進行分析,最後通過平台數據共享以及大數據,就能得到你的用戶畫像。包含性別,年齡段,愛好,生活區域,情感狀態等信息。當然這些都是分析的,並不一定真實。但是!一旦用的多了,就會越來越準確,可能比你都了解你!比如說,畫像中的你最近有換工作的想法,就給你推找工作相關的,但是可能你自己都沒有意識到自己有這個需要

更頭大的是:常用軟體基本上都是BAT(百度、阿里巴巴、騰訊)+位元組跳動旗下的App。所以很多App用戶畫像都是共享的,所以一個App給你推送求職信息,好幾個都在推。搞得有點恐怖 /狗頭

最後,正視精準廣告投放!

這是一個好事情,因為廣告是不可避免的。絕大部分平台用戶都是免費使用的,而平台的伺服器,帶寬資源,研發投資,運營成本等等都需要錢,其中一小部分需要通過廣告推廣獲取,有的平台甚至是主要通過廣告盈利。所以既然都是看廣告,為啥不看自己需要的廣告呢!大平台比如知乎的廣告投放都是有一定審核的,劣質內容很少能混進來,願意投廣告的產品大多時候都是中等偏上的產品。所以也有一定購買參考價值。

如何科學看廣告?

算了…不想寫了。這又是我在知乎手機碼字的一本正經的胡說八道的寫了那麼多,沒人看,沒人贊的一個回答。


這確實看上去像是竊聽了你

但是實際上這些app知道你最近接觸過「脫髮」,「生髮洗髮水」這種關鍵字的原因並不是竊聽

首先技術和成本上都難以實現,竊聽來搞定製化推送幾乎不可能

非針對性竊聽離正常人真的很遠很遠(針對性竊聽都是因為你幹了什麼事,比如你知道什麼機密,比如你圈子很亂搞出什麼花邊新聞被人肉)

那麼為什麼你收到了這些推送呢

原因不在於你,而是你的朋友

你的朋友在跟你通完話後和可能去搜索了相關詞條。接下來,因為你在他的通訊錄里,你在他的微信通訊錄里,你和他的通話時間和他搜索該詞條的時間相關性最強

因此,你的其他app認定你也對這些關鍵詞感興趣,然後給你推送了相關內容

這個過程說簡單也簡單,說複雜也複雜。隨口一句話,千推萬送來相見。

說定製化推送都是美化這種行為了,說它不是故意告訴用戶「我有一萬種方法噁心你」我都不信

你沒有隱私!


謝邀。

既然這個回答有很多人關注,那麼我就認真寫一下,也算是從業者的義務科普了。

首先說一下,題主的問題,與最近的Siri事件沒有關係。

先說一下Siri事件,我這裡不評價蘋果公司做的對與錯,我只闡述事實。

iPhone在你使用Siri之前,有一個協議,協議里提到了,Siri可能會在你使用hey,siri激活之後,記錄你與Siri對話的數據並匿名上傳,以用於分析。

人工智慧的訓練當然需要人工來矯正,這是很正常的。

這不是有些人所說的蘋果在24小時竊聽你說話,

所以如果以這個契機來討論問題,說我洗還是怎樣的,我會直接摺疊,謝謝。

我這裡不想評價蘋果做的對與錯,但是我可以保證,題主提這個問題是與這個事件無關的。

當然,如果你堅信蘋果會使用Siri竊聽然後把竊聽數據分享給阿里巴巴和騰訊這麼魔幻的事情,請你點右上角離開此頁面,我沒有證據證明蘋果不會這麼做,但是如果你能證明李X宏一日三餐都在吃屎,我倒是願意相信一下。

好,大前提已經說完。那麼我們就從APP是否可以竊聽用戶來獲取精準推送內容來說起。

首先,在APP端,是沒法實現監聽日常對話並上傳的。

APP後台沒法保活這麼久,且一直調用麥克風,手機會發熱發燙瘋狂掉電。你APP端敢這麼干,人家手機廠商也不讓啊?現在哪個平台哪個商店不用審核的。

而且換個你們能聽懂的說法:錄音1分鐘,就算128k的,128Kb*60s/8/1024 = 0.9375MB,錄一小時就是56.25MB,錄一天就是1.3183GB。

這還僅僅是128k的,而且,你錄128k的是需要轉碼的,轉碼耗費的機能是很大的,怎麼做?

這麼大的文件怎麼偷偷上傳不被發現?

而且128k的音頻已經很雜了,人聽著可能沒問題,機器都不見得能識別好。

所以前端根本做不到好嗎?

其次,服務端,也做不到這麼精準的語義分析,這是必然的。

就像你跟任何一個語音助手對話,你都會發現這個語音助手都是挺智障的,很多時候你不好好說話,他根本就理解不了你在說什麼。

這還是你在跟他一對一聊天,沒有任何干擾的情況下。所以,我說做不到提取你想買什麼,這很正常。

有人說,只要提取名詞就行了。我就當你在搞笑好了。你每天提成百上千個名詞,難道都是你想買的?

就好比,我是醫生。我說,男人不能生孩子。一樣。你既然質疑我所說的話,那你就拿出解決方案來。

好,假設能實現,那廠商會不會用呢?

好,就算我說的技術難題都能實現,那麼,廠商也不會用。

為什麼呢?因為成本太高了,根本划不來。

前幾天很火的ZAO你們也知道吧,他們的工作人員在微博透露,一晚上就燒了200萬,在伺服器上。

如果,淘寶接入了一個這樣的語音語義分析系統,我假設他100%能在日常對話里分析出你想買什麼,但是,他付出的伺服器成本遠比一晚上200W多得多。然後因為所謂的精準推送,你多買了三條褲衩。一條褲衩利潤是5塊錢,伺服器因為分析你一天的對話,燒掉了1000塊錢。我估計這麼搞下去,淘寶就離破產不遠了。

就好比,現在男人可以生孩子了,但是生一個孩子需要1000000000000000000000000元,你生嗎?

那怎麼辦?

還是用生孩子舉例子,事實上你的需求是要一個孩子,那就從需求出發就行了。

你想要一個孩子,非得自己生?找個媳婦行不行?領養一個行不行?

想知道你想買什麼或者對哪些東西感興趣,用其他的方法不就完了?

這裡我先講一個我自己的例子。

某年某月,我在街上看見了有人扮西遊記里的悟空和八戒。我心想,現在這種戲服好多啊,是不是淘寶就有賣的?然後就沒有然後了,結果第二天,淘寶居然推了悟空和八戒的戲服。我笑了,難不成淘寶會讀心?思來想去,哦,前幾天不知道怎麼著,突然給我推了一個魔術道具,我點進去看覺得很好玩。大師兄和二師兄的戲服,以及魔術道具,都帶有演出的效果,所以既然我之前瀏覽魔術道具看得起勁兒,那給我推薦另一個表演道具,豈不是很正常?

大部分情況下都是事出有因的,仔細回想一下,不要用你的固有觀念建立聯繫。

所以大數據是怎麼知道你想買什麼的?

  • 最簡單的,你搜索過哪一類東西,關注了哪一類店鋪,瀏覽哪一類東西的時間最長,就給你推哪一類東西,簡單吧?但是這個又是最複雜的,因為要做很大量的分析才行。
  • 給你建立一個「用戶畫像」。把好多標籤貼在你身上。我隨便舉個例子【女】【90後】【喜歡化妝】【喜歡穿衣打扮】【有男朋友】【養貓】【從事辦公室工作】【喜歡看電影】【總點外賣】然後人工智慧就可能給你推以下商品:「裙子」「安全褲」「辣條」「神仙水」「剃鬚刀」「避孕套」「貓砂盆」「桌面加濕器」等等,可能給你推薦「菜刀」的可能性就會很低。
  • 通過用戶的朋友親屬身邊的人以及所在城市的熱點事件來匹配一些商品。比如你爸最近總在搜索剃鬚刀,也許就有可能給你推送。比如你你那邊霧霾比較多,可能就會給你推送防霾口罩。
  • 阿里系以及騰訊系會共享數據。比如京東是騰訊系的,知乎也是騰訊系的,你在知乎上搜過小米手機,京東就可能會給你推薦小米手機。
  • 熱點事件或者廣告商購買了定向推廣。雖然與你沒搜過但是也會推給你。

謠言止於智者。

想驗證手機會不會竊聽你,很簡單。

打開你的淘寶,不做任何操作,一直說反覆的說,說一個和你任何方面都不沾邊的東西【強烈推薦「骨灰盒」】。

然後看看會不會被推送。

知乎上有人做過這個實驗,從沒有成功過的案例。

進入大數據時代,好多人都存在隱私恐懼。

不敢用手機,不敢用很多功能。

事實上大可不必擔心。

就像肯德基剛進入中國,很多人看到肯德基成千上萬的雞腿雞翅,就恐慌了,以為肯德基養出了8個雞翅6條腿的雞。殊不知人家用了先進的工業化養雞方法。

現在,大數據時代,你們以為APP在竊聽你。殊不知人家竊聽你獲取你的隱私好比大斧砍蚊子,用蚊香和電蚊拍就能搞定的事,犯得上掄大斧嗎?成本又高,效果又不好。


對於有些人我真心希望你能給我講講怎麼做如此強大的語義分析。

真的,挺急的。

怎麼做到APP掛在後台持續調用麥克風不被發現?

怎麼做到或者何時偷偷上傳龐大的語音數據的?

如果在前台分析,如何集成一個完整的後台語音識別且能保活不被系統殺死?

怎樣做如此精準的語音語義識別?

怎麼從日常對話中知道一個人想要買啥?

伺服器成本多少帶寬多少?怎麼做到不虧本?

說不出來就一邊兒涼快去。整個行業都解決不了的難題,你一句我不懂就給扯過去了?

你懂你教教我,真的,挺急的。


問題有誤,Siri那件事是蘋果確實會收集用戶平時說話,用來機器學習提升heySiri準確度,但數據是保密的。不過由於數據需要人工分析,而蘋果的這部分服務交給了外包公司,被人曝光後就容易產生越來越多流言蜚語。知錯能改,蘋果已經把那家外包公司開了,接下來的iOS中Siri會增加用戶自主選擇開啟或關閉開關。但只要用Siri,手機數據來分析是必要的,而確實只用於提高喚醒成功率

至於你說的植髮,這個存在於應用,比如你在微信跟朋友聊xx,淘寶就會給你推xx。安卓淘寶獲取通訊錄許可權,你在淘寶搜壯陽葯,它就給你老婆推情趣內衣~安卓沒有同意推送服務(國內沒有),後台必須常駐進程,不然可能你關了微信就收不到消息了,但既然能常駐進程,鬼知道它放了什麼?還有app之間的各種互相喚醒,安卓的卡頓也來源於此

這件事情app廠商都在做,安卓由於本身開放原因,管不來。而蘋果很早就因為這事跟app廠商吵過,因為蘋果堅決不允許app獲取用戶隱私,但app又確實需要部分數據做興趣推送。後來取平衡,蘋果專門做了一條安全通道給app廠商獲取一些信息,但不能獲取隱私,並且這個通道可以在設置內手動關閉

真要說隱私保護,蘋果是最好的,美國曾有一名犯人,有些證據在他的蘋果設備里,美國法院要求蘋果解開,蘋果不給,FBI強解,解不開

但大數據時代,就算在你的iPhone里蘋果能稍微保護你,出了手機呢?app廠商之間也是有交易的

你的隱私,別人也不感興趣


小學期

我每天在我的手機附近說的都是買晶元借電阻從實驗室里順焊錫…

再不就是單片機學不會啊要死了焊接好難啊誰有燙傷膏啊FPGA丟了賠不起了啊什麼的

為什麼到現在手機淘寶還是在給我推薦女裝啊卧槽

說到底還是那個說法

別把自己想的太重要,就算手機廠有理由竊聽你,也沒理由明目張胆把數據交給其它應用,弄得自己身敗名裂;更沒必要弄一群人工識別或者幾個大型伺服器在後台給你做語音識別。

就是這樣


UPD:

一個美國公司,不遠萬里來到中國,千辛萬苦處理好中文的語音,又冒著身敗名裂的風險轉賣給中國公司。這是怎樣一種國際共產主義的精神!


推薦閱讀:
相关文章