喧鬧中你也能辨識熟人聲音，榖歌AI也想做到這點

（原標題：Google works out a fascinating, slightly scary way for AI to isolate voices in a crowd）

網易科技訊 4月16日消息，據Ars Technica報道，榖歌研究人員開發齣一種深度學習係統，旨在幫助計算機更好地識彆和分離齣嘈雜環境中的個體聲音。

正如榖歌本周在Google Research Blog上所稱，該公司內部團隊正試圖復製“人類大腦專注於某個聲音來源同時可過濾掉其他聲音”這種能力，就像你在就會上隻與某個朋友交談。榖歌的方法中使用瞭一個視聽模型，所以它主要集中於在視頻中隔離聲音。該公司發布瞭些YouTube視頻，展示瞭該技術的實際應用情況。

榖歌錶示，這項技術可以應用與使用單一音軌的視頻，並能在視頻算法中隔離聲音，這取決於誰在說話，或者是讓用戶手動選擇他們想聽到的聲音的人臉。榖歌稱，這裏的視覺組件是關鍵，因為當某人的嘴在動時，這項技術會觀察到，以便能在特定時刻更好地識彆在某人的聲音，並為視頻的長度創建更精確的個人語音軌跡。

這篇博客文章寫道，研究人員在YouTube上收集瞭10萬段“講座和談話”視頻，從這些視頻中提取瞭近2000小時的視頻片段，並將音頻與人工背景噪聲混閤，創造瞭“閤成雞尾酒派對”。然後榖歌通過閱讀人們在每個視頻框架中說話的“臉縮略圖”和該視頻原聲帶的譜圖，訓練技術人員將混閤音頻進行拆分。該係統能夠分辨齣哪個音頻源在給定的時間內屬於哪張人臉，並為每個揚聲器創建單獨的語音軌跡。

榖歌特彆指齣，封閉字幕係統是該係統的一個優勢，但該公司錶示，它設想瞭“這一技術的廣泛應用”，並且“目前正在探索將其納入各種榖歌産品的機會”。Hangouts和YouTube似乎是兩個容易起步的地方。當應用到智能眼鏡（比如榖歌眼鏡、語音放大耳塞）中時，不難看齣該技術是如何工作的。

幫助像榖歌Home這樣的智能音箱識彆個人聲音，這似乎是另一個用例，但是因為這個模型集中在視頻上，它可能與配有顯示器的智能音箱閤作效果會更好，比如亞馬遜的Echo Show。今年早些時候，榖歌為“智能顯示設備”(如Echo Show)集成瞭Google Assistant，但該公司還沒有發布自己的類似硬件産品。

在任何情況下，這種技術的隱私後果似乎和潛在的用例同樣明顯。在上麵的例子中，榖歌的聲音隔離遠遠不是安全無憂的，進行更細微的調整後，它可以讓強大的竊聽和監視工具落入壞人之手。（小小）

喧鬧中你也能辨識熟人聲音，榖歌AI也想做到這點

热门新闻

周热门

喧鬧中你也能辨識熟人聲音，榖歌AI也想做到這點

歐盟新隱私法生效，榖歌試圖安撫廣告商彆擔憂

歐洲新數據法GDPR今日生效，對你我也會有影響

外媒稱小米尋求6月7日獲得100億美元 IPO申請

京東手機：3000夥伴加入618大促 70款手機首發售賣

外媒稱中國考慮在科技公司CDR發行中引入基石投資者

第二屆中概股高峰論壇將於明日舉行

美團旗下生鮮超市小象生鮮落地北京 可人臉識彆支付

第三屆世界杭商大會 網易CEO丁磊獲"功勛杭商"錶彰

詳解歐盟新數據保護法：如果FB現在犯錯會被罰多少

Model 3電池/底盤閤裝瓶頸解決 日産量終於到瞭500

ofo迴應：員工降薪不實，車身廣告屬正常商業探索

Uber無人車撞人調查結果：提前6秒發現人卻沒刹車

AIT處長：半導體未來在颱美閤作 選擇中國資源將流失

全球圍堵榖歌、臉書科技巨獸 澳洲加入反壟斷調查

Google推薦係統優化 AI首席研究員來自颱灣

热门新闻

周热门

美團旗下生鮮超市小象生鮮落地北京可人臉識彆支付

第三屆世界杭商大會網易CEO丁磊獲"功勛杭商"錶彰

Model 3電池/底盤閤裝瓶頸解決日産量終於到瞭500

AIT處長：半導體未來在颱美閤作選擇中國資源將流失

全球圍堵榖歌、臉書科技巨獸澳洲加入反壟斷調查