淺友們大家好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你特別想聽到誰的故事,不妨加微信(微信號:shizhongok)告訴我。

這件牛逼的小事兒叫「翻譯」

我算見識了,普林斯頓大學的高材生的智商和中國騙子之間相差了十個王林。

事情是這樣滴。

上個月,有人給中哥介紹了一位歪果仁盆友,他是美國人,普林斯頓大學數學系的高材生。放暑假決定來中國學學中文,想在我家借宿一個月。

臥槽,普林斯頓,這可是全美第一的大學啊,出過兩位美國總統,63位諾貝爾獎得主,計算機之父阿蘭圖靈、物理大神費曼等等等等都是普林斯頓大學的校友。。。

作為一個科普界的名流,中哥欣然應允借宿請求,準備在每個空虛的夜晚向他討教一點科學姿勢。

My body is READY!這張是萊昂納德,不是Ben只是為了表達我的心情

對了,他的名字叫 Ben。

事實證明,在中國人的套路面前,再聰明的高材生也得變「Ben」。

那天,Ben 晚上八點多才回到家,一進門就愁眉苦臉,欲說還休。他剛學中文,也就是小學一年級水平,在我的逼問下,夾雜著英語連說帶比劃,我才明白髮生了什麼。。。

原來,他去天安門附近轉悠,遇到一個長發垂肩的女紙。女紙說自己特別稀罕歪果仁,約定了過兩天一起去賓館學漢語。相談甚歡,決定共進晚餐。女紙帶他走進了天安門西邊的一條小衚衕的咖啡館兒,開了一瓶紅酒,點了兩個牛排。結賬的時候,3000。

Ben 說,你不是坑我吧。女紙說,怎麼是坑你?這樣,我替你付1500,剩下一半你來,於是扔下1500 甩手走了,剩下長得頗似龍哥的餐館老闆站在他旁邊。

MD!中哥聽完他的遭遇,正義感爆棚,於是決定帶他去報案!

開車的是中哥,後面坐著 Ben

犯過案的淺友都應該知道,報案要到案發地派出所,於是中哥夜奔天安門。到了派出所,警察叔叔要 Ben 大概描述一下案件過程。

中哥的英語水平你懂的,看日本電影不用字幕(通常也沒字幕),看美國電影一般都得盯著字幕才能懂,現在讓我翻譯一場驚心動魄的美女詐騙案,臣妾還做不到。不過咱是科技人兒啊!淺友們應該有很多用過「翻譯君」吧。對,我當時就掏出手機打開了翻譯君,Ben 一邊陳述案情,我一邊結合著翻譯君的同聲傳譯,一邊給警察講。

講個八九不離十,警察叔叔說行了,不用說了,上警車吧我帶你們去。

於是,我們一行人回到了餐館,此時已經關門了。

神奇的事情發生了。。。警察叔叔抄起電話,直接給酒吧老闆撥了過去:你是XXX嗎?有人報案了!你過來處理一下吧!

沒有十分鐘,老闆就開著一輛大摩託過來了。更騷的操作來了,他直接從兜裏掏出一沓錢,問 Ben,你想要回去多少?開個價。警察叔叔就這樣站在旁邊慈祥地看著我們,一言不發。。。

從左到右,分別是我,Ben,不重要的路人,飯館老闆

剛學中文的 Ben 此刻完全不具備用中文吵架的能力,我拿著手機各種翻譯,具體過程不說了。最終,老闆堅稱他們開的紅酒特別貴,不能退全款。在警察叔叔的沉默下,我們只要回了1000塊。為了防止老闆給假錢,中哥專門把錢鋪在地上,拍下了號碼。。。

(事後證明這是真錢,老闆挺實誠,錯怪他了,嗯。)

曝光一下老闆的車牌號吧,淺友們來北京注意一定不要被坑,中哥救不過來。。。

事情就這樣結束了。中哥的心中卻久久不能平靜。

別誤會,什麼依法治國啊,警匪勾結啊,作為科普大佬,中哥可想不明白。我想的是:當時翻譯君給翻譯的那段案情陳述,還真 TMD 準啊。。。

歐對了,翻譯君有人沒用過嗎?簡單介紹一句,就是騰訊做的,你這邊說話,它直接給你翻譯成英文的App。最近翻譯君還出了一個高配版,叫做「騰訊同傳」。前兩天新聞裏報道的,給博鰲亞洲論壇各國領導人做現場同聲傳譯的翻譯機器人,就是「騰訊同傳」。

淺友知道,前兩天中哥去了一趟「智博會」。(參見中哥上一篇文章《一個有關未來十年的預言》,點擊可以打開複習)在「智博會」上,我也看到騰訊在現場演示了「騰訊同傳」。我突然發現,最近「翻譯君」和「騰訊同傳」在我的生活裏曝光量好高啊。

這是智博會現場的「翻譯君」

於是你懂的,萬能的中哥決定找到翻譯君和騰訊同傳的負責人聊聊~~

零、「翻譯君」

就是這位,邊超老濕傅。

邊超 翻譯君「本尊」

一聽到超哥的自我介紹,當時我就震精了。。。

他是某人口大省的高考第一名,清華大學計算機系博士,06 年畢業之後,先是入職 Intel,幫助他們優化 CPU 架構,你的電腦從單核到多核的升級,背後就有超哥的功勞;08年入職微軟,幫助他們優化 Windows 性能。當年從慢的要死的 Vista,升級到健步如飛的 Win7,其中還是有超哥的功勞。

11年入職騰訊之後,他一直帶領兄弟們負責 QQ瀏覽器內核的優化。

作為 Intel、Windows、QQ瀏覽器和翻譯君的四料用戶,當中哥發現原來他們的幕後大佬竟然是一個人的時候,頓時有種跪著採訪的衝動。。。

超哥總結自己開掛的人生,說了一句話:你看到世界在一往無前地進步,其實背後根本的動力都是底層演算法一點一滴的優化。

我突然回憶起去年的往事,當時我下載了獵豹瀏覽器、360瀏覽器和QQ瀏覽器,同時打開同一個網頁,看誰最快。這樣實驗多次,最終選定了以毫秒級速度優勢勝出的QQ瀏覽器。再看看眼前的超哥,我一瞬間就感受到了他所說的「一點一滴的優化」背後那種讓人著迷的匠人精神。

廢話不多說了,趕快聽超哥講翻譯君和騰訊同傳的往事~

一、這麼叼的翻譯是咋搞出來的?

騰訊有一個很變態的文化,那就是特別鼓勵有技術的老濕傅搞內部創業。(其實當年微信的誕生,也差不多是這樣的劇情。)

2016年,超哥決定響應號召,只生一個好內部創業。那時他發現身邊的盆友一到假期就出國遊,覺得既然中國在國際上地位越來越叼,出境遊的人肯定越來越多啊,為何不搞一個「一說話就能自動翻譯」的軟體呢?

翻譯君就這樣誕生惹。

機器翻譯,核心技術就是一個——人工智慧。就在超哥和團隊啟動翻譯君項目一個月之後,阿法狗大戰李世石,幾場圍棋賽讓「人工智慧」這個詞火得一塌糊塗。翻譯君也借著這股熱潮,得到了喫瓜羣眾別樣的關注。

本對話由翻譯君翻譯。。。

二、機器人翻譯的「三駕馬車」

超哥說起話來,跟 CPU 運行一樣有條理,他覺得做機器翻譯,跟把大象裝冰箱一樣,主要分三步。

第一步,搞定 AI 數據

第二步,搞定 AI 演算法

第三步,搞定 AI 工程

超哥也把自己翻譯君的 AI 團隊分成了這麼三組,每組六七個人,精兵強將,分工協作。

1)先說 AI 數據

機器翻譯的目標,就是讓機器學會人的翻譯技能。那麼第一步,顯然先要找來人類的優秀翻譯成果作參考。

AI 數據團隊的第一個任務,就是從全世界搜羅「雙語平行句對」——一條中文,一條英文的對應材料。

你仔細想想,這樣的句對還挺不好找呢。

超哥舉了幾個栗子:

某些網站有中文版和英文版,這種情況下可以把他們對應的詞條部位抽取出來作為句對;

有些新聞網站,比如 ChinaDaily,也有同一篇文章的中文版和英文版。這也可以薅過來作為句對。

還有一些業內其他人做好的,在歷屆翻譯大賽上,專門用來訓練翻譯機器人的現成句對。(這類數據數量比較少,大概1000w條左右。)

就這樣一點點發掘一點點死磕,數據團隊總共找來了一億多條句對。

你以為到這為止,數據團隊的任務就完成了麼?圖樣圖森破。

這是一個正確的句對

AI 數據團隊的第二個任務,是數據的篩選。

仔細想想,這樣廣撒網搜羅來的一億多條句對,肯定裡面有很多模糊、錯誤、驢脣不對馬嘴的情況。

如果把這樣的數據直接拿給人工智慧去學習,學出來的多半是屎一樣的妖艷賤貨。

然而尷尬的是:如果靠人去逐個檢查一億條數據的準確性,恐怕100年你都看不到翻譯君問世。

於是,團隊先花了幾個月功夫做一個人工智慧系統,專門用來篩除錯誤的數據。

超哥舉了幾個簡單的例子:

一句三行的英文句子,對應的中文只有五個詞。那顯然不對嘛。。。

再比如,這邊是一句中文,那邊的翻譯出現了德文單詞,這也顯然是不對的嘛。。。

當然,真正的篩查系統比這個要複雜得多。這裡只是感受一下它的工基本作原理。

不僅如此,他們還仿照富士康生產線抽檢 iPhone 的方式,對「句對質量」進行抽檢。搞個翻譯,連工程質量管理的知識都用得到。。。

這是一個錯誤的句對。。。

AI 數據團隊的第三個任務,是「分詞」。

英文每個詞之間都有空格,但中文很坑爹,所有的詞都是粘在一起的。

所以,「分詞」就是用人工智慧的方法,把一句話切成一個一個的單詞。

漢語分詞這個事情,聽上去簡單,但真的仔細研究它,可是一道送命題。隨便舉兩個例子:「我的/頭像/牛逼/嗎?」和「我的/頭/像/牛逼/嗎?」完全 TMD 是兩個意思。「我的/金箍棒/在哪?」和「我的/金箍/棒在哪?」也完全 TMD 是兩個意思。

總之,超哥帶著隊伍研究了一個叫靈格(Lingo)的分詞神器,一點點解決了分詞的問題。

說了這麼多,一個翻譯系統的「學習資料」纔算是「洗凈備用」,大概 Ready 了。

失之毫釐,謬之千里

2)再說 AI 演算法

AI 演算法團隊的職責,和你想得差不多,就是不斷研究最新的人工智慧技術,尋找到更適合做機器翻譯的演算法,然後提供給 AI 工程團隊做彈藥。

他們的日常就是不斷看那些天書一樣的論文,不斷調試天書一樣的演算法。偶爾喫個飯,睡個覺,特別偶爾站起來走兩圈。

3)再說 AI 工程

就像一款發動機,只有設計圖紙是不夠的,還要有人把它加工出來。

同樣,建造一個機器翻譯系統,只有 AI 演算法是不夠的,還需要一個 AI 工程團隊,把那些演算法佈置到人工智慧系統裏。

AI 工程團隊的職責非常重要。因為,同樣演算法佈置在系統裏姿勢的微小區別,都可能造成系統消耗算力和時間的巨大不同。就像在發動機的設計中,一個部件尺寸差一毫米,就可能讓油耗翻一倍。

每天用戶請求翻譯君翻譯的語句是五億句,計算量是驚人的。這種情況下,AI 工程偏差一點兒,就可能就會浪費天文數字的成本,你說他們手抖不抖?

終於。。。。把「AI 數據」放到「AI 演算法」和「AI工程」加持的人工智慧訓練系統裏,一套「翻譯引擎」就造好啦!新技能get

剛才忘記說了,翻譯君的團隊裏,除了超哥這個清華的博士,還有 MIT 的博士、早稻田的博士。簡直是黃金戰隊。就算是這樣的豪華陣容,翻譯君2016年初開始寫第一行代碼,2016年底發布,從0到1,還是耗費了團隊將近一年的時間。這套系統之複雜,可見一斑。

功夫不負有心人。整個2017年,用戶就像海嘯一樣湧來,直接把翻譯君衝到各大應用商店的榜首。

我猜,之所以超哥把AI 數據團隊、AI 演算法團隊、AI 工程團隊其實,團隊裏這幫博士都明白,人工智慧一旦停止迭代,分分鐘就會變成人工智障。所以,沒日沒夜地改進系統,只是 AI 工程師的日常操作而已。

好奇怪,聽說翻譯君團隊的人這麼拼,中哥有一種「那我就放心了」的感覺。。。

三、翻譯君出街去打工了

2017年,翻譯君搞得風生水起,經常有公司老闆找到超哥,問:你們的翻譯君這麼好使,能不能幫我們做一場大會的同聲傳譯呢?不讓你們白忙,我給錢好不好?

超哥一看,這不錯啊!讓翻譯君出去打打短工,還能掙點飯錢回來。

沒想到,效果還不錯,越來越多人來請翻譯君「出臺」。超哥突然意識到,翻譯君就像自己的小孩,現在他長大了,可以自己賺錢啦!於是團隊給翻譯君穿好西裝打好領帶,定製開發了一番,搖身一變成為了「騰訊同傳」,專門為企業進行翻譯服務。

2018年初,有一個偶然機會擺在超哥團隊面前:

博鰲亞洲論壇可以上機器同聲傳譯,騰訊同傳要不要接這個活兒?

臥槽,博鰲論壇,這可是個大場面。

超哥其實有點擔心,因為他知道,機器同傳有這麼幾怕:

首先,怕現場嘈雜。如果麥克風收進來的聲音就不清楚,肯定特別影響翻譯質量。

其次,怕交談場景。在圓桌論壇的場景,一位領導正講中文,說了一半忽然被旁邊的嘉賓用英文搶了話,現場人類觀眾可以瞬間切換,但是機器不容易轉過彎來。再次,怕說「片湯話」。人在日常講話的時候,經常會說「這個那個然後嗯啊額喔」這樣的語氣詞,這些語氣詞會讓翻譯君感到莫名鴨力。。。

其實,在2018年初,超哥團隊已經研究出幾個方案來對付這幾「怕」了,只是需要點時間來做系統升級。但時間不等人,此時此刻,要麼就用現成的系統硬著頭皮上,要麼就永遠錯失這次機會。

超哥那晚上輾轉反側,第二天還是咬著牙跟同事說:博鰲的事兒,我們接了!即使在全國面前丟人我們也認!

於是,剛剛誕生的騰訊同傳就拉開陣勢,為博鰲論壇搞了一次人類歷史上規格最高的機器同傳。

博鰲亞洲論壇現場

那幾天,估計很多淺友也看到了新聞報道。人們驚奇地發現,居然博鰲論壇有了人工智慧的翻譯。不過,由於現場情況過於複雜,實際中語言交替出場,還有口語語氣詞頻繁出現,現場同傳也確實出現了一些失誤。

當時還有人傳言,騰訊翻譯錯誤多,緊急調用了人工同傳。

我一臉壞笑地專門跟超哥核實了這件事。

超哥卻很淡定:「並沒有,有些分論壇本來就是人工翻譯的。而騰訊翻譯負責的論壇,從頭到尾都是機器頂下來的。我們搞技術的,哪能怕出錯,錯誤才能讓我們進步啊!」

這個答案很樸實。

從博鰲論壇到現在過去了四個月,「騰訊同傳」已經克服了不少之前的「坑」,變得更強大了。

超哥舉了個例子:

現場演講者不是有很多語氣詞嗎?我們就專門找來很多演講視頻,一點點研究語氣詞的規律,訓練出一套專門負責去掉語氣詞的系統。把這套系統放在翻譯系統之前。就可以完美解決演講者的「口語化」問題。

如果不去掉口語,就是這效果

像這樣的改進還有很多。

再舉個例子:

在翻譯君裏,人們通常一句話一句話地說完才讓機器翻譯。但是在同聲傳譯中,一個人會一直叨逼叨地說,還抑揚頓挫地忽快忽慢。所以,機器要學會判斷在什麼地方「斷句」。

為瞭解決這件事,這幫技術宅們還專門開發了一套斷句系統,用大數據的方法,八九不離十地「猜」出發言者在哪裡斷句。

再舉個例子:

騰訊同傳在做翻譯之前,實際上還有一個步驟,那就是先把人的語音轉錄成文字。這個步驟是微信團隊的「微信智聆」系統負責的。雖然「微信智聆」的轉錄已經是市面上最好的方案,但是仍然免不了有一定的錯誤率。

於是,超哥就帶著兄弟們改進演算法,讓語音轉錄文字發生錯誤的時候,還能翻譯成對的英文。

還有一些醫療、教育類的專業公司,讓騰訊幫忙開發了「醫療專業同傳」「法律專業同傳」「遊戲專業同傳」,在開行業會議的時候,可以精準同傳。

說到自己用「繩命」研發的翻譯系統被佈置到越來越多的企業裏,不苟言笑的超哥露出了一秒微笑。我剛想舉起手機記錄下這一刻,他馬上就回復了冷靜的表情。。。

中哥親測翻譯君(友情提示:點開看「大」圖)

四、閃耀的王冠

我問超哥:機器翻譯和人類翻譯,最終到底誰會戰勝誰?

超哥反問:「汽車和走路哪個更快?」

我正在懵逼,他慢悠悠地解釋道:

如果在高速公路上,汽車肯定秒殺人;但在傍晚六點的北三環,汽車真不一定能贏得了人。。。

評價哪個東西更好,首先你需要一個標準答案。

語言,是人類一切情感的出入口,它們忽而炙熱,忽而溫婉,忽而含情脈脈,忽而熱淚盈眶。面對我們人性的美麗和哀愁,翻譯,似乎永遠沒有標準答案。

「那我們為什麼要不惜一切研究機器翻譯呢?」我問。

至此,超哥說出了那句震撼人心的話:

我們從來不是為了證明機器比人翻譯得更好;

我們只是為了證明,平等、廉價地與他人溝通,是每個人應得的權力。

我突然感受到一種堅實的美好。

我看到,眼前的生活一往無前地進步。而背後,無數中國最聰明的技術宅們,正在一粒沙一粒沙地聚沙成塔,為他們心中那個更好的世界添磚加瓦。

那天,我其實想對超哥說,你曾經幫一位美國盆友找回了 1500 塊錢,但一直沒好意思說出口。

再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongok

或者關注微博:@史中方槍槍 @淺黑科技


推薦閱讀:
查看原文 >>
相關文章