曉查 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

由於和英偉達研究撞車,韓國一位研究語音合成的作者已經哭暈了。

10月31日,英偉達在arXiv網站上傳了一篇論文——WaveFlow:一個用於音頻合成基於流的生成網路。

英偉達論文地址:

arxiv.org/abs/1811.0000

而一位韓國首爾大學的學生髮現,自己的研究成果竟然和英偉達高度相似,為了和英偉達搶時間,他們在11月6日趕緊也向arXiv上傳了論文。

論文第二作者昨晚還在reddit發帖,並搶時間放出源代碼,以此安慰在角落哭泣的第一作者。

FloWaveNet項目

這位韓國學生公布的FloWaveNet,是一種基於流生成模型的原始音頻合成方法,只需要一個最大似然損失,不需要其他額外的損失函數。該模型可以實時高效地採樣原始音頻,而且合成音頻的清晰度已經能和WaveNet相媲美。

英偉達也公布了自己的WaveGlow:一種基於流的網路,能夠從梅爾頻譜圖(mel-spectrograms)中合成高質量的語音。 它借鑒了OpenAI的生成網路Glow和DeepMind的WaveNet,能夠提供快速,高效和高質量的音頻合成,而無需自動回歸(auto-regression)。 WaveGlow僅由單一成本函數進行訓練,使用單一網路實現,使得訓練過程簡單而穩定。

源代碼與合成音頻樣品

作者已經在GitHub上公布了FloWaveNet源代碼,並和百度研究院數月前發布的語音合成項目ClariNet進行對比。

FloWaveNet項目地址:

github.com/ksw0306/FloW

ClariNet項目地址:

github.com/ksw0306/Clar

這兩個項目都是基於PyTorch實現,此外用戶還需要安裝音頻分析包librosa

為了展示效果,作者還放出了與原始音頻、WaveNet合成音頻樣品的對比(第一段為原始音頻、第二段為FloWaveNet合成,第三段為WaveNet合成):

合成語音對比來自量子位00:0000:22

另外,英偉達也放出了自己的WaveGlow的項目和多段音頻對比,但是卻沒有提供源代碼:

nv-adlr.github.io/WaveG

不過,有英偉達論文的第三方PyTorch實現可用:

github.com/npuichigo/wa

因禍得福

帖子發出後2個小時內,獲得了熱烈討論。有人分享了類似「撞車」經驗,表示單槍匹馬很難與大公司眾多工程師競爭,自己開始某項研究數月後,就被DeepMind搶發了論文。

不過還是有人鼓勵作者,英偉達的WaveGlow目前僅僅是提交到arXiv,還未正式發表,希望作者不要擔心。

很快帖子就吸引來了行業大咖。英偉達WaveGlow作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊,並且拋出了橄欖枝,希望發帖者能夠去英偉達實習。

不知道這算不算因禍得福呢?

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI· 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

推薦閱讀:

相关文章