語音合成論文和英偉達撞車,韓國小哥緊急放出全部草稿代碼和樣本 | 資源帖
曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
由於和英偉達研究撞車,韓國一位研究語音合成的作者已經哭暈了。
10月31日,英偉達在arXiv網站上傳了一篇論文——WaveFlow:一個用於音頻合成基於流的生成網路。
英偉達論文地址:
https://arxiv.org/abs/1811.00002而一位韓國首爾大學的學生髮現,自己的研究成果竟然和英偉達高度相似,為了和英偉達搶時間,他們在11月6日趕緊也向arXiv上傳了論文。
論文第二作者昨晚還在reddit發帖,並搶時間放出源代碼,以此安慰在角落哭泣的第一作者。
FloWaveNet項目
這位韓國學生公布的FloWaveNet,是一種基於流生成模型的原始音頻合成方法,只需要一個最大似然損失,不需要其他額外的損失函數。該模型可以實時高效地採樣原始音頻,而且合成音頻的清晰度已經能和WaveNet相媲美。
英偉達也公布了自己的WaveGlow:一種基於流的網路,能夠從梅爾頻譜圖(mel-spectrograms)中合成高質量的語音。 它借鑒了OpenAI的生成網路Glow和DeepMind的WaveNet,能夠提供快速,高效和高質量的音頻合成,而無需自動回歸(auto-regression)。 WaveGlow僅由單一成本函數進行訓練,使用單一網路實現,使得訓練過程簡單而穩定。
源代碼與合成音頻樣品
作者已經在GitHub上公布了FloWaveNet源代碼,並和百度研究院數月前發布的語音合成項目ClariNet進行對比。
FloWaveNet項目地址:
https://github.com/ksw0306/FloWaveNetClariNet項目地址:
https://github.com/ksw0306/ClariNet這兩個項目都是基於PyTorch實現,此外用戶還需要安裝音頻分析包librosa。
為了展示效果,作者還放出了與原始音頻、WaveNet合成音頻樣品的對比(第一段為原始音頻、第二段為FloWaveNet合成,第三段為WaveNet合成):
合成語音對比來自量子位00:0000:22
另外,英偉達也放出了自己的WaveGlow的項目和多段音頻對比,但是卻沒有提供源代碼:
https://nv-adlr.github.io/WaveGlow
不過,有英偉達論文的第三方PyTorch實現可用:
https://github.com/npuichigo/waveglow因禍得福
帖子發出後2個小時內,獲得了熱烈討論。有人分享了類似「撞車」經驗,表示單槍匹馬很難與大公司眾多工程師競爭,自己開始某項研究數月後,就被DeepMind搶發了論文。
不過還是有人鼓勵作者,英偉達的WaveGlow目前僅僅是提交到arXiv,還未正式發表,希望作者不要擔心。
很快帖子就吸引來了行業大咖。英偉達WaveGlow作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊,並且拋出了橄欖枝,希望發帖者能夠去英偉達實習。
不知道這算不算因禍得福呢?
— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI· 頭條號簽約作者
?? ? 追蹤AI技術和產品新動態
推薦閱讀: