如何評論B站up主sleepwalking最近展示的新歌聲合成軟體？

B站av號:av16827246
個人見解在無參下能有如此高的還原很厲害了。up的堅持也值得打call。軟體名似乎叫Synthesizer V

謝邀，但是其實沒有什麼好說的……因為更多時候我是使用者而不是創造者，所以我的看法就是非常感興趣並且抱有很高的期望。因為mo是一個很好的引擎，而這個軟體也是他基於以前的一些研究成果弄出來了，所以非常期待有一天可以用上這個軟體。

另外在github上也有一些其他的和utau有關的項目，我同樣很有興趣。希望以後可以做出一點貢獻。

效果不錯，從那個男聲可以猜測用了諧波疊加之類得演算法，否則不會在8000HZ以上仍然能看到清晰的正弦波，這在正常的語音中是幾乎不可能見到的，但是從女聲看來，卻不明顯，不知為何。

而且可以偶爾見到斷崖式斷裂的諧波，雖然很小不易察覺，基本可以判定是諧波合成過程的間斷造成的。諧波合成會受到基頻提取錯誤的較大影響，能把波形合成的如此完美，除了音源質量很高之外，作者相位演算法控制得也非常好，沒有產生波形畸變，個別音節開頭部分確實產生了一些畸變，但是由於諧波相位的連續性所以聽覺上不會造成大的影響。

至於相位是採用自計算最小相位還是從語音中提取而來，水平有限，無法看出。

根據音節間得過度大膽猜測下，可能是直接進行諧波過度插值得，聽覺上連續性不錯，雖然不一定是真實的過渡。

第一個女聲是同一個音節嗎，升頻很高，升頻後語音質量非常好，但是可以看出來頻譜稍包絡微有些變化，所以我傾向於認為女聲音高採樣很充分，這是不同音高的女聲採樣而來，而沒有進行強行演算法升調，所以能得到很高的質量，反之男聲可能採樣不充分，而人聲特別是歌聲，共振峰會隨著音調的升高而略有變化(聽說這是為了讓共振峰處的諧波增益大，唱歌動聽且輕鬆)，這也是為什麼演算法強行升調造成聲音悶和假。

http://synthesizerv.com/zh-cn/

已公開試用版下載！過兩天再寫詳細的評論！

發現不少我想要的功能都有了，修改了很多其他引擎不方便的地方

前言：

可以說是起步最早，效果最好了。果然七年的研究成果還是有的（還看到他有學校的語音研究小組的數據，雖然彎路不少……）

首先是作者的心路歷程，可以在作者的嗶哩嗶哩空間、作者在ivocaloid的帖子里看到（貌似不是很多人知道……大家都知道它好，沒看到作者的努力）

sleepwalking的研究早在2011年4月就開始了，軟體叫Rocaloid。（起步最早）一開始想要讓初音唱漢語，後來因侵權而停止。（想想現在連miku的官方漢語聲庫都有了，真是……）慢慢有了自己的聲庫，寫了UTAU的兼容引擎RUCE，後來就很久沒見過更新了。之前我偶然發現一個超棒的UTAU引擎moresampler，作者叫Kanru Hua，才知道他原來一直在研究。2017-12-1新的引擎synthV的展示視頻在嗶哩嗶哩上投稿。

現在是正文，對於引擎的（較客觀）評價。現在能聽到的有：初次展示、鐵壁阿童木主題曲、雖然歌聲無形（很棒）還有SILENCE（英文，很棒） https://www.youtube.com/watch?v=JyHrHVawpr4

（非專業人士，一些地方可能不準確，勿噴）

（另外我用sharpkey、vocaloid作對比比較多，其他引擎可比性不大，都被碾壓……）

現有參數：張力Tension（相當於sk的力度）、Voicing母音無聲化（估計和氣息一個意思，調整方式不同而已）、Breathiness氣息、Gender Loudness性別、Vibrato Envelope音高敏感？或顫音？、Pitch Deviation音高

左上角有個演唱風格：