B站av號:av16827246

個人見解在無參下能有如此高的還原很厲害了。up的堅持也值得打call。軟體名似乎叫Synthesizer V


謝邀,但是其實沒有什麼好說的……因為更多時候我是使用者而不是創造者,所以我的看法就是非常感興趣並且抱有很高的期望。因為mo是一個很好的引擎,而這個軟體也是他基於以前的一些研究成果弄出來了,所以非常期待有一天可以用上這個軟體。

另外在github上也有一些其他的和utau有關的項目,我同樣很有興趣。希望以後可以做出一點貢獻。


效果不錯,從那個男聲可以猜測用了諧波疊加之類得演算法,否則不會在8000HZ以上仍然能看到清晰的正弦波,這在正常的語音中是幾乎不可能見到的,但是從女聲看來,卻不明顯,不知為何。

而且可以偶爾見到斷崖式斷裂的諧波,雖然很小不易察覺,基本可以判定是諧波合成過程的間斷造成的。諧波合成會受到基頻提取錯誤的較大影響,能把波形合成的如此完美,除了音源質量很高之外,作者相位演算法控制得也非常好,沒有產生波形畸變,個別音節開頭部分確實產生了一些畸變,但是由於諧波相位的連續性所以聽覺上不會造成大的影響。

至於相位是採用自計算最小相位還是從語音中提取而來,水平有限,無法看出。

根據音節間得過度大膽猜測下,可能是直接進行諧波過度插值得,聽覺上連續性不錯,雖然不一定是真實的過渡。

第一個女聲是同一個音節嗎,升頻很高,升頻後語音質量非常好,但是可以看出來頻譜稍包絡微有些變化,所以我傾向於認為女聲音高採樣很充分,這是不同音高的女聲採樣而來,而沒有進行強行演算法升調,所以能得到很高的質量,反之男聲可能採樣不充分,而人聲特別是歌聲,共振峰會隨著音調的升高而略有變化(聽說這是為了讓共振峰處的諧波增益大,唱歌動聽且輕鬆),這也是為什麼演算法強行升調造成聲音悶和假。

http://synthesizerv.com/zh-cn/

已公開試用版下載!過兩天再寫詳細的評論!

發現不少我想要的功能都有了,修改了很多其他引擎不方便的地方

前言:

可以說是起步最早,效果最好了。果然七年的研究成果還是有的(還看到他有學校的語音研究小組的數據,雖然彎路不少……)

首先是作者的心路歷程,可以在作者的嗶哩嗶哩空間、作者在ivocaloid的帖子里看到(貌似不是很多人知道……大家都知道它好,沒看到作者的努力)

sleepwalking的研究早在2011年4月就開始了,軟體叫Rocaloid。(起步最早)一開始想要讓初音唱漢語,後來因侵權而停止。(想想現在連miku的官方漢語聲庫都有了,真是……)慢慢有了自己的聲庫,寫了UTAU的兼容引擎RUCE,後來就很久沒見過更新了。之前我偶然發現一個超棒的UTAU引擎moresampler,作者叫Kanru Hua,才知道他原來一直在研究。2017-12-1新的引擎synthV的展示視頻在嗶哩嗶哩上投稿。


現在是正文,對於引擎的(較客觀)評價。現在能聽到的有:初次展示、鐵壁阿童木主題曲、雖然歌聲無形(很棒)還有SILENCE(英文,很棒) https://www.youtube.com/watch?v=JyHrHVawpr4

(非專業人士,一些地方可能不準確,勿噴)

(另外我用sharpkey、vocaloid作對比比較多,其他引擎可比性不大,都被碾壓……)

現有參數:張力Tension(相當於sk的力度)、Voicing母音無聲化(估計和氣息一個意思,調整方式不同而已)、Breathiness氣息、Gender Loudness性別、Vibrato Envelope音高敏感?或顫音?、Pitch Deviation音高

左上角有個演唱風格:

歌手設定:

按我的理解:MAN-F1V2 MAN=Mandarin普通話,F=female女性,V2應該是版本號

下面是簡介

再下面是風格設定,有三個參數可設置,la應該是默認歌詞,其他的就不知道了(有下拉條,可能還有更多)

合成方面,可以說是國內最強了。(sk僅次於它)

先說優點。

1、連續性不錯,十分流暢自然。有一些地方連接上有瑕疵,但應該是聲庫的問題。

2、最讓我驚嘆的是爆發力很強,目前大部分引擎的高音都很輕柔,低音很「強力」,但是在 雖然歌聲無形 里4:10能聽到爆發力很強,還張得開嘴(這個也可能是錄音的關係,錄多一個音階。綾就是這樣子的)。不過這個有參有後期,說服力不大,但是試用者也說力度不錯,且總體上都比別的要有力很多。而且能聽到不同的地方力度明顯不一樣,假音也很不錯。相比之下,sk的高音很美不掐脖,但是太輕了。sk拉高力度會變得尖銳(不過拉低會變輕柔,很好聽)(關於大部分引擎的高音都很輕柔的問題,可能是因為人的共振峰不是不變的,會隨著音高變化而改變,也就是「唱得越高咬字越輕」而大部分引擎的變調都保留了原來的共振峰,使得降調會變得「強力」,升調會變得「輕柔」。VOCALOID的低音有個機制會讓唱低音好像真人唱不下去一樣,很自然,但是高音為了保持乾淨,會覺得掐脖,有點平滑過渡到哨音的感覺)

3、引擎的「味兒」較少,自然,比較貼近真人。不同的引擎演算法不同,導致失真的方法不一樣,就會有不同的「味道」。MUTA的電音、UTAU的拼接感【其他的可以換引擎解決,UTAU的拼接感幾乎不可避免】、裊裊濃濃的鼻音以及卡拉卡拉的聲音、Sharpkey低音及o、ao、ou奇怪的失真,不知道怎麼描述,像是一種奇怪的鼻音。(這也是為什麼sk那麼好用我卻不用的原因,我聽不慣)而synV只有在低音有一些鼻音(個人感覺比sk的要自然好多……),有些模糊的感覺。

4、雜七雜八:界面支持多語言,能直接用漢字錄入歌詞等等(2018.8.8:界面可以改變顏色 https://www.youtube.com/watch?v=JyHrHVawpr4 這裡看到的)

然後是缺點。

1、雖然歌聲無形那裡,GEN好像有點過猛,有時是正太有時是萌妹。一般唱歌沒變化沒那麼大。(也許是調教的問題)

2、參數調整不方便,尤其是pit。學學Sharpkey啊!不要學VOCALOID!!對齊簡直不要太麻煩!!!不方便我們這些滑鼠黨!!!!(sk的參數界面是我接觸過的所有歌聲合成軟體里最棒的一個了,沒有之一!)(更新:出了試用版,調參界面是半透明的,兩種方式可以共存

3、迷之顫音,還不知顫音的機制,初次展示和雖然歌聲無形的顫音都很多。

4、雙擊輸入音符,感覺不是很方便

5、參數還不是很多,比較缺的是音素調整,尤其是輔音(至少我沒看到有展示),moresampler的參數(flag)還是挺多的。另外,期待嘶吼效果(moresampler的嘶吼很棒)

6、低音有些悶,高頻有些突出(後期可修)

我的理想中的歌聲合成軟體:

1、學Sharpkey的調參方式!最好兩種都方式可以選!更新:出了試用版,調參界面是半透明可以調整高度的,兩種方式可以共存。PIT雖然還不能直接畫,但是可以實時看到調整效果,還是方便了不少

2、一個很重要的——函數畫筆!可以自定義那種,像domino畫筆一樣

3、現在最缺的參數:音素調整,包括輔音的調整。

4、開口度參數,不是V的OPE,而是像vocaloid1那樣的F1、F2共振峰,可以讓Gender Loudness調整其中一個共振峰,開口度調整其中另一個共振峰。(但是我不知道為什麼好好的F1F2在v3被取消了,是有什麼問題才取消的嗎?好像其他引擎也沒有……)

5、嘶吼參數,moresampler的嘶吼效果不錯

6、滑音調整,雖然Pitch Deviation可以代替,但是滑鼠黨要畫准太難了。希望這樣調:

選中滑音,滑鼠左右移動調整滑音位置,滑鼠滾輪調整滑音時間。

之所以要分開調而不像UTAU那樣調,是因為一般只需要調其中的一項,這樣會方便不少。

滑音時間也比較重要。時間太長會產生拖沓的感覺。V4就沒有這個參數,大家一般是在音符後面添加一個短短的延音音符來減少滑音時間。

7、輔音音量調整(UTAU里有這個flag),雖然其他引擎都沒有但我覺得需要。有的參數只會影響母音的音量(V4的BRI),這時就要調整輔音的音量。輔音速度和輔音音量是掛鉤的,如果不一致會很奇怪(曉伊的b、d、g,雖然歌聲無形)。輔音音量也會影響一定的力度。

8、重音和衰減。可以直接在鋼琴窗調。點住音頭上下滑動調重音,點住音符中間上下滑動調衰減。

9、顫音調整。V5顫音調整的方式不是很好,更喜歡UTAU的。

10、

synth V一定程度上滿足了我對歌聲合成的幻想

不知是否開源,聲庫是否支持自製。希望可以吧,作者之前一直都開源的。希望可以!

非引擎的問題:中文妹妹的in、ing不符合流行音樂啊,發成了ien和ieng……

VOCALOID5出來了!看起來像是面向專業用戶的樣子。synthV也要加油啊

(以後再更)


不好評價,因為人家是創造者,我們沒有那麼高成就。

不過就軟體角度說,這個軟體就相當於簡化了的VOCALOID(只要有會調音軌的基礎就好學),希望能做正式版上架,一個人的努力,做成這樣相當不錯的。


好。(匿

(占坑有時間來寫

簡要評價在此 https://weibo.com/1897825862/FxGE7hHWV


就是那個啊,三年前sleepwalking開發了支持utau的ruce程序,並聲明接下來會開發獨立的合成軟體。當時就被ruce的效果驚艷了。。。現在,這個引擎的特點,從視頻中就能發現:界面簡單,操作簡單,性能好。起步是最早的,現在可以說,效果也是最好的。


推薦閱讀:
相关文章