總的來說,這篇論文是一個非常好的工作,提出了一種有效地加快合成速度的方法,並提高了合成的準確性,因為模型結構的紅利,該模型還可以對合成聲音的語速進行控制。但是也存在問題,模型使用了Transformer-TTS的Alignment作為Target,而Transformer-TTS的Alignment是隱式的,也就是說,模型將隱式的Alignment作為顯式的Alignment的Target。
粗略看了一下論文,整體架構基於DeepVoice3,Decoder Input使用Position Embedding代替,個人覺得這種方式過於人工。模型的整體架構如圖: