ドワンゴは、ディープラーニング技術を活用したボイスチェンジャー「Seiren Voice」を無償で公開した。この声を録音して変換先の声を選び、変換ボタン押すと自分の声を100人分の声に変換できる。
品質よりもリアルタイム性を重視した物が多い中、Seiren Voiceは変換のリアルタイム性より変換品質を優先、音声変換には数十秒から数分の時間がかかる。
声変換を含む音声合成は、Alexaなどで使われているWaveNetという技術により、実際の音声とほぼ変わらない品質の音声を生成できるようになっているが、 WaveNetは生成する品質が高い一方、生成する速度が遅いという弱点があり、この点を改善したWaveRNNをSeiren Voiceは採用しているという。
深層学習を用いた声変換の手法の1つに、変換元の人と変換先の人に同じ文章を読んでもらって音声のペアデータを用意し、それらのペアデータを学習データにして声変換を行う方法があるが、ペアのデータを用意するのは大変手間がかかるため、変換元の音声データと学習のやり直しを必要としないような声変換の方法を研究し、音声同士で直接変換するのではなく、音声を音素・音高・発音タイミングの要素にに分解し、それらのデータを基に目標とする声に再構築することで、事前の録音が不要で誰の声でも声質変換できるようにしたという。
学習には、100人のプロフェッショナル話者による高音質な音声データJVSコーパスが利用されている。
https://dmv.nico/assets/audio/seiren_voice/movie.mp4 (デモ動画)