クリスタルメソッド、発話中の人の動画を学習させることでリアルに本人の画像と音声をを合成したアバターを作成する技術を発表

クリスタルメソッド株式会社は、発話中の人の顔の動画音声収録データを学習させることによって、あたかも本人が発話しているかのように、音声合成・リップシンクするオリジナルAIを作成する技術”DeepAICopy“を開発したと発表。

前バージョンでは、リップシンク部分のみの生成であったが、今バージョンでは動画全体に前後関係を含めて生成。AIで推定する部分を5つ以上追加して複雑な動きに対応し、よりリアルな動きを表現できるようになった。

当社によれば、不気味の谷を越えたことにより、今までよりも優れた感情表現を表す事ができるようになったという。

DeepAICopyの概要

事前に発話中の人の顔を約40分間収録した動画・音声をAIに学習させることによって、その人が発話しているような口の動きの画像、音声を人工的に合成し、Zoomアプリでリアルタイムで会話・返答するオリジナルのAIを作成できる。

Zoomアプリでは、ルームメンバーにいるオリジナルAIに話しかけると、AIがトークの文脈を認識して、適切な返答をする。今後さらに機能が追加される予定です(以下が現在の機能)。

FAQ機能
予め登録しておいた情報の通りに返答する機能。外見だけでなく音声もそっくりに合成して再生される。

フリートーク機能
AIと自由に日常会話ができる機能です。「こんにちは」「今日は暑いね」など、なにげない言葉に対して、返答をする。

プレスリリース本文

この記事が良かったらシェア!