インドの研究チーム、AI読唇術の精度を劇的に向上させ(従来比4倍)成果をGitHubで公表

当メディアは「Voice Tech」のメディアですが、聞こえない「声」を読唇術で聞く「読唇」も音声関連技術としてご紹介。実際はコンピュータビジョン関連技術ですが(笑)

インドのハイデラバードにある国際情報技術研究所(IIIT)の研究チームが、読唇術の最新の成果を発表しました。以下で、研究のコード、データ、モデルが公開されています。

論文 Github

この研究で、研究者グループは唇の動きに基づいて音声を生成するシーケンスシーケンスモデル「Lip2Wav」を提案しています。

唇の動きから会話の内容を理解するのは大変難しく、耳の不自由な人や読唇を身につけた人は、顔の表情やジェスチャーなどから言葉の推測することで読唇の補完をしていて、また、初めて話す人より、頻繁に話す相手の読唇をしやすい傾向があるそうです。

この研究ではそれらの緒から読唇モデルを考えたそうで、1人が長時間喋っているサンプルを利用してモデルの研究を進めたとのこと。その結果、従来の読唇モデルの4倍の精度が実現したそうです。


デモ動画は以下

この記事が良かったらシェア!