51言語を自動で認識する音声認識モデルをFacebookが開発

Facebookの研究者が51言語を自動で認識する音声認識モデル、automatic speech recognition (ASR)を開発したと論文を発表しました。

このモデルは、「何を言っているのか」のではなく「何語をはなしている」かを解析するモデルです。

「一般に、多言語およびクロスリンガルの音声処理は、何十年もの間活発な研究分野で、複数の言語を認識できる単一のモデルは、自動音声認識の分野では長期的な目標でした」と論文の著者は書いています。

これまで音声認識は1つの言語で行う必要がありました。Facebookのこのモデルは、シーケンスからシーケンスへの結合(Seq2Seq)モデルと呼ばれており、すべての言語認識を1つに組み込んだモデルのようです。

この研究ではまた、同じ内容の会話で多言語モデルをトレーニングすることで全体的な単語の誤り率(WER)が低下する可能性があることが示されています。

この研究はFacebookで公開されている匿名の動画からトレーニングデータセットを作成し、16,000時間の学習によってもたらされました。また、モデルには約10億の言語パラメータがあり、従来の同様のモデルと比較してパフォーマンスが最大28.8%向上しました。

この記事が良かったらシェア!