音声認識をおこなううえで、「人々が互いに話すとき、「えっと」や「あー」や、どもり、ためらい、笑いが正しい認識を困難にさせ、また、多くの場合単語は不明瞭に発音されており、AI音声認識の認識率の障害となっている。
この問題を解決する、音声認識を人間よりも高い認識精度をもち、他のシステムよりも速く実行するAIを、ドイツのカールスルーエ工科大学(KIT)の研究者と、KIT発スタートアップのKITESが開発に成功したと発表。インターネットプラットフォームArXiv.orgに報告を掲載した。
KITのアレックス・ワイベル教授は、このAIを使い、大学の講義をドイツ語または英語から留学生が話す言語に直接翻訳する自動ライブ翻訳システムを開発。この「Lecture Translator」は、2012年からKITの講堂で使用されているという。「自発音声の認識は、このシステムの最も重要なコンポーネントです」とワイベル教授は説明する。「認識のエラーや遅延は、機会翻訳を困難にします。会話音声では、ヒューマンエラー率は約5.5%になります。私たちのシステムは現在5.0%に達しています。」研究は現在も続けられており、翻訳の待ち時間を世界最短の1秒に短縮することに成功しているという。
なお、エラー率と遅延は、NISTベースでベンチマークテストされている。