人間よりも精度の高く高速な音声認識AIをドイツKIT研究者とスタートアップが開発

Lecture Translator Mit VR-Brille: M.Sc Juan Hussain, Interactive Systems Labs (ISL) Zu sehen sind Studierende, Doktoranden und PostDocs, sie diskutieren die aktuelle Forschung, die nächsten Schritte und Themen, die erforscht werden müssen. © copyright by Karlsruher Institut für Technologie Allgemeine Services - Crossmedia Abdruck honorarfrei im redaktionellen Bereich Belegexemplar erbeten *** Local Caption *** Lecture Translator Am Institut für Anthropomatik des Karlsruher Instituts für Technologie (KIT) haben Prof. Alexander Waibel und sein Team den welteit ersten automatischen simultanen Übersetzungsdienst per Computer entwickelt. Dieser soll ausländischen Studierenden dabei helfen Vorlesungen auf deutsch besser verfolgen zu können. Dazu zeichnet der Vorlesungsübersetzer automatisch den Vortrag des Referenten auf, verschriftet ihn und übersetzt ihn in Echtzeit ins Englische. © copyright by Karlsruher Institut für Technologie Allgemeine Services - Crossmedia Abdruck honorarfrei im redaktionellen Bereich Belegexemplar erbeten

音声認識をおこなううえで、「人々が互いに話すとき、「えっと」や「あー」や、どもり、ためらい、笑いが正しい認識を困難にさせ、また、多くの場合単語は不明瞭に発音されており、AI音声認識の認識率の障害となっている。

この問題を解決する、音声認識を人間よりも高い認識精度をもち、他のシステムよりも速く実行するAIを、ドイツのカールスルーエ工科大学(KIT)の研究者と、KIT発スタートアップのKITESが開発に成功したと発表。インターネットプラットフォームArXiv.orgに報告を掲載した。

KITのアレックス・ワイベル教授は、このAIを使い、大学の講義をドイツ語または英語から留学生が話す言語に直接翻訳する自動ライブ翻訳システムを開発。この「Lecture Translator」は、2012年からKITの講堂で使用されているという。「自発音声の認識は、このシステムの最も重要なコンポーネントです」とワイベル教授は説明する。「認識のエラーや遅延は、機会翻訳を困難にします。会話音声では、ヒューマンエラー率は約5.5%になります。私たちのシステムは現在5.0%に達しています。」研究は現在も続けられており、翻訳の待ち時間を世界最短の1秒に短縮することに成功しているという。

なお、エラー率と遅延は、NISTベースでベンチマークテストされている。

リリース本文

この記事が良かったらシェア!