音声技術のいろいろを整理してみました

VOICE UI MEDIAの開始から約半年が経ちました。この半年で、これまで国内外のいろいろな音声系サービスや技術を紹介してきました。少しこれまでを振り返り、音声技術をカオスマップのような会社ではなくジャンルで整理してみました。一般的ではない表現も使用しており、あくまで当メディア視点でのまとめとなります。ご参考になれば幸いです。

①人のことばを正しく認識する技術

音声技術の中で一番プレイヤーが多いのはこのジャンルです。GoogleやIBMはじめ、アドバンスト・メディアや他社も研究開発を進めている音声認識のメジャーカテゴリーです。

これまでは音声コマンドなどの単語や簡単な文章レベルでのものでしたが、現在は自然な会話を、それぞれの単語や言い回しを理解して正確に認識していく技術的ブラッシュアップが行われています。
また、人の話を正しく認識する技術は『言語』によって精度が大きく変わります。英語や中国語に強い認識エンジンも『日本語』となれば、日本語に対応したAI側の対応や日本語の学習が必要になります。

同じ音声でも様々なセグメントが各社にて追求されており、通常の認識エンジンだけではなく以下のような以下のような音声技術が登場しています。これらは単体で研究開発を進めているものや、音声認識プラットフォームの一部として組み込まれているものもあります。

  • 方言や非ネイティブの喋り方に対応した会話認識
  • 子どもの会話認識
  • 聴覚障がい者の会話認識
  • 業界特化(技術というより辞書ですが、テックタームや特有の言い回しなどを考慮したもの)
  • 翻訳

②機械会話技術

次に、会話を行う技術についても、多くの企業が研究やサービス展開をしています。厳密に言えば、この技術は音声ではなく『文章理解』や『文脈理解』をして、人の会話に近い形での『適切な返答を行う』文章に関する技術です。しかし、人が話すと人間のように意味ある内容で言葉を返してくれるのは、人々がイメージする音声認識そのもので、一番主要な技術ではないでしょうか。
このジャンルは大きく2つにわけられます。

1.AIをベースとしたチャットAI

多くの皆さんが期待している技術はこちらではないでしょうか?いろいろな会話パターンや内容から推測したり学習していく、AIがベースの会話エンジンです。特徴としては返答を人間が用意するものではないので、どんな返事を返すかの100%の予測は難しいです。

2.人口無能(チャットボット)

一方、現在主流であるのはこの人工無能(チャットボット)と呼ばれるものです。もちろん、自然言語としての理解部分など一部AI化されている部分もありますが、質問に対する返答パターンは人間が作ったものをセットして返す、という、どんな返事が返るのかは人が管理している、返答がないものは対応を人間にエスカレーションや『すみません、わかりません』で会話を終了させます。

言語依存性が強いため、言語ごとのモデルが必要になるジャンルです。

③音声合成技術

音声合成も現在や技術が進歩してきている技術です。コンピュータがテキストを音声にてアウトプットする技術で、技術的要素はいくつかあります。

  • 自然な文章の単語やコンテクストや尺を理解し、イントネーション、発音、抑揚、会話スピードを人間のように表現する、長尺を自然に表現する技術
  • ユーザーの音声データから音声合成を行う技術

上記の会話AIで、会話の癖や言い回しも表現できれば、音声合成と組合わせ好きな芸能人やなくなった肉親などのバーチャル化が可能なるのではないでしょうか。

③声紋・パッシブライブネス

声紋での本人性チェックはAI以前の時代から確立はされていた分野ですが、AIが詐欺を行う時代になり、詐欺を防いだり(アンチスプーフィングテクノロジーといいます)、声紋での本人性や、録音や合成音ではない(パッシブライブネスといいます)ことをチェックする技術へのニーズが高まっています。また、業務においてもSSOなどの認証により高いセキュリティと利便性を兼ね備えた生体認証も関心を集めています。

米国では生体認証のISO(ISO / IEC 30107-3)を取得する生体認証ベンチャーも増えています。日本でも高い成長性を見込めるセキュリティジャンルで、FIDOやNISTの試験スコアだけではなく、このような規格を取得していくとで大きなアドバンテージにナルのではないでしょうか。

また、これら技術は言語依存性が原則ありませんので、海外からの技術輸入も注視したいところです。

④疾患推定

Covid-19の世界的な流行で、声から手軽に感染のチェックができるモバイルアプリの研究がインドやイスラエル、米国などで進んでいます。高い精度で肺疾患の検知ができたという論文のニュースなどを当サイトでも何度か取り上げました。

また、会話の内容から、アルツハイマー病の検知などの研究も進んでいます。モバイルアプリなどの手軽な方法を提供することで、病気の早期検出が可能となってきています。

この技術はアルツハイマーなどの言語に依存するアルゴリズムを利用したのものと、Covid-19疾患検出などの言語に依存しない技術が大きく分けて存在しています。

⑤感情推定

嬉しい、悲しい、怒っているなど、声から感情を推定する技術もすでに存在しています。APIで手軽に使えたり、言語依存が低い技術ですので、グローバルな展開が可能です。また、声からうつの疾患推定もすでに技術は存在しています。

将来的に、顧客の反応を声や映像からモニタリングするなど、ちょっと迷惑なツールもでてくるかもしれません。日本ではEmpath社などが声の感情推定技術を提供しています。

⑥画像認識からの音声

直接的な音声技術ではないですが、映像の振動を捉え、その振動から音を再現する、レコードのような技術の研究成果がMITの研究者より発表されています。
また、インドの研究者は、映像から読唇しテキスト化する、読唇技術を発表したりもしています。

AIの時代になり、映像だけではなく声から様々な情報を得ることが手軽になってきています。壁に耳あり障子に目ありな世の中で、プライバシーを守りながら進歩する技術をうまく利活用、管理していくことが技術を提供する企業側に求められており、我々利用者側もリテラシーを上げることで自らのプライバシーを守っていかなければならない世の中になってきています。

この記事が良かったらシェア!