アドバンスト・メディア、会議の文字起こし・医療・業務報告など、領域特化音声認識APIを発表。領域特化音声認識がAPIで手軽に使えるようになった

アドバンスト・メディアは、音声認識APIを提供する開発プラットフォーム”AmiVoice Cloud Platform”をアップデートし、領域特化型の音声認識エンジン5種を追加公開した。AmiVoice Cloud Platformウェブサイトからの申込み・利用が可能となった。

AmiVoice 音声認識APIを使えば、クライアントアプリケーションに特別なライブラリを組み込む事なく、簡単に音声認識機能を実装できるようになる。

この度、新たにAPIに追加されたのは「医療介護エンジン」「医療電子カルテエンジン」「医療製薬エンジン」「業務報告保険エンジン」「会議_議事録」の計5つ。それぞれ業種・業界に特化した専門用語を搭載している。

音声認識APIの種類と価格

1.汎用エンジン

幅広い用途で利用できる汎用の音声認識エンジン。双方向型のディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」を実装しており、従来の音声認識エンジンと比較し、エラー改善率が最大で25%(アドバンスト・メディア調べ)と、自然発話を中心とした認識率が大幅に向上。毎月60分まで無料枠あり。

 ログ保存ありログ保存なし
汎用エンジン0.025円/秒0.04円/秒

2.医療

一般的なビジネス用語に加え、病名・症状・薬品名等の医療用語があらかじめ登録されている医療向けの音声認識エンジン。

 ログ保存ありログ保存なし
医療_汎用エンジン0.125円/秒0.2円/秒
医療_介護エンジン0.1円/秒0.16円/秒
医療_電子カルテエンジン0.125円/秒0.2円/秒
医療_調剤エンジン0.15円/秒0.24円/秒

3.業務報告

日報や業務報告書の音声入力等で使用できる音声認識エンジン。一般的なビジネス用語に加え、それぞれ金融、保険、製薬業界向けの用語を搭載。

 ログ保存ありログ保存なし
業務報告_金融エンジン0.075円/秒0.12円/秒
業務報告_保険エンジン0.075円/秒0.12円/秒
業務報告_製薬エンジン0.075円/秒0.12円/秒

4.会議

会議の議事録作成で利用できる音声認識エンジン。一般的なビジネス用語に加え、会議で良く使う言い回しや単語等を搭載。

 ログ保存ありログ保存なし
会議_議事録エンジン0.05円/秒0.08円/秒

AmiVoice 音声認識APIの特長

①リアルタイム処理、バッチ処理、音声データのログ保存の選択が可能
リアルタイム認識、バッチ認識の双方に対応。シーンや運用に合わせて、音声データのログ保存の有無を選べ、運用セキュリティや社内規定に準じた音声認識の開発が可能です。

②支払いは発話区間のみ。1秒単位で計算
利用料は、発話時間のみ。秒あたりの単価で料金計算、音声がある部分だけを自動的に切り出す為、無音やノイズ等、人の声がない区間は料金がかからない。

③ビジネスユース向けの言語フィルタリングを搭載
ビジネスで使用する事のない不適切な用語や有害な用語を省いた、ビジネスユースに強い言語モデルを使用。不要語を省く事で誤認識を軽減。

④ユーザー自身が精度向上を図れるカスタマイズ単語登録を搭載
製品名・固有名詞等、単語のカスタマイズ登録が可能。単語登録によって、専門用語や氏名等もスムーズに変換し、更に認識率が向上。

⑤音声認識APIをすぐに体験・開発できるサンプルプログラムを用意
音声認識APIをすぐに体験できるサンプルプログラムを提供している。各サンプルプログラムには、音声ライブラリが含まれており、実際のアプリ開発時に利用する事ができる。

編集部コメント:アドバンスト・メディアさんは業界の先駆者であり、日本語の音声認識では認識精度、利用者の多い業界特化のサービスラインナップはさすがですね。開発者や利用者サイドではこのようなAPIが提供されるとサンプルでの実装や独自のUXを実現したり開発の機動性が高くなるので、ますます他社さんには強力なコンペになりますね。また、GoogleのSpeech to Textは安いですが、無音部分も含むセッション毎課金、辞書なしなので、アドバンスト・メディアさんの料金体系はよく考えられていますね。

プレスリリース本文

この記事が良かったらシェア!