QuantumCore、言語依存しない、精度97%のリアルタイム話者認識APIを提供開始

株式会社QuantumCore(クアンタムコア)は、レザバーコンピューティングを基にした多変量時系列処理ソリューション「Qore」を活用した、話者認識API「VDQore」のβ版提供を開始した。

話者認識API「VDQore」

AIスピーカー、議事録、コールセンターなど様々な分野で音声認識の技術が利用され始めていますが、発話者の声から個人を特定させる話者認識の技術は未だ簡単に利用できない。QuantumCoreは、それらの課題の解決のため、10秒程度の音声を2秒程度の時間で学習し、言語や利用環境に依存せずリアルタイムに精度97%で話者認識ができるVDQore(ブイディーコア)のAPI提供を開始したとのこと。

活用事例

  • 議事録システム:Webや対面会議おいて、参加者の発言内容を正確に可視化させ、業務効率の向上
  • コールセンター:お客様との会話において、問い合わせ内容を正確に把握したり、対応方法の改善抽出
  • AIスピーカー:家族で集まるリビングにおいて、特定の人物だけの声に反応してAIスピーカーが起動したり、人物毎に反応方法やコンテンツを入れ替える

性能・スペック

  • 音声データ:従来は数分間話し続けた声や人数分の専用マイクが必要だが、VDQoreは自己紹介程度(約10秒)の音声を、一般的なマイク(スマホ・PCのマイク)で利用場面毎に録音するだけで動作し、言語依存も無いため柔軟な利用方法が可能。
  • 登録(学習):従来は音声登録に数分程度(深層学習・LSTM)の時間が必要だが、VDQoreは約2秒(AWSマイクロインスタンス利用)で行えるため、用途に合わせて一瞬で登録が行える。
  • 動作:REST API方式で接続し、精度97%で話者認識を実行可能

プレスリリース本文

この記事が良かったらシェア!