Laboro.AI、日本語音声コーパスとして最大規模のTV録画から自動構築した音声コーパスを公開。2,000時間の音声データから構成

株式会社Laboro.AIは、TV録画から長時間音声と字幕テキストを抽出して音声コーパスを自動構築する独自システムを用い、約2,000時間に及ぶ音声データから構築した日本語音声コーパス”LaboroTVSpeech”を開発し、学術研究用に無償公開したと発表。

LaboroTVSpeechは、B-CASカードによるアクセス制限がないワンセグ放送を利用しており、複数ジャンルの計9,142番組のTV録画から抽出した約2,000時間の音声データから構成されている。研究用途として代表的な日本語話し言葉コーパス(CSJ:約600時間)や新聞記事読み上げ音声コーパス(JNAS:約90時間)など、これまで公開されている日本語音声コーパスと比較しても最大規模のもの。Laboro.AI社での比較実験の結果では、LaboroTVSpeechで構築した音声認識モデルが従来の研究用日本語音声コーパスで構築したモデルを凌ぐ誤認識率となり、さらに商用で提供されている主要な他社製クラウド音声認識APIにも匹敵する誤認識率を確認したという。

プレスリリース本文

この記事が良かったらシェア!