ATR503音声データベース48k
本データベースは、サンプリング周波数48kHzで高精細化したATR音素バランス503文(ATR503文)音声データベースです。
「ATR自然発話音声データベースSDB」および「ATR自然発話音声・言語データベースSLDB」に収録されていた503文音声を統合し、DAT(Digital Audio Tape)収録の48kHz原音をそのまま活かして再構成しました。
統合により、総計537名(男性212名/女性325名)による大規模コーパス を構築しており、話者の多様性がモデルの安定性・汎用性を高めます。
話者の多様性により、学習モデルの安定性・汎用性が高まるほか、企業・研究・大学機関における大規模実験や比較評価にも適した構成となっています。
さらに、ATR503文が持つ音素バランス性に加え、48kHzの高精細音声と大規模話者数を組み合わせることで、ASR・TTS・VUI開発など、幅広い音声AI用途で高い性能向上が期待できるデータベース です。
加えて本データベースでは、DAT収録の48kHz高精細音源を活かすことで、従来の16kHzでは捉えきれなかった 子音の鋭さ、語尾の細やかな揺らぎ、息づかい といった、音声AIの性能向上に直結する重要な情報を保持しています。
そのため、以下のような効果が期待できます。
●ASR(音声認識)の精度向上
●TTS(音声合成)の自然性向上
●VUI開発の品質向上
●学習データ生成のベースライン強化
これらの特長により、本データベースは音声AI開発に欠かせない“高精細ベースラインデータ”として、企業・研究機関・大学で幅広くご活用いただいています。

同一ファイルのスペクトログラム比較
上段:48kHz
下段:16kHz
仕様ピックアップ
●発話タスク ATR音素バランス503文
●話者数(男/女別) 537名(212名/325名)
●総発話時間長(男/女別) 41.1時間(15.7/25.4)
●総発話数(男/女別) 32,325(12,348/19,977)
データ構成
男性 女性
48k音声データ :WAV形式(48kHz,16bit,MONO) サンプル サンプル
ラベルデータ :書き起こし音素列,発話区間時刻 サンプル サンプル
収録情報データ:収録要件情報 サンプル サンプル
価格
商用利用 ¥2,000,000(税別)



