音声言語データベース
ATR音声翻訳研究において作成され、音声認識、音声合成、対話システムのほか音声分析、話者認証など多様な用途に対応可能な高品質データセットです。
1987年のリリース開始以来、大学、研究機関の基礎研究から、AI音声翻訳などの実用製品サービスまで豊富な利用実績を重ねています。
最新リリース
製品別情報
●音声データベース
●テキストデータベース
製品詳細 =48kHzサンプリング音声
音声データベース 日本語
- ATR503音声データベース48k
- ATR-MOBILE503音声データベース
- ATR多数話者音声データベース APP/APPBLA/APPDIC
- ATR高齢者日本語音声データベース
- ATR子供日本語音声データベース
- ATRデジタル音声データベース セットA/B/C/D/F
- ATR自然発話音声データベース SDB
音声データベース 英語
- ATR地域別英語音声データベース
- ATR米国英語音声データベース
- ATR日本人話者英語音声データベース
- ATR非母語話者英語音声データベース
- ATR出生国別英語音声データベース
- ATRECSS音声合成英語データベース
音声データベース 中国語
音声データベース 多言語
- ATR自然発話音声・言語データベース SLDB(日英対話)
- ATRMADE日英・日中対話音声データベース
- ATR多言語音声データベース(カナダフランス語/米国スペイン語/ドイツ語/フランス語)
- ATR音声データベース多言語評価セット(日本語/英語/中国語/インドネシア語/タイ語/台湾華語/ヒンディ語) ※インドネシア語・タイ語・台湾華語・ヒンディ語
テキストデータベース
- ATR音素バランス503文テキスト
- ATR電話・キーボード対話テキストデータベース
- ATR会話表現テキストデータベース
- ATR音素バランス216単語テキスト
- ATR英語音素バランス200文テキスト
- ATR最重要語520単語テキスト
※ 構成サンプルは音声サンプル以外をPDF化して掲載しています。(2020年1月)
※ 一部データベース名を変更しました。(2020年5月)
※ 詳細仕様書を更新しました。(2020年5月)
※ 「ATR音素バランス文(503文)」「ATR音素バランス単語(216語)」「ATR英語音素バランス文(200文)」を公開しました。(2020年11月)
製 品
ATRデジタル音声データベース
多数の発話のプロが、文、単語等定型の内容を発話した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。
音声認識の目標は、大語彙でしかも不特定多数の話者が発話した音声を認識することですが、そのためには多数の話者が発話した多種類の音声データが必要です。また、音声認識に限らず、音声合成、音声知覚、音声分析や個人性など、音声の基礎的研究を進めるためにも多数の話者が発話した多種類の音声データが必要です。
ATRの音声データベースは単に音声データの収録だけでなく、音韻ラベルと呼ばれる情報を付与することにより研究の効率を飛躍的に向上させています。
※セットA、B、D、Fのタイトルを変更しました。(2019年8月)
セットA
タイトル数 | ||
---|---|---|
全20タイトル(1タイトルにつき1話者の発話を収録) (全発話者数:男性10名、女性10名) |
||
内訳 | 男性アナウンサー | 8タイトル |
男性ナレーター | 2タイトル | |
女性アナウンサー | 8タイトル | |
女性ナレーター | 2タイトル |
セットB
新聞、雑誌、小説、手紙、教科書等の文献から無作為に抽出した約1万文をもとに、
音素環境(注)をバランスさせて作成した「ATR音素バランス503文」音声を収録し
た日本語音声データベース。詳細な音素セグメントラベル(ラベルデータ)と、
言語・韻律情報(一部)が付与されています。
(注)2音素連鎖402 種類、3音素連鎖223 種類の合計625 種類
タイトル数 | ||
---|---|---|
10(話者単位) | ||
内訳 | 男性アナウンサー | 3タイトル |
男性ナレーター | 3タイトル | |
女性アナウンサー | 1タイトル | |
女性ナレーター | 3タイトル |
セットC
新明解国語辞典(第2版、三省堂出版)に所載されている重要単語(5,240単語)から抽出した最重要単語(520単語)、 音素連鎖バランス単語(216単語)、数字(15語)、音素環境をバランスさせて作成した503文(音素バランス文)が収録されており、 発話・発話された音声には詳細な音声セグメントラベルが付与されています。
タイトル数 | ||
---|---|---|
全84タイトル(1タイトルにつき20話者の発話を収録) (全発話者数:男性137名、女性138名) |
||
内訳 | 男性話者 | 42タイトル |
女性話者 | 42タイトル | |
※1タイトルごとの詳しい内容な詳細仕様をご参照ください。 |
セットD
中学校の教科書やNHKテレビ教材等から選んだ12の小論文(約400文)を朗読したものを収録しています。 詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。音声合成の研究を目的としたデータベースです。
タイトル数 | ||
---|---|---|
全2タイトル(1タイトルにつき1話者の発話を収録) (全発話者数:男性1名、女性1名) |
||
内訳 | 男性アナウンサー | 1タイトル |
女性アナウンサー | 1タイトル |
セットF
音素環境をバランスさせて作成した503文(音素バランス文)、比較的よく用いられる外来音節等を含む文(19文)、 音声翻訳システム評価用に作成した機能試験文(600文)が収録されており、発話・発話された音声には 音声セグメントラベルが付与されています。音声認識・音声翻訳の評価実験を目的としたデータベースです。
タイトル数 | ||
---|---|---|
全6タイトル(1タイトルにつき1話者の発話を収録) (全発話者数:男性3名、女性3名) |
||
内訳 | 男性ナレーター | 3タイトル |
女性ナレーター | 3タイトル |
ATR多数話者音声データベース
ATR多数話者音声データベースは、不特定話者を対象とした自然な発話による連続音声認識技術の性能向上を目的に、 日本人同士の模擬会話を収録した音声データベースです。日本の各地で約3,700人の話者による模擬会話を収録しました。 話者の出身地は47都道府県すべてをカバーし、年齢は14歳から65歳にわたっています。地域的、年齢的な広がりを考慮して 設計された大規模な音声データベースです。不特定話者に関する音声認識研究に最適な音声データベースです。
APP(模擬会話)
日本語話者二人が非対面で、会議等のスケジュールを決定するため、異なる会社の社員が電話を通して会話をしているという設定のもと、 話者が自由な発話表現で対話を行なう模擬会話を収録しています。自然発話特有の間投詞、言い淀みも含んでいます。
タイトル数 | ||
---|---|---|
全4タイトル(全話者数:3,772名) |
||
内訳 | ※詳しい内容は詳細仕様をご参照ください。 |
APPBLA(ATR音素バランス文)
模擬会話の収録に参加した話者が、音素環境をバランスさせて作成した503文(ATR音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発話したものを収録しています。
タイトル数 | ||
---|---|---|
全4タイトル(全話者数:3,772名) (内訳:男性1,379名、女性2,393名) |
||
内訳 | ※詳しい内容は詳細仕様をご参照ください。 |
APPDIC(辞書)
模擬会話の収録に参加した話者が、国語辞典・地名辞典・外来語辞典などから抜粋された文章(4文章)や単語(5単語)を 発話したものを収録しています。発話内容は原則的に話者ごとに異なっているので、全てのデータを合わせると広範囲の音素環境を カバーした大語彙の音声データベースとなります。
タイトル数 | ||
---|---|---|
1タイトル(話者数:3,775名) (内訳:男性1,382名、女性2,393名) |
||
内訳 | ※詳しい内容は詳細仕様をご参照ください。 |
ATR自然発話音声データベース SDB
音声研究においては、単語や文音声に関する音声データベースの作成が行なわれてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者による、日本語の模擬会話を収録しています。
SDB
日本語話者二人が非対面で、ホテルの予約、サービスに関する問い合わせ等、主にホテルのフロント係と 顧客の電話を通した会話という設定のもと、話者が自由な発話表現で対話を行なう模擬会話を収録しています。 また、各話者が音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発話したものもあわせて収録しています。音声認識の研究にご活用いただけます。
ATR自然発話音声・言語データベース SLDB(日英対話)
音声研究における音声データベースについては、単語や文音声に関する作成が行われてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者と英語話者による、日英対訳の模擬会話を収録しています。
SLDB
日本語話者と英語話者の二人が非対面で、お互いの言語は理解しないものとし、ホテルの予約、サービスに関する問い合わせ等、 主にホテルのフロント係と顧客が通訳機能の付いた電話を介したという設定のもと、話者が自由な発話表現で対話を行なう 日英対訳の模擬会話を収録しています。また各話者が、音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発話したものもあわせて収録しています。音声認識・言語翻訳の研究にご活用いただけます。
タイトル数 | ||
---|---|---|
1タイトル (70話者の話者の発話を収録) |
||
内訳 | ※詳しい内容は詳細仕様をご参照ください。 |
ATR高齢者日本語音声データベース
話者の多様性、とくに高齢者音声に頑健な音声認識システムを実現するために 作成された日本語音声データベースです。60歳から84歳までの日本人高齢者の 日本語読み上げ音声、および発話文テキストにより構成されています。
話者数 | ||
---|---|---|
100名(男性:50名、女性50名) | ||
発話内容 | ||
ATR音素バランス503文(ATR503文) 旅行/日常会話文 |
ATR子供日本語音声データベース
日本語を母語とする6歳~9歳(小学校低学年)と9歳~13歳(小学校高学年)の子供に、 あらかじめ準備した絵本等の台詞を読み上げてもらい、その音声をスマートフォンで収録したデータベースです。
タイトル数 | ||
---|---|---|
フルセットとサブセット9タイトルの計10タイトル(全発話者数:男子175名、女子236名) | ||
内訳 | ※詳しい内容はパンフレット、サブセット仕様をご参照ください。 |
ATR地域別英語音声データベース
ATR地域別英語音声データベースは、英語圏6地域(米国北東部/中西部/西部/南部、イギリス、オーストラリア)の男女比と年齢分布をバランスさせた母語話者による英語発話を収録しています。 各話者毎に、旅行会話文や音素バランス文などの「読み上げ発話」音声と、話者の旅行体験談等の「自然発話」音声があります。
タイトル数 | ||
---|---|---|
フルセットとサブセット64タイトルの計65タイトル(全発話者数:男性200名、女性200名) | ||
内訳 | ※詳しい内容はパンフレット、サブセット仕様をご参照ください。 |
ATR米国英語音声データベース
アメリカ英語を母語とする男女あわせて170名による、旅行分野の読み上げ音声を収録した音声データベースです。対応する原稿データも含まれています。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性84名、女性86名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
ATR日本人話者英語音声データベース
2人の日本人話者が、英語で会話を行う発話音声を収録した音声データベースです。 発発話内容は、旅行会話に関する会話で、ホテルの予約、ショッピングなどです。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性47名、女性43名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
ATR非母語話者英語音声データベース
英語を母語としない中国、フランス、ドイツ、インドネシア、日本などの出身話者96名による英語発話(Non-Native English Speech)を 収録した音声データベースです。グローバル化の進展によって英語圏以外の多くの人々が英語を話すようになってきています。 このような背景のもと、非母語話者を含めた多様な英語音声認識の研究にご利用下さい。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性80名、女性16名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
構成 |
---|
音声データ(母語:ドイツ)(サンプル 数字) (サンプル 音素バランス文) |
書き起こしデータ(サンプル 数字) (サンプル 音素バランス文) |
原稿データ(抜粋)(サンプル 数字) (サンプル 音素バランス文) |
ATR出生国別英語音声データベース
ATR出生国別英語音声データベースは、多様な出生国の話者40名による英語発話を収録した音声データベースです。 話者の出生国は10か国あり、各国につき4名(男性2名、女性2名)が数字、コマンド文、短文を読み上げています。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性20名、女性20名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
ATRECSS音声合成英語データベース
ATRECSS (ATR English speech Corpus for Speech Synthesis)は、ATRで開発されたコーパスベース音声合成向けの英語音声データベースです。
米国英語男性話者1名による音声データベースで、ニュース記事、旅行会話、小説 (diphone、traiphoneのバランスを取ったもの)を発話しています。
発話された音声には英語発話テキストが付与されています。製品には「ATRECSS-08」の8時間サブセットと「ATRECSS-12」の12時間サブセットがあります。
ATRECSS-08は、Blizzard Challenge 2007 [1](共通コーパスによる音声合成システムの比較評価)において共通コーパスとして用いられました。
[1]参考サイト "The Blizzard Challenge " 2007
タイトル数 | ||
---|---|---|
全2タイトル(全発話者数:米国人男性プロフェッショナルナレーター1名) | ||
内訳 | ※詳しい内容は詳細仕様をご参照ください。 |
ATR地域別中国語音声データベースI
ATR地域別中国語音声データベースは、中国語を話す4地域(北京/広東/上海/台湾)の男女比と年齢分布をバランスさせた母語話者による中国語発話を収録しています。 各話者毎に、旅行会話文や音素バランス文などの「読み上げ発話」音声と、話者の旅行体験談等の「自然発話」音声があります。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性200名、女性200名)※サブセットをご希望の場合はご連絡下さい。 | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
ATR地域別中国語音声データベースⅡ
中国語話者の居住地域多様性をカバーするため、おもに中国沿岸部を南北に網羅した地域の 中国語母語話者による標準中国語(普通話)を収録した音声データベースです。
タイトル数 | ||
---|---|---|
フルセットとサブセット11タイトルの計12タイトル(全発話者数:男性750名、女性750名) | ||
内訳 | ※詳しい内容はパンフレット、サブセット仕様をご参照ください。 |
ATRMADE日英・日中対話音声データベース
ATRMADE(エイティーアールメイド)は、音声翻訳システムを使用した模擬対話データベースです。 あらかじめ対話を行う場面や役割を設定し、異なる言語を話す話者同士が自由に発話する音声を収録しています。 日英対話と日中対話があり、収録時期によりタイピストまたは音声認識システムを使用してデータを収集しています。
発話音声と発話テキストで音声認識の研究に、発話テキストと翻訳データで翻訳研究にご利用いただけます。
対話サンプルページ(日英対話:空港で荷物の問い合わせをする対話)
※対話サンプルページで、音声データをご試聴いただけます。
ATR多言語音声データベース
(カナダフランス語/米国スペイン語/ドイツ語/フランス語)
各言語地域在住の母語話者による音声認識開発/評価用の読み上げ音声データベースです。 カナダフランス語、米国スペイン語、ドイツ語、フランス語があります。特にカナダフランス語(主にカナダケベック州在住話者)、 米国スペイン語(スペイン語を母語とする米国在住話者)は多文化共生社会の多様な言語状況に対応する音声データベースといえます。 いずれも、音素バランス文、音素バランス単語、固有名詞、各種数字、ハンズフリー用コマンドを読み上げています。
カナダフランス語
カナダ(主にケベック州)で話されているフランス語(カナダフランス語)母語話者の音声を収録した音声データベースです。 出身地域分布に偏りなく多数の母語話者を確保するため、カナダ現地で収録しました。 音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。 さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性99名、女性101名) |
||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
米国スペイン語
米国在住のスペイン語圏からの移住者によって話されるスペイン語(米国スペイン語)母語話者の音声を収録した音声データベースです。 出身地域分布に偏りなく多数の母語話者を確保するため、米国現地で収録しました。 音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。 さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性99名、女性102名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
ドイツ語
ドイツで話されているドイツ語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、 ドイツで収録を行いました。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性102名、女性107名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
フランス語
フランス共和国で話されているフランス語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、 フランスで収録を行いました。音声データの他に、発話文、書き起こしデータ、ならびに書き起こしデータから作成した発音辞書も含まれています。
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性102名、女性104名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
ATR音声データベース多言語評価セット
(日本語/英語/中国語/インドネシア語/タイ語/台湾華語/ヒンディ語)
音声認識評価用の音声データベースです。旅行分野の発話文セットを各言語で男女約40名が読み上げています。 言語は、日本語・英語・中国語・インドネシア語・タイ語・台湾華語・ヒンディ語の7言語です。
日本語
英語
中国語
インドネシア語
タイ語
台湾華語
ヒンディ語
タイトル数 | ||
---|---|---|
1タイトル(発話者数:男性28名、女性23名) | ||
内訳 | ※詳しい内容はパンフレットをご参照ください。 |
ATR電話・キーボード対話テキストデータベース
電話およびキーボードを用いて、国際会議事務局や旅行代理店との連絡など、目的を持った対話を収集しています。 日本語話者二人の日日対話と、通訳者を介した日本語話者と英語話者の日英対話を収集しており、あとから英訳・和訳することでそれぞれの言語での対訳データを作成しました。 国際会議の申し込みに関する参加者と事務局の対話、旅行に関する旅行会社と客との対話の2種類の内容のテキストデータがあります。
電話対話
電話を通しての対話を収集し、書き起こしたテキストデータです。
話し言葉で対話が進むため、間投詞や言い淀みも含みます。
タイトル数 | ||
---|---|---|
2タイトル | ||
内訳 | 国際会議(電話) | |
旅行(電話) |
キーボード対話
キーボードに入力した内容を送信することで対話を行っています。送信キーを押す前であれば入力の訂正が可能なため、間投詞や言い淀みが含まれません。
タイトル数 | ||
---|---|---|
2タイトル | ||
内訳 | 国際会議(キーボード) | |
旅行(キーボード) |
ATR会話表現テキストデータベース
ATR会話表現データベースは、模擬会話と会話表現集からなります。
模擬会話
模擬会話は、実際に模擬会話を行いその会話を書き起こしたものです。会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。
データは収集方法により3つに分類しています。
日本語モノリンガル会話
通訳者を介さず、日本語話者により会話を行ない、後から英語の翻訳を付与する方法で収集された会話です。
英語モノリンガル会話
通訳者を介さず、英語話者により会話を行ない、後から日本語の翻訳を付与する方法で収集された会話です。
日英バイリンガル会話
日本語と英語の2言語間の会話を、1発話ごとに通訳者を介しながら、日本語話者、日英通訳者、英語話者、英日通訳者の4者で会話を行なう方法で収集された会話です。
タイトル数 | ||
---|---|---|
1タイトル |
会話表現集
会話表現集は、模擬的会話を収集したものではなく、机上で典型的と想定される会話表現を集めて翻訳したものです。 収集した会話表現は、同じトピックの表現を500ずつ集めてファイル単位としています。連続する会話を構成しているのではなく、 会話表現を列挙したものです。会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。
タイトル数 | ||
---|---|---|
1タイトル |
ATR音素バランス503文テキスト
日本語の音素連鎖(*)の出現バランスがとれた文セットである「ATR音素バランス503文」は(株)国際電気基礎技術研究所(ATR)の音声翻訳研究成果であり、「ATR503文」としてひろく知られ音声処理研究・開発の標準データとして活用されています。
ATR音素バランス503文はAセットからJセットまで各50文単位(Jセットのみ53文)で構成されています。各セット50文(または53文)単位でも音素バランスが取れるよう文を選択しています。
(*)2音素連鎖402 種類、3音素連鎖223 種類の合計625 種類
●データ構成
全文テキストデータ サンプル
連続発話リスト サンプル
文節区切り発話リスト サンプル
●価格
商用利用 ¥200,000(税別) アカデミック利用 ¥50,000(税別)
●詳細情報
ATR音素バランス216単語テキスト
ATR音素バランス216単語(ATR216語)は2モーラ以上の216単語で構成され、可能な2音素連鎖をすべて含む日本語単語テキストデータベースです。 (株)国際電気基礎技術研究所(ATR)の音声翻訳研究において音声データベース構築用に作成され、現在は、「ATR216語」としてひろく知られ音声処理研究・開発の標準データとして 活用されています。
●データ構成
●価格
商用利用 ¥40,000(税別) アカデミック利用 ¥10,000(税別)
●詳細情報
ATR英語音素バランス200文テキスト
英語で許容されるすべての半音節(demi-syllable)をカバーするように構成された英語の文セットです。 半音節は必須母音核と等しくなりますが、数個の子音が先行するもの、数個の子音が後続するものを含みます。 先行する子音は最大3個、後続する子音は最大4個です。 200文内には、すべての起こりうる半音節が少なくとも1回は含まれています。 英語の読み上げ原稿としてご利用下さい。
タイトル数 | ||
---|---|---|
1タイトル |
構成 |
---|
英語テキスト(サンプル) |
ATR最重要520単語テキスト
AI音声翻訳技術の母体となったATR自動翻訳電話研究の成果である「ATRデジタル音声データベースセットA」は国語辞典から抽出した 日常よく使われる単語5240単語を発話セットとしました。その5240単語から最重要単語として選択されたのが「ATR最重要語520単語テキスト」です。
●データ構成
●価格
商用利用 ¥80,000(税別) アカデミック利用 ¥20,000(税別)