製品

■ 音声合成・音源関連

ATR音声データベース

<インデックス>

デジタル音声データベース
自然発話データベース
自然発話音声・言語データベース
多数話者データベース
ATRECSS 合成用英語音声コーパス
電話・キーボード対話データベース
会話表現データベース

概要


 ATRの音声・対訳テキストデータは、多数の話者が発声した多種類の音声データベースから構成されています。

1987年の発売以来、多くの研究機関でご活用いただいています。

また、目的を持った対話を想定し日本語と英語の対応する会話を収めたテキストデータベースも、1992年の発売以来、自然言語処理などの研究に利用されています。


メディア形式:CD-ROM(ISO9660標準フォーマット)
ファイル形式:UNIX形式、Windows形式をご指定いただけます。
価格:各詳細仕様をご覧ください。 見積もり依頼フォーム
※アカデミック価格についてはお問い合わせください。

デジタル音声データベース

多数の発声のプロが、文、単語等定型の内容を発声した音声データベースです。

日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。

音声認識の目標は、大語彙でしかも不特定多数の話者が発声した音声を認識することですが、そのためには多数の話者が発声した多種類の音声データが必要です。また、音声認識に限らず、音声合成、音声知覚、音声分析や個人性など、音声の基礎的研究を進めるためにも多数の話者が発声した多種類の音声データが必要です。

ATRの音声データベースは単に音声データの収集だけでなく、音韻ラベルと呼ばれる情報を付与することにより研究の効率を飛躍的に向上させています。

セットA
タイトル数

全20タイトル(1タイトルにつき1話者の発声を収録)

<全発声者数:男性10名、女性10名>

内訳

男性アナウンサー

8タイトル

男性ナレータ

2タイトル

女性アナウンサー

8タイトル

女性ナレータ

2タイトル

構成

デジタル音声波形データ(サンプル

セグメントラベルデータ(サンプル

 

詳細仕様(PDFファイル)

 

セットB

新聞、雑誌、小説、手紙、教科書等の文献から無作為に抽出した約1万の文をもとに、 音素環境をバランスさせて作成した503文(音素バランス文)が収録されており、 発声・発話された音声には詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。

タイトル数

全20タイトル(1タイトルにつき1話者の発声を収録)

<全発声者数:男性6名、女性4名>

内訳

男性アナウンサー

3タイトル

男性ナレータ

3タイトル

女性アナウンサー

1タイトル

女性ナレータ

3タイトル

構成

デジタル音声波形データ(サンプル

セグメントラベルデータ(サンプル

基本周波数データ

言語韻律情報データ(サンプル

 

詳細仕様(PDFファイル)

セットC

新明解国語辞典(第2版、三省堂出版)に所載されている重要単語(5,240単語)から抽出した最重要単語(520単語)、 音素連鎖バランス単語(216単語)、数字(15語)、音素環境をバランスさせて作成した503文(音素バランス文)が収録されており、 発声・発話された音声には詳細な音声セグメントラベルが付与されています。

タイトル数

全84タイトル(1タイトルにつき20話者の発声を収録)

<全発声者数:男性148名、女性143名>

内訳

男性話者

42タイトル

女性話者

42タイトル

※1タイトルごとの詳しい内容な詳細仕様をご参照ください。

構成

デジタル音声波形データ(サンプル

セグメントラベルデータ(サンプル

トランスクリプションデータ(サンプル

 

詳細仕様(PDFファイル)

セットD

中学校の教科書やNHKテレビ教材等から選んだ12の小論文(約400文)を朗読したものを収録しています。 詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。音声合成の研究を目的としたデータベースです。

タイトル数

全2タイトル(1タイトルにつき1話者の発声を収録)

<全発声者数:男性1名、女性1名>

内訳

男性アナウンサー

1タイトル

女性アナウンサー

1タイトル

構成

デジタル音声波形データ(サンプル

セグメントラベルデータ(サンプル

言語・韻律情報データ(サンプル

 

詳細仕様(PDFファイル)

セットF

音素環境をバランスさせて作成した503文(音素バランス文)、比較的よく用いられる外来音節等を含む文(19文)、 音声翻訳システム評価用に作成した機能試験文(600文)が収録されており、発声・発話された音声には 音声セグメントラベルが付与されています。音声認識・音声翻訳の評価実験を目的としたデータベースです。

タイトル数

全4タイトル(1タイトルにつき1話者の発声を収録)

<全発声者数:男性3名、女性3名>

内訳

男性ナレータ

3タイトル

女性ナレータ

3タイトル

構成

デジタル音声波形データ(サンプル

セグメントラベルデータ(サンプル

 

詳細仕様(PDFファイル)

 

 

自然発話音声データベース

音声研究においては、単語や文音声に関する音声データベースの作成が行なわれてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者による、日本語の模擬会話を収録しています。

SDB

日本語話者二人が非対面で、ホテルの予約、サービスに関する問い合わせ等、主にホテルのフロント係と 顧客の電話を通した会話という設定のもと、話者が自由な発話表現で対話を行なう模擬会話を収録しています。 また、各話者が音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発声したものもあわせて収録しています。音声認識の研究にご活用いただけます。

 

タイトル数

全1タイトル(70話者の発声を収録)

<全発声者数:男性3名、女性3名>

内訳

※詳しい内容は詳細仕様をご参照ください。

構成

デジタル音声波形データ(サンプル

時刻情報付音素単位書き起こしデータ(サンプル

日本語書き起こしデータ(サンプル

形態素情報データ(サンプル

収録情報データ(サンプル

付録:音素バランス文テキストファイル

 

詳細仕様(PDFファイル)

 

自然発話音声・言語データベース(日英対訳)

音声研究における音声データベースについては、単語や文音声に関する作成が行われてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者と英語話者による、日英対訳の模擬会話を収録しています。

SLDB

日本語話者と英語話者の二人が非対面で、お互いの言語は理解しないものとし、ホテルの予約、サービスに関する問い合わせ等、 主にホテルのフロント係と顧客が通訳機能の付いた電話を介したという設定のもと、話者が自由な発話表現で対話を行なう 日英対訳の模擬会話を収録しています。また各話者が、音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発声したものもあわせて収録しています。音声認識・言語翻訳の研究にご活用いただけます。

 

タイトル数

全1タイトル(70話者の発声を収録)

<全発声者数:男性3名、女性3名>

内訳

※詳しい内容は詳細仕様をご参照ください。

構成

デジタル音声波形データ(サンプル1)(サンプル2

時刻情報付音素単位書き起こしデータ(サンプル

日本語書き起こしデータ(サンプル

英語書き起こしデータ(サンプル

英語・日本語書き起こしデータ(サンプル

日本語構文解析データ(サンプル

形態素情報データ(サンプル

収録情報データ(サンプル

 

詳細仕様(PDFファイル)

多数話者データベース

多数話者音声データベースは、不特定話者を対象とした自然な発話による連続音声認識技術の性能向上を目的に、 日本人同士の模擬会話を収録した音声データベースです。日本の各地で約3,700人の話者による模擬会話を収録しました。 話者の出身地は47都道府県すべてをカバーし、年齢は14歳から65歳にわたっています。地域的、年齢的な広がりを考慮して 設計された大規模な音声データベースです。不特定話者に関する音声認識研究に最適な音声データベースです。

APP(模擬会話)

日本語話者二人が非対面で、会議等のスケジュールを決定するため、異なる会社の社員が電話を通して会話をしているという設定のもと、 話者が自由な発話表現で対話を行なう模擬会話を収録しています。自然発話特有の間投詞、言い淀みも含んでいます。

 

タイトル数

全4タイトル(全発声者数:男性1,381名、女性2,390名)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成

デジタル音声波形データ(サンプル

時刻情報付き音素単位書き起こしデータ(サンプル

日本語書き起こしデータ(サンプル

形態素情報データ(サンプル

収録情報データ(サンプル

 

詳細仕様(PDFファイル)

APP-BLA(音素バランス文)

模擬会話の収録に参加した話者が、音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発声したものを収録しています。

 

タイトル数

全4タイトル(全発声者数:男性1,379名、女性2,391名)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成

デジタル音声波形データ(サンプル

時刻情報付き音素単位書き起こしデータ(サンプル

収録情報データ(サンプル

付録:音素バランス文テキストファイル

 

詳細仕様(PDFファイル)

APP-DIC(辞書)

模擬会話の収録に参加した話者が、国語辞典・地名辞典・外来語辞典などから抜粋された文章(4文章)や単語(5単語)を 発声したものを収録しています。発声内容は原則的に話者ごとに異なっているので、全てのデータを合わせると広範囲の音素環境を カバーした大語彙の音声データベースとなります。

 

タイトル数

全4タイトル(全発声者数:男性1,381名、女性2,389名)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成

デジタル音声波形データ(サンプル

時刻情報付き音素単位書き起こしデータ(サンプル

収録情報データ(サンプル

辞書テキストデータ(サンプル

 

詳細仕様(PDFファイル)

 

ATRECSS 合成用英語音声コーパス

ATRECSS (ATR English speech Corpus for Speech Synthesis)*1 は、ATRで開発されたコーパスベース音声合成向けの英語音声データベースです。 米国英語男性話者1名による音声データベースで、ニュース記事、旅行会話、小説 (diphone、traiphoneのバランスを取ったもの)を発声しています。 発声された音声には英語発話テキストが付与されています。製品には「ATRECSS-8」の8時間サブセットと「ATRECSS-12」の12時間サブセットがあります。

ATRECSS

米国人男性話者による読み上げ発声を収録しています。 ATRECSS-8は、Blizzard Challenge 2007 *2 (共通コーパスによる音声合成システムの比較評価)において共通コーパスとして用いられました。

 

タイトル数

全2タイトル(発声者数:米国人男性プロフェッショナルナレータ1名)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成

デジタル音声波形データ

サンプル 小説1) (サンプル 小説2

英語テキストデータ

サンプル 小説1) (サンプル 小説2)

デジタル音声データ

サンプル旅行会話1) (サンプル旅行会話2

英語テキストデータ

サンプル旅行会話1) (サンプル旅行会話2

デジタル音声データ

サンプルNEWS1) (サンプルNEWS2

英語テキストデータ

サンプルNEWS1) (サンプルNEWS2

 

詳細仕様(PDFファイル)

 

電話・キーボード対話データベース

話し言葉の翻訳システムを構築するためには、話し言葉の特徴に関する基礎的な分析が必要です。 各種の調査や分析のためにデータベースを構築する場合、その利用目的を考慮し、系統立てた収集を行なう必要があります。 対話データベースは、国際会議事務局や旅行代理店との連絡など、目的を持った対話を収録しています。 日本語と英語の対応する会話を収めたバイリンガルなテキストデータベースです。延べ100万語のデータを収録しています。

 

電話・キーボード対話データベースは以下の事前分析を行っています。

・各種言語単位(単語、文節、文など)への分割

・単語の各種属性(品詞、標準標記)、語形情報(活用形、時刻、格、単複等)

・日本語・英語対応関係

・単語の係り受け関係(日本語のみ)

※すべてのテキストデータには上記の言語情報が付与されています。

電話対話

電話を通しての会話を収録しています。間投詞や言い淀みも含みます。 日本語話者二人の対話を収録し、あとから英訳することで日英対訳データを作成しました。 国際会議の申し込みに関する参加者と事務局の対話、旅行に関する旅行会社と客との対話の2種類の内容を収録しています。

 

文字化したい対話データ例

事務局:

もしもし、こちら国際コンピューター会議事務局でございます。

質問者:

もしもし、[あー]ちょっと今回の会議についてお尋ね(申したいんですが)申し上げたいんですが。

[えー]実はですね、[あのー]私のところにファーストアナウンスメントが(こないだ送っ)[えー]こないだと言いますか、 大分前に送られて来て、[まあ]検討しておったんですが、[えー]そちらの方にですね、[まぁ]一応参加の意向で考えておるところでございます。

それでですね、[あのー、まあ]参加の方法と申しますか、[あのー]ちょっと値段のことも合わせてお聞きしたいんでございますけれども。

事務局:

[あっ]はい、[えー]参加登録料の方ですけれども、[え]こちらの方は一般参加者の(こと)方は八万五千円、あと国公立大学、研究所、 そちらの関係の方は五万円というふうになっております。

質問者:

[えー、す]実はそのことなんですけれどもね、[えー]ほかに、[あのー]特別な料金セットはないんでしょうか。 ・・・・・

 

詳細仕様(PDFファイル)

キーボード対話

電話を通しての会話と類似していますが、より計算機処理が行ないやすいものになっています。間投詞や言い淀みを含みません。 日本語話者二人の対話を収録し、あとから英訳することで日英対訳データを作成しました。 国際会議の申し込みに関する参加者と事務局の対話、旅行に関する旅行会社と客との対話の2種類の内容を収録しています。

 

文字化した対話データ例(旅行:日本語)

担当者:

はい、JTB海外旅行支店でございます。

申込者:

外国へいきたいんでちょっとお尋ねします。

担当者:

はい、どのようなことでしょうか。

申込者:

来年のゴールデンウィークにアメリカに行きたいんですが。

担当者:

アメリカはどちらの方でしょうか。

・・・・・

 

文字化した対話データ例(旅行:英語対訳)

clerk:

Yes, this is JTB.

customer:

I would like to go abroad so I have a few questions.

clerk:

Yes, what can I do for you?

customer:

I want to go to America during Golden Week vacation next year.

clerk:

Where in America do you want to go?

・・・・・

 

詳細仕様(PDFファイル)

会話表現データベース

模擬会話データ

模擬会話データは、実際に模擬会話を行ないその会話を書き起こしたものです。 会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。

データは収録方法により3つに分類しています。

・日日モノリンガル会話

  通訳者を介さず、日本語話者により会話を行ない、後から英語の翻訳を付与する方法で収集された会話です。

・英英モノリンガル会話

  通訳者を介さず、英語話者により会話を行ない、後から日本語の翻訳を付与する方法で収集された会話です。

・日英バイリンガル会話

  日英バイリンガル会話は、日本語と英語の2言語間の会話を、1発声ごとに通訳者を介しながら、

  日本語話者、日英通訳者、英語話者、英日通訳者の4者で会話を行なう方法で収集された会話です。

構成

日英対応テキスト

日本語テキスト

英語テキスト

日本語形態素情報

英語形態素情報


 

 

詳細仕様(PDFファイル)

会話表現集データ

会話表現集データは、模擬的会話を収録したものではなく、机上で典型的と想定される会話表現を集めて翻訳したものです。

収集した会話表現は、同じトピックの表現を500ずつ集めてファイル単位としています。 連続する会話を構成しているのではなく、会話表現を列挙したものです。 会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。

構成

日本語テキスト

英語テキスト

 

 

詳細仕様(PFDファイル)

 

 

 

▼ページの先頭に戻る