音声言語データベース

ATRが保有する音声コーパスを用い、子供から高齢者までの年齢層における音声特性
および最新音声認識モデルによる評価例をご紹介します。

Examples of age-related speech characteristics and automatic speech recognition
performance evaluated using ATR speech corpora.

Evaluation examples using modern ASR models
(OpenAI Whisper Medium)

本グラフは、各年齢層における音声の基本周波数（F0）特性および音声認識性能の傾向を示したものです。 ATR音声データベースを用いて評価を実施しています。

➡詳細はこちら　
　　

製品別情報

●音声データベース

・日本語・英語・中国語・多言語

●テキストデータベース

製品詳細　　　　　　　　　　　　　　　　　＝48kHzサンプリング音声

音声データベース　日本語

※インドネシア語・タイ語・台湾華語・ヒンディ語

テキストデータベース

ATR音素バランス503文テキスト
ATR電話・キーボード対話テキストデータベース
ATR会話表現テキストデータベース
ATR音素バランス216単語テキスト
ATR英語音素バランス200文テキスト
ATR最重要語520単語テキスト

製品

ATRデジタル音声データベース

多数の発話のプロが、文、単語等定型の内容を発話した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。
音声認識の目標は、大語彙でしかも不特定多数の話者が発話した音声を認識することですが、そのためには多数の話者が発話した多種類の音声データが必要です。また、音声認識に限らず、音声合成、音声知覚、音声分析や個人性など、音声の基礎的研究を進めるためにも多数の話者が発話した多種類の音声データが必要です。
ATRの音声データベースは単に音声データの収録だけでなく、音韻ラベルと呼ばれる情報を付与することにより研究の効率を飛躍的に向上させています。

※セットA、B、D、Fのタイトルを変更しました。（2019年8月）

セットA

タイトル数
全20タイトル（1タイトルにつき１話者の発話を収録）（全発話者数：男性10名、女性10名）
内訳	男性アナウンサー	８タイトル
	男性ナレーター	２タイトル
	女性アナウンサー	８タイトル
	女性ナレーター	２タイトル

構成
音声データ（サンプル）
セグメントラベルデータ（サンプル）

詳細製品情報（PDFファイル）

セットB

新聞、雑誌、小説、手紙、教科書等の文献から無作為に抽出した約１万文をもとに、音素環境（注）をバランスさせて作成した「ATR音素バランス503文」音声を収録した日本語音声データベース。詳細な音素セグメントラベル（ラベルデータ）と、言語・韻律情報（一部）が付与されています。
（注）2音素連鎖402 種類、3音素連鎖223 種類の合計625 種類

タイトル数
10（話者単位）
内訳	男性アナウンサー	３タイトル
	男性ナレーター	３タイトル
	女性アナウンサー	１タイトル
	女性ナレーター	３タイトル

構成
音声データ（サンプル）
ラベルデータ（（サンプル）
基本周波数データ
言語・韻律情報データ（サンプル）

詳細製品情報（PDFファイル）

セットC

新明解国語辞典（第2版、三省堂出版）に所載されている重要単語（5,240単語）から抽出した最重要単語（520単語）、音素連鎖バランス単語（216単語）、数字（15語）、音素環境をバランスさせて作成した503文（音素バランス文）が収録されており、発話・発話された音声には詳細な音声セグメントラベルが付与されています。

タイトル数
全84タイトル（1タイトルにつき20話者の発話を収録）（全発話者数：男性137名、女性138名）
内訳	男性話者	４２タイトル
	女性話者	４２タイトル
	※1タイトルごとの詳しい内容な詳細製品情報をご参照ください。

構成
音声データ（サンプル）
セグメントラベルデータ（サンプル）
トランスクリプションデータ（サンプル）

詳細製品情報（PDFファイル）

セットD

中学校の教科書やNHKテレビ教材等から選んだ12の小論文（約400文）を朗読したものを収録しています。詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。音声合成の研究を目的としたデータベースです。

タイトル数
全２タイトル（1タイトルにつき１話者の発話を収録）（全発話者数：男性1名、女性1名）
内訳	男性アナウンサー	１タイトル
女性アナウンサー	１タイトル

タイトル数

全２タイトル（1タイトルにつき１話者の発話を収録）

（全発話者数：男性1名、女性1名）

内訳

男性アナウンサー

１タイトル

女性アナウンサー

１タイトル

構成
音声データ（サンプル）
セグメントラベルデータ（サンプル）
言語・韻律情報データ（サンプル）

詳細製品情報（PDFファイル）

セットF

音素環境をバランスさせて作成した503文（音素バランス文）、比較的よく用いられる外来音節等を含む文（19文）、音声翻訳システム評価用に作成した機能試験文（600文）が収録されており、発話・発話された音声には音声セグメントラベルが付与されています。音声認識・音声翻訳の評価実験を目的としたデータベースです。

タイトル数
全６タイトル（1タイトルにつき１話者の発話を収録）（全発話者数：男性３名、女性３名）
内訳	男性ナレーター	３タイトル
女性ナレーター	３タイトル

タイトル数

全６タイトル（1タイトルにつき１話者の発話を収録）

（全発話者数：男性３名、女性３名）

内訳

男性ナレーター

３タイトル

女性ナレーター

３タイトル

構成
音声データ（サンプル）
セグメントラベルデータ（サンプル）

詳細製品情報（PDFファイル）

ATR多数話者音声データベース

　ATR多数話者音声データベースは、不特定話者を対象とした自然な発話による連続音声認識技術の性能向上を目的に、日本人同士の模擬会話を収録した音声データベースです。
　日本の各地で約3,700人の話者による模擬会話を収録しました。話者の出身地は47都道府県すべてをカバーし、年齢は14歳から65歳にわたっています。地域的、年齢的な広がりを考慮して設計された大規模な音声データベースです。
　不特定話者に関する音声認識研究に最適な音声データベースです。

APP（模擬会話）

日本語話者二人が非対面で、会議等のスケジュールを決定するため、異なる会社の社員が電話を通して会話をしているという設定のもと、話者が自由な発話表現で対話を行なう模擬会話を収録しています。自然発話特有の間投詞、言い淀みも含んでいます。

タイトル数
全４タイトル（全話者数：3,772名）　(内訳：男性1,381名、女性2,391名)
内訳	※詳しい内容は詳細製品情報をご参照ください。

構成
音声データ（サンプル）
時刻情報付き音素単位書き起こしデータ（サンプル）
日本語書き起こしデータ（サンプル）
形態素情報データ（サンプル）
収録情報データ（サンプル）

詳細製品情報（PDFファイル）

APPBLA（ATR音素バランス文）

模擬会話の収録に参加した話者が、音素環境をバランスさせて作成した503文（ATR音素バランス文）のうち1セット（50文）を、息継ぎ位置などを自由に読み上げ発話したものを収録しています。

タイトル数
全４タイトル（全話者数：3,772名）　(内訳：男性1,379名、女性2,393名)
内訳	※詳しい内容は詳細製品情報をご参照ください。

構成
音声データ（サンプル）
時刻情報付き音素単位書き起こしデータ（サンプル）
収録情報データ（サンプル）
付録：音素バランス文テキストファイル

詳細製品情報（PDFファイル）

APPDIC（辞書）

模擬会話の収録に参加した話者が、国語辞典・地名辞典・外来語辞典などから抜粋された文章（4文章）や単語（5単語）を発話したものを収録しています。発話内容は原則的に話者ごとに異なっているので、全てのデータを合わせると広範囲の音素環境をカバーした大語彙の音声データベースとなります。

タイトル数
１タイトル（話者数：3,775名）　(内訳：男性1,382名、女性2,393名)
内訳	※詳しい内容は詳細製品情報をご参照ください。

構成
音声データ（サンプル）
時刻情報付き音素単位書き起こしデータ（サンプル）
収録情報データ（サンプル）
辞書テキストデータ（サンプル）

詳細製品情報（PDFファイル）

ATR自然発話音声データベース　SDB

　音声研究においては、単語や文音声に関する音声データベースの作成が行なわれてきましたが、連続音声認識技術の発展に伴い、自然発話への関心が高まっています。
　本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、旅行会話に関する自然発話の模擬会話データベースです。
　日本語話者による、日本語の模擬会話を収録しています。

SDB

　日本語話者二人が非対面で、ホテルの予約、サービスに関する問い合わせ等、主にホテルのフロント係と顧客の電話を通した会話という設定のもと、話者が自由な発話表現で対話を行なう模擬会話を収録しています。
　また、各話者が音素環境をバランスさせて作成した503文（音素バランス文）のうち1セット（50文）を、息継ぎ位置などを自由に読み上げ発話したものもあわせて収録しています。音声認識の研究にご活用いただけます。

タイトル数
全４タイトル（1タイトルにつき20話者から194話者の異なった話者の発話を収録）
内訳	※詳しい内容は詳細製品情報をご参照ください。

タイトル数

全４タイトル

（1タイトルにつき20話者から194話者の異なった話者の発話を収録）

内訳

※詳しい内容は詳細製品情報をご参照ください。

構成
音声データ（サンプル）
時刻情報付音素単位書き起こしデータ（サンプル）
日本語書き起こしデータ（サンプル）
形態素情報データ（サンプル）
収録情報データ（サンプル）
付録：音素バランス文テキストファイル

詳細製品情報（PDFファイル）

ATR自然発話音声・言語データベース SLDB（日英対話）

　音声研究における音声データベースについては、単語や文音声に関する作成が行われてきましたが、連続音声認識技術の発展に伴い、自然発話への関心が高まっています。
　本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、旅行会話に関する自然発話の模擬会話データベースです。
　日本語話者と英語話者による、日英対訳の模擬会話を収録しています。

SLDB

　日本語話者と英語話者の二人が非対面で、お互いの言語は理解しないものとし、ホテルの予約、サービスに関する問い合わせ等、主にホテルのフロント係と顧客が通訳機能の付いた電話を介したという設定のもと、話者が自由な発話表現で対話を行なう日英対訳の模擬会話を収録しています。
　また各話者が、音素環境をバランスさせて作成した503文（音素バランス文）のうち1セット（50文）を、息継ぎ位置などを自由に読み上げ発話したものもあわせて収録しています。音声認識・言語翻訳の研究にご活用いただけます。

タイトル数
１タイトル（70話者の話者の発話を収録）
内訳	※詳しい内容は詳細製品情報をご参照ください。

構成
音声データ（サンプル１）（サンプル２）
時刻情報付音素単位書き起こしデータ（サンプル）
日本語書き起こしデータ（サンプル）
英語書き起こしデータ（サンプル）
英語・日本語書き起こしデータ（サンプル）
日本語構文解析データ（サンプル）
形態素情報データ（サンプル）
収録情報データ（サンプル）

詳細製品情報（PDFファイル）

ATR高齢者日本語音声データベース

話者の多様性、とくに高齢者音声に頑健な音声認識システムを実現するために作成された日本語音声データベースです。60歳から84歳までの日本人高齢者の日本語読み上げ音声、および発話文テキストにより構成されています。

話者数
100名（男性：50名、女性50名）
発話内容
ATR音素バランス503文(ATR503文）旅行/日常会話文

構成
音声データ（サンプル:ATR503文、旅行/日常会話文）
発話文テキスト（サンプル:ATR503文、旅行/日常会話文）

パンフレット

ATR子供日本語音声データベース

ATR地域別英語音声データベース

　ATR地域別英語音声データベースは、英語圏6地域（米国北東部/中西部/西部/南部、イギリス、オーストラリア）の男女比と年齢分布をバランスさせた母語話者による英語発話を収録しています。
　各話者毎に、旅行会話文や音素バランス文などの「読み上げ発話」音声と、話者の旅行体験談等の「自然発話」音声があります。

タイトル数
フルセットとサブセット64タイトルの計65タイトル（全発話者数：男性200名、女性200名）
内訳	※詳しい内容はパンフレット、詳細製品情報をご参照ください。

構成
「読み上げ発話」音声波形データ（サンプル）
「読み上げ発話」正解データ（サンプル）
「読み上げ発話」原稿データ（サンプル）
「自然発話」音声波形データ（サンプル）
「自然発話」書き起こしデータ（サンプル）
（付録）「読み上げ発話」トランスクリプションデータ（サンプル）

パンフレット

詳細製品情報

ATR米国英語音声データベース

アメリカ英語を母語とする男女あわせて170名による、旅行分野の読み上げ音声を収録した音声データベースです。対応する原稿データも含まれています。

タイトル数
1タイトル（発話者数：男性84名、女性86名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
音声データ（サンプル）
原稿データ（サンプル）

パンフレット

ATR日本人話者英語音声データベース

2人の日本人話者が、英語で会話を行う発話音声を収録した音声データベースです。発発話内容は、旅行会話に関する会話で、ホテルの予約、ショッピングなどです。

タイトル数
1タイトル（発話者数：男性47名、女性43名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
発話内容（1会話）（サンプル）
音声データ(clerk)（サンプル）
音声データ（customer)（サンプル）

パンフレット

ATR非母語話者英語音声データベース

　英語を母語としない中国、フランス、ドイツ、インドネシア、日本などの出身話者96名による英語発話（Non-Native English Speech)を収録した音声データベースです。
　グローバル化の進展によって英語圏以外の多くの人々が英語を話すようになってきています。
　このような背景のもと、非母語話者を含めた多様な英語音声認識の研究にご利用下さい。

タイトル数
1タイトル（発話者数：男性80名、女性16名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
音声データ（母語：ドイツ）（サンプル数字）（サンプル音素バランス文）
書き起こしデータ（サンプル数字）（サンプル音素バランス文）
原稿データ（抜粋）（サンプル数字）（サンプル音素バランス文）

パンフレット

ATR出生国別英語音声データベース

ATR出生国別英語音声データベースは、多様な出生国の話者40名による英語発話を収録した音声データベースです。話者の出生国は10か国あり、各国につき4名（男性2名、女性2名）が数字、コマンド文、短文を読み上げています。

タイトル数
1タイトル（発話者数：男性20名、女性20名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
音声データ（出生国：オーストラリア）（サンプル）
読み上げ原稿データ（サンプル）

パンフレット

ATRECSS音声合成英語データベース

　ATRECSS (ATR English speech Corpus for Speech Synthesis)は、ATRで開発されたコーパスベース音声合成向けの英語音声データベースです。
　米国英語男性話者1名による音声データベースで、ニュース記事、旅行会話、小説 (diphone、traiphoneのバランスを取ったもの)を発話しています。
　発話された音声には英語発話テキストが付与されています。製品には「ATRECSS-08」の8時間サブセットと「ATRECSS-12」の12時間サブセットがあります。
　 ATRECSS-08は、Blizzard Challenge 2007 ^[1](共通コーパスによる音声合成システムの比較評価)において共通コーパスとして用いられました。
[1]参考サイト "The Blizzard Challenge " 2007

タイトル数
全2タイトル（全発話者数：米国人男性プロフェッショナルナレーター1名）
内訳	※詳しい内容は詳細製品情報をご参照ください。

構成
音声データ（サンプル小説1）（サンプル小説2）英語テキストデータ（サンプル小説1）（サンプル小説2）
デジタル音声データ（サンプル旅行会話1）（サンプル旅行会話2）英語テキストデータ（サンプル旅行会話1）（サンプル旅行会話2）
デジタル音声データ（サンプルNEWS1）（サンプルNEWS2）英語テキストデータ（サンプルNEWS1）（サンプルNEWS2）

詳細製品情報（PDFファイル）

ATR地域別中国語音声データベースI

ATR地域別中国語音声データベースは、中国語を話す４地域（北京/広東/上海/台湾）の男女比と年齢分布をバランスさせた母語話者による中国語発話を収録しています。各話者毎に、旅行会話文や音素バランス文などの「読み上げ発話」音声と、話者の旅行体験談等の「自然発話」音声があります。

タイトル数
1タイトル（発話者数：男性200名、女性200名）※サブセットをご希望の場合はご連絡下さい。
内訳	※詳しい内容はパンフレットをご参照ください。

構成
「読み上げ発話」音声データ（サンプル）
「読み上げ発話」読みデータ（サンプル）
「自然発話」音声波形データ（サンプル）

パンフレット

ATR地域別中国語音声データベースⅡ

中国語話者の居住地域多様性をカバーするため、おもに中国沿岸部を南北に網羅した地域の中国語母語話者による標準中国語（普通話）を収録した音声データベースです。

タイトル数
フルセットとサブセット11タイトルの計12タイトル（全発話者数：男性750名、女性750名）
内訳	※詳しい内容はパンフレット、詳細製品情報をご参照ください。

構成
音声データ（サンプル）
書き起こしデータ（サンプル）

パンフレット

詳細製品情報

ATRMADE日英・日中対話音声データベース

ATRMADE（エイティーアールメイド）は、音声翻訳システムを使用した模擬対話データベースです。あらかじめ対話を行う場面や役割を設定し、異なる言語を話す話者同士が自由に発話する音声を収録しています。日英対話と日中対話があり、収録時期によりタイピストまたは音声認識システムを使用してデータを収集しています。

発話音声と発話テキストで音声認識の研究に、発話テキストと翻訳データで翻訳研究にご利用いただけます。

パンフレット

対話サンプルページ（日英対話：空港で荷物の問い合わせをする対話）
※対話サンプルページで、音声データをご試聴いただけます。

ATR多言語音声データベース
（カナダフランス語/米国スペイン語/ドイツ語/フランス語）

各言語地域在住の母語話者による音声認識開発/評価用の読み上げ音声データベースです。カナダフランス語、米国スペイン語、ドイツ語、フランス語があります。特にカナダフランス語（主にカナダケベック州在住話者）、米国スペイン語（スペイン語を母語とする米国在住話者）は多文化共生社会の多様な言語状況に対応する音声データベースといえます。いずれも、音素バランス文、音素バランス単語、固有名詞、各種数字、ハンズフリー用コマンドを読み上げています。

パンフレット

カナダフランス語

カナダ（主にケベック州）で話されているフランス語（カナダフランス語）母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、カナダ現地で収録しました。音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。

タイトル数
１タイトル（発話者数：男性99名、女性101名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
ラベルデータ（発話文と書き起こし文）（サンプル）

米国スペイン語

米国在住のスペイン語圏からの移住者によって話されるスペイン語（米国スペイン語）母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、米国現地で収録しました。音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。

タイトル数
１タイトル（発話者数：男性99名、女性102名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
ラベルデータ（発話文と書き起こし文）（サンプル）

ドイツ語

ドイツで話されているドイツ語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、ドイツで収録を行いました。

タイトル数
１タイトル（発話者数：男性102名、女性107名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
ラベルデータ（発話文と書き起こし文）（サンプル）

フランス語

フランス共和国で話されているフランス語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、フランスで収録を行いました。音声データの他に、発話文、書き起こしデータ、ならびに書き起こしデータから作成した発音辞書も含まれています。

タイトル数
１タイトル（発話者数：男性102名、女性104名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
ラベルデータ（発話文と書き起こし文）（サンプル）

ATR音声データベース多言語評価セット
（日本語/英語/中国語/インドネシア語/タイ語/台湾華語/ヒンディ語）

音声認識評価用の音声データベースです。旅行分野の発話文セットを各言語で男女約40名が読み上げています。言語は、日本語・英語・中国語・インドネシア語・タイ語・台湾華語・ヒンディ語の７言語です。

パンフレット

日本語

タイトル数
１タイトル（発話者数：男性20名、女性20名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
読み上げ原稿（サンプル）

英語

タイトル数
１タイトル（発話者数：男性20名、女性20名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
読み上げ原稿（サンプル）

中国語

タイトル数
１タイトル（発話者数：男性20名、女性20名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
読み上げ原稿（サンプル）

インドネシア語

タイトル数
１タイトル（発話者数：男性20名、女性22名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
読み上げ原稿（サンプル）

タイ語

タイトル数
１タイトル（発話者数：男性21名、女性21名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
読み上げ原稿（サンプル）

台湾華語

タイトル数
１タイトル（発話者数：男性24名、女性24名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
読み上げ原稿（サンプル）

ヒンディ語

タイトル数
１タイトル（発話者数：男性28名、女性23名）
内訳	※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ（サンプル）
読み上げ原稿（サンプル）
読み上げ原稿（デーヴァナガリー表記）（サンプル）

ATR音素バランス503文テキスト

ATR電話・キーボード対話テキストデータベース

電話およびキーボードを用いて、国際会議事務局や旅行代理店との連絡など、目的を持った対話を収集しています。日本語話者二人の日日対話と、通訳者を介した日本語話者と英語話者の日英対話を収集しており、あとから英訳・和訳することでそれぞれの言語での対訳データを作成しました。国際会議の申し込みに関する参加者と事務局の対話、旅行に関する旅行会社と客との対話の2種類の内容のテキストデータがあります。

詳細製品情報（PDFファイル）

電話対話

電話を通しての対話を収集し、書き起こしたテキストデータです。
話し言葉で対話が進むため、間投詞や言い淀みも含みます。

タイトル数
２タイトル
内訳	国際会議（電話）
内訳	旅行（電話）

構成
国際会議	日本語対話	日本語（サンプル）
	日本語対話	英語（サンプル）
	日英対話	日本語
	日英対話	英語
旅行	日本語対話	日本語
	日本語対話	英語
	日英対話	日本語（サンプル）
	日英対話	英語（サンプル）

キーボード対話

キーボードに入力した内容を送信することで対話を行っています。送信キーを押す前であれば入力の訂正が可能なため、間投詞や言い淀みが含まれません。

タイトル数
２タイトル
内訳	国際会議（キーボード）
内訳	旅行（キーボード）

構成
国際会議	日本語対話	日本語
	日本語対話	英語
	日英対話	日本語（サンプル）
	日英対話	英語（サンプル）
旅行	日本語対話	日本語（サンプル）
	日本語対話	英語（サンプル）
	日英対話	日本語
	日英対話	英語

ATR会話表現テキストデータベース

ATR会話表現データベースは、模擬会話と会話表現集からなります。

詳細製品情報（PDFファイル）

模擬会話

模擬会話は、実際に模擬会話を行いその会話を書き起こしたものです。会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。
データは収集方法により3つに分類しています。

日本語モノリンガル会話
通訳者を介さず、日本語話者により会話を行ない、後から英語の翻訳を付与する方法で収集された会話です。

英語モノリンガル会話
通訳者を介さず、英語話者により会話を行ない、後から日本語の翻訳を付与する方法で収集された会話です。

日英バイリンガル会話
日本語と英語の２言語間の会話を、１発話ごとに通訳者を介しながら、日本語話者、日英通訳者、英語話者、英日通訳者の４者で会話を行なう方法で収集された会話です。

タイトル数
１タイトル

構成
日英対応ファイル（サンプル）
日本語テキスト（サンプル）
英語テキスト（サンプル）
日本語形態素情報（サンプル）
英語形態素情報（サンプル）

会話表現集

会話表現集は、模擬的会話を収集したものではなく、机上で典型的と想定される会話表現を集めて翻訳したものです。収集した会話表現は、同じトピックの表現を500ずつ集めてファイル単位としています。連続する会話を構成しているのではなく、会話表現を列挙したものです。会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。

タイトル数
１タイトル

構成
日本語テキスト（サンプル）
英語テキスト（サンプル）

ATR音素バランス216単語テキスト

ATR音素バランス216単語（ATR216語）は2モーラ以上の216単語で構成され、可能な2音素連鎖をすべて含む日本語単語テキストデータベースです。（株）国際電気基礎技術研究所（ATR)の音声翻訳研究において音声データベース構築用に作成され、現在は、「ATR216語」としてひろく知られ音声処理研究・開発の標準データとして活用されています。

●データ構成

　テキストデータ　　サンプル
　単語リスト　　　　サンプル

●価格

　商用利用 ¥40,000（税別）　アカデミック利用 ¥10,000（税別）

●詳細情報

　詳細製品情報

ATR英語音素バランス200文テキスト

英語で許容されるすべての半音節（demi-syllable）をカバーするように構成された英語の文セットです。半音節は必須母音核と等しくなりますが、数個の子音が先行するもの、数個の子音が後続するものを含みます。先行する子音は最大3個、後続する子音は最大4個です。 200文内には、すべての起こりうる半音節が少なくとも１回は含まれています。英語の読み上げ原稿としてご利用下さい。

タイトル数
１タイトル

構成
英語テキスト（サンプル）

詳細製品情報（PDFファイル）

ATR最重要520単語テキスト

AI音声翻訳技術の母体となったATR自動翻訳電話研究の成果である「ATRデジタル音声データベースセットA」は国語辞典から抽出した日常よく使われる単語5240単語を発話セットとしました。その5240単語から最重要単語として選択されたのが「ATR最重要語520単語テキスト」です。

●データ構成

　単語テキストデータ　　サンプル
　単語リスト　　　　　　サンプル

●価格

　商用利用 ¥80,000（税別）　アカデミック利用 ¥20,000（税別）

●詳細情報

　詳細製品情報