音声言語データベース

ATR音声言語データベース
ATR-Corpusロゴ

ATR音声翻訳研究において作成され、音声認識、音声合成、対話システムのほか音声分析、話者認証など多様な用途に対応可能な高品質データセットです。 1987年のリリース開始以来、大学、研究機関の基礎研究から、AI音声翻訳などの実用製品サービスまで豊富な利用実績を重ねています。

最新リリース


製品別情報

 ●音声データベース


 ●テキストデータベース


製品詳細                 =48kHzサンプリング音声

音声データベース 日本語

製品別情報へ


音声データベース 英語

製品別情報へ


音声データベース 中国語

製品別情報へ


音声データベース 多言語

製品別情報へ


テキストデータベース

こ製品別情報へ


※ 構成サンプルは音声サンプル以外をPDF化して掲載しています。(2020年1月)

※ 一部データベース名を変更しました。(2020年5月)

※ 詳細仕様書を更新しました。(2020年5月)

※ 「ATR音素バランス文(503文)」「ATR音素バランス単語(216語)」「ATR英語音素バランス文(200文)」を公開しました。(2020年11月)


製 品

ATRデジタル音声データベース

多数の発話のプロが、文、単語等定型の内容を発話した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。
音声認識の目標は、大語彙でしかも不特定多数の話者が発話した音声を認識することですが、そのためには多数の話者が発話した多種類の音声データが必要です。また、音声認識に限らず、音声合成、音声知覚、音声分析や個人性など、音声の基礎的研究を進めるためにも多数の話者が発話した多種類の音声データが必要です。
ATRの音声データベースは単に音声データの収録だけでなく、音韻ラベルと呼ばれる情報を付与することにより研究の効率を飛躍的に向上させています。

※セットA、B、D、Fのタイトルを変更しました。(2019年8月)

セットA

タイトル数

全20タイトル(1タイトルにつき1話者の発話を収録)

(全発話者数:男性10名、女性10名)

内訳 男性アナウンサー 8タイトル
男性ナレーター 2タイトル
女性アナウンサー 8タイトル
女性ナレーター 2タイトル
構成
音声データ(サンプル
セグメントラベルデータ(サンプル

仕様概要(PDFファイル)

セットB

新聞、雑誌、小説、手紙、教科書等の文献から無作為に抽出した約1万文をもとに、 音素環境(注)をバランスさせて作成した「ATR音素バランス503文」音声を収録し た日本語音声データベース。詳細な音素セグメントラベル(ラベルデータ)と、 言語・韻律情報(一部)が付与されています。
(注)2音素連鎖402 種類、3音素連鎖223 種類の合計625 種類

タイトル数

10(話者単位)

内訳 男性アナウンサー 3タイトル
男性ナレーター 3タイトル
女性アナウンサー 1タイトル
女性ナレーター 3タイトル
構成
音声データ(サンプル
ラベルデータ((サンプル
基本周波数データ
言語・韻律情報データ(サンプル

仕様概要(PDFファイル)

セットC

新明解国語辞典(第2版、三省堂出版)に所載されている重要単語(5,240単語)から抽出した最重要単語(520単語)、 音素連鎖バランス単語(216単語)、数字(15語)、音素環境をバランスさせて作成した503文(音素バランス文)が収録されており、 発話・発話された音声には詳細な音声セグメントラベルが付与されています。

タイトル数

全84タイトル(1タイトルにつき20話者の発話を収録)

(全発話者数:男性137名、女性138名)

内訳 男性話者 42タイトル
女性話者 42タイトル

※1タイトルごとの詳しい内容な詳細仕様をご参照ください。

構成
音声データ(サンプル
セグメントラベルデータ(サンプル
トランスクリプションデータ(サンプル

詳細仕様(PDFファイル)

セットD

中学校の教科書やNHKテレビ教材等から選んだ12の小論文(約400文)を朗読したものを収録しています。 詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。音声合成の研究を目的としたデータベースです。

タイトル数

全2タイトル(1タイトルにつき1話者の発話を収録)

(全発話者数:男性1名、女性1名)

内訳 男性アナウンサー 1タイトル
女性アナウンサー 1タイトル
構成
音声データ(サンプル
セグメントラベルデータ(サンプル
言語・韻律情報データ(サンプル

詳細仕様(PDFファイル)

セットF

音素環境をバランスさせて作成した503文(音素バランス文)、比較的よく用いられる外来音節等を含む文(19文)、 音声翻訳システム評価用に作成した機能試験文(600文)が収録されており、発話・発話された音声には 音声セグメントラベルが付与されています。音声認識・音声翻訳の評価実験を目的としたデータベースです。

タイトル数

全6タイトル(1タイトルにつき1話者の発話を収録)

(全発話者数:男性3名、女性3名)

内訳 男性ナレーター 3タイトル
女性ナレーター 3タイトル
構成
音声データ(サンプル
セグメントラベルデータ(サンプル

詳細仕様(PDFファイル)

このページの先頭へ

ATR多数話者音声データベース

ATR多数話者音声データベースは、不特定話者を対象とした自然な発話による連続音声認識技術の性能向上を目的に、 日本人同士の模擬会話を収録した音声データベースです。日本の各地で約3,700人の話者による模擬会話を収録しました。 話者の出身地は47都道府県すべてをカバーし、年齢は14歳から65歳にわたっています。地域的、年齢的な広がりを考慮して 設計された大規模な音声データベースです。不特定話者に関する音声認識研究に最適な音声データベースです。

APP(模擬会話)

日本語話者二人が非対面で、会議等のスケジュールを決定するため、異なる会社の社員が電話を通して会話をしているという設定のもと、 話者が自由な発話表現で対話を行なう模擬会話を収録しています。自然発話特有の間投詞、言い淀みも含んでいます。

タイトル数

全4タイトル(全話者数:3,772名)
 (内訳:男性1,381名、女性2,391名)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成
音声データ(サンプル
時刻情報付き音素単位書き起こしデータ
サンプル
日本語書き起こしデータ(サンプル
形態素情報データ(サンプル
収録情報データ(サンプル

詳細仕様(PDFファイル)

APPBLA(ATR音素バランス文)

模擬会話の収録に参加した話者が、音素環境をバランスさせて作成した503文(ATR音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発話したものを収録しています。

タイトル数
全4タイトル(全話者数:3,772名)
 (内訳:男性1,379名、女性2,393名)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
音声データ(サンプル
時刻情報付き音素単位書き起こしデータ
サンプル
収録情報データ(サンプル
付録:音素バランス文テキストファイル

詳細仕様(PDFファイル)

APPDIC(辞書)

模擬会話の収録に参加した話者が、国語辞典・地名辞典・外来語辞典などから抜粋された文章(4文章)や単語(5単語)を 発話したものを収録しています。発話内容は原則的に話者ごとに異なっているので、全てのデータを合わせると広範囲の音素環境を カバーした大語彙の音声データベースとなります。

タイトル数
1タイトル(話者数:3,775名)
 (内訳:男性1,382名、女性2,393名)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
音声データ(サンプル
時刻情報付き音素単位書き起こしデータ
サンプル
収録情報データ(サンプル
辞書テキストデータ(サンプル

詳細仕様(PDFファイル)

このページの先頭へ

ATR自然発話音声データベース SDB

音声研究においては、単語や文音声に関する音声データベースの作成が行なわれてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者による、日本語の模擬会話を収録しています。

SDB

日本語話者二人が非対面で、ホテルの予約、サービスに関する問い合わせ等、主にホテルのフロント係と 顧客の電話を通した会話という設定のもと、話者が自由な発話表現で対話を行なう模擬会話を収録しています。 また、各話者が音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発話したものもあわせて収録しています。音声認識の研究にご活用いただけます。

タイトル数

全4タイトル

(1タイトルにつき20話者から194話者の異なった話者の発話を収録)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成
音声データ(サンプル
時刻情報付音素単位書き起こしデータ
サンプル
日本語書き起こしデータ(サンプル
形態素情報データ(サンプル
収録情報データ(サンプル
付録:音素バランス文テキストファイル

詳細仕様(PDFファイル)

このページの先頭へ

ATR自然発話音声・言語データベース SLDB(日英対話)

音声研究における音声データベースについては、単語や文音声に関する作成が行われてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者と英語話者による、日英対訳の模擬会話を収録しています。

SLDB

日本語話者と英語話者の二人が非対面で、お互いの言語は理解しないものとし、ホテルの予約、サービスに関する問い合わせ等、 主にホテルのフロント係と顧客が通訳機能の付いた電話を介したという設定のもと、話者が自由な発話表現で対話を行なう 日英対訳の模擬会話を収録しています。また各話者が、音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発話したものもあわせて収録しています。音声認識・言語翻訳の研究にご活用いただけます。

タイトル数
1タイトル
(70話者の話者の発話を収録)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
音声データ
サンプル1)(サンプル2
時刻情報付音素単位書き起こしデータ
サンプル
日本語書き起こしデータ(サンプル
英語書き起こしデータ(サンプル
英語・日本語書き起こしデータ(サンプル
日本語構文解析データ(サンプル
形態素情報データ(サンプル
収録情報データ(サンプル

詳細仕様(PDFファイル)

このページの先頭へ

ATR高齢者日本語音声データベース

話者の多様性、とくに高齢者音声に頑健な音声認識システムを実現するために 作成された日本語音声データベースです。60歳から84歳までの日本人高齢者の 日本語読み上げ音声、および発話文テキストにより構成されています。

話者数
100名(男性:50名、女性50名)
発話内容
ATR音素バランス503文(ATR503文)
旅行/日常会話文
構成
音声データ
(サンプル:ATR503文旅行/日常会話文
発話文テキスト
(サンプル:ATR503文旅行/日常会話文

パンフレット

このページの先頭へ

ATR子供日本語音声データベース

日本語を母語とする6歳~9歳(小学校低学年)と9歳~13歳(小学校高学年)の子供に、 あらかじめ準備した絵本等の台詞を読み上げてもらい、その音声をスマートフォンで収録したデータベースです。

タイトル数
フルセットとサブセット9タイトルの計10タイトル(全発話者数:男子175名、女子236名)
内訳 ※詳しい内容はパンフレット、サブセット仕様をご参照ください。
構成
音声データ(サンプル
原稿データ(サンプル

パンフレット

サブセット仕様

このページの先頭へ

ATR地域別英語音声データベース

ATR地域別英語音声データベースは、英語圏6地域(米国北東部/中西部/西部/南部、イギリス、オーストラリア)の男女比と年齢分布をバランスさせた母語話者による英語発話を収録しています。 各話者毎に、旅行会話文や音素バランス文などの「読み上げ発話」音声と、話者の旅行体験談等の「自然発話」音声があります。

タイトル数
フルセットとサブセット64タイトルの計65タイトル(全発話者数:男性200名、女性200名)
内訳 ※詳しい内容はパンフレット、サブセット仕様をご参照ください。
構成
「読み上げ発話」音声波形データ(サンプル
「読み上げ発話」正解データ (サンプル
「読み上げ発話」原稿データ(サンプル
「自然発話」音声波形データ(サンプル
「自然発話」書き起こしデータ(サンプル
(付録)「読み上げ発話」トランスクリプションデータ(サンプル

パンフレット

サブセット仕様

このページの先頭へ

ATR米国英語音声データベース

アメリカ英語を母語とする男女あわせて170名による、旅行分野の読み上げ音声を収録した音声データベースです。対応する原稿データも含まれています。

タイトル数
1タイトル(発話者数:男性84名、女性86名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
音声データ(サンプル
原稿データ(サンプル

パンフレット

このページの先頭へ

ATR日本人話者英語音声データベース

2人の日本人話者が、英語で会話を行う発話音声を収録した音声データベースです。 発発話内容は、旅行会話に関する会話で、ホテルの予約、ショッピングなどです。

タイトル数
1タイトル(発話者数:男性47名、女性43名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
発話内容(1会話)(サンプル
音声データ(clerk)(サンプル
音声データ(customer)(サンプル

パンフレット

このページの先頭へ

ATR非母語話者英語音声データベース

英語を母語としない中国、フランス、ドイツ、インドネシア、日本などの出身話者96名による英語発話(Non-Native English Speech)を 収録した音声データベースです。グローバル化の進展によって英語圏以外の多くの人々が英語を話すようになってきています。 このような背景のもと、非母語話者を含めた多様な英語音声認識の研究にご利用下さい。

タイトル数
1タイトル(発話者数:男性80名、女性16名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
音声データ(母語:ドイツ)(サンプル 数字) (サンプル 音素バランス文
書き起こしデータ(サンプル 数字) (サンプル 音素バランス文
原稿データ(抜粋)(サンプル 数字) (サンプル 音素バランス文

パンフレット

このページの先頭へ

ATR出生国別英語音声データベース

ATR出生国別英語音声データベースは、多様な出生国の話者40名による英語発話を収録した音声データベースです。 話者の出生国は10か国あり、各国につき4名(男性2名、女性2名)が数字、コマンド文、短文を読み上げています。

タイトル数
1タイトル(発話者数:男性20名、女性20名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
音声データ(出生国:オーストラリア)(サンプル
読み上げ原稿データ(サンプル

パンフレット

このページの先頭へ

ATRECSS音声合成英語データベース

ATRECSS (ATR English speech Corpus for Speech Synthesis)は、ATRで開発されたコーパスベース音声合成向けの英語音声データベースです。 米国英語男性話者1名による音声データベースで、ニュース記事、旅行会話、小説 (diphone、traiphoneのバランスを取ったもの)を発話しています。 発話された音声には英語発話テキストが付与されています。製品には「ATRECSS-08」の8時間サブセットと「ATRECSS-12」の12時間サブセットがあります。 ATRECSS-08は、Blizzard Challenge 2007 [1](共通コーパスによる音声合成システムの比較評価)において共通コーパスとして用いられました。
[1]参考サイト "The Blizzard Challenge " 2007

タイトル数
全2タイトル(全発話者数:米国人男性プロフェッショナルナレーター1名)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
音声データ
サンプル 小説1)(サンプル 小説2
英語テキストデータ
サンプル 小説1)(サンプル 小説2
デジタル音声データ
サンプル旅行会話1)(サンプル旅行会話2
英語テキストデータ
サンプル旅行会話1)(サンプル旅行会話2
デジタル音声データ
サンプルNEWS1)(サンプルNEWS2
英語テキストデータ
サンプルNEWS1)(サンプルNEWS2

詳細仕様(PDFファイル)

このページの先頭へ

ATR地域別中国語音声データベースI

ATR地域別中国語音声データベースは、中国語を話す4地域(北京/広東/上海/台湾)の男女比と年齢分布をバランスさせた母語話者による中国語発話を収録しています。 各話者毎に、旅行会話文や音素バランス文などの「読み上げ発話」音声と、話者の旅行体験談等の「自然発話」音声があります。

タイトル数
1タイトル(発話者数:男性200名、女性200名)※サブセットをご希望の場合はご連絡下さい。
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
「読み上げ発話」音声データ(サンプル
「読み上げ発話」読みデータ(サンプル
「自然発話」音声波形データ(サンプル

パンフレット

このページの先頭へ

ATR地域別中国語音声データベースⅡ

中国語話者の居住地域多様性をカバーするため、おもに中国沿岸部を南北に網羅した地域の 中国語母語話者による標準中国語(普通話)を収録した音声データベースです。

タイトル数
フルセットとサブセット11タイトルの計12タイトル(全発話者数:男性750名、女性750名)
内訳 ※詳しい内容はパンフレット、サブセット仕様をご参照ください。
構成
音声データ(サンプル
書き起こしデータ(サンプル

パンフレット

サブセット仕様

このページの先頭へ

ATRMADE日英・日中対話音声データベース

ATRMADE(エイティーアールメイド)は、音声翻訳システムを使用した模擬対話データベースです。 あらかじめ対話を行う場面や役割を設定し、異なる言語を話す話者同士が自由に発話する音声を収録しています。 日英対話と日中対話があり、収録時期によりタイピストまたは音声認識システムを使用してデータを収集しています。

発話音声と発話テキストで音声認識の研究に、発話テキストと翻訳データで翻訳研究にご利用いただけます。

パンフレット

対話サンプルページ(日英対話:空港で荷物の問い合わせをする対話)
※対話サンプルページで、音声データをご試聴いただけます。

このページの先頭へ

ATR多言語音声データベース
(カナダフランス語/米国スペイン語/ドイツ語/フランス語)

各言語地域在住の母語話者による音声認識開発/評価用の読み上げ音声データベースです。 カナダフランス語、米国スペイン語、ドイツ語、フランス語があります。特にカナダフランス語(主にカナダケベック州在住話者)、 米国スペイン語(スペイン語を母語とする米国在住話者)は多文化共生社会の多様な言語状況に対応する音声データベースといえます。 いずれも、音素バランス文、音素バランス単語、固有名詞、各種数字、ハンズフリー用コマンドを読み上げています。

パンフレット

カナダフランス語

カナダ(主にケベック州)で話されているフランス語(カナダフランス語)母語話者の音声を収録した音声データベースです。 出身地域分布に偏りなく多数の母語話者を確保するため、カナダ現地で収録しました。 音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。 さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。

タイトル数

1タイトル(発話者数:男性99名、女性101名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

米国スペイン語

米国在住のスペイン語圏からの移住者によって話されるスペイン語(米国スペイン語)母語話者の音声を収録した音声データベースです。 出身地域分布に偏りなく多数の母語話者を確保するため、米国現地で収録しました。 音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。 さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。

タイトル数
1タイトル(発話者数:男性99名、女性102名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

ドイツ語

ドイツで話されているドイツ語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、 ドイツで収録を行いました。

タイトル数
1タイトル(発話者数:男性102名、女性107名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

フランス語

フランス共和国で話されているフランス語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、 フランスで収録を行いました。音声データの他に、発話文、書き起こしデータ、ならびに書き起こしデータから作成した発音辞書も含まれています。

タイトル数
1タイトル(発話者数:男性102名、女性104名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

このページの先頭へ

ATR音声データベース多言語評価セット
(日本語/英語/中国語/インドネシア語/タイ語/台湾華語/ヒンディ語)

音声認識評価用の音声データベースです。旅行分野の発話文セットを各言語で男女約40名が読み上げています。 言語は、日本語・英語・中国語・インドネシア語・タイ語・台湾華語・ヒンディ語の7言語です。

パンフレット

日本語

タイトル数

1タイトル(発話者数:男性20名、女性20名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

英語

タイトル数
1タイトル(発話者数:男性20名、女性20名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

中国語

タイトル数

1タイトル(発話者数:男性20名、女性20名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

インドネシア語

タイトル数
1タイトル(発話者数:男性20名、女性22名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

タイ語

タイトル数

1タイトル(発話者数:男性21名、女性21名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

台湾華語

タイトル数
1タイトル(発話者数:男性24名、女性24名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

ヒンディ語

タイトル数
1タイトル(発話者数:男性28名、女性23名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル
読み上げ原稿(デーヴァナガリー表記)
サンプル

このページの先頭へ

ATR電話・キーボード対話テキストデータベース

電話およびキーボードを用いて、国際会議事務局や旅行代理店との連絡など、目的を持った対話を収集しています。 日本語話者二人の日日対話と、通訳者を介した日本語話者と英語話者の日英対話を収集しており、あとから英訳・和訳することでそれぞれの言語での対訳データを作成しました。 国際会議の申し込みに関する参加者と事務局の対話、旅行に関する旅行会社と客との対話の2種類の内容のテキストデータがあります。

詳細仕様(PDFファイル)

電話対話

電話を通しての対話を収集し、書き起こしたテキストデータです。
話し言葉で対話が進むため、間投詞や言い淀みも含みます。

タイトル数
2タイトル
内訳 国際会議(電話)
旅行(電話)
構成
国際会議 日本語対話 日本語(サンプル
英語(サンプル
日英対話 日本語
英語
旅行 日本語対話 日本語
英語
日英対話 日本語(サンプル
英語(サンプル

キーボード対話

キーボードに入力した内容を送信することで対話を行っています。送信キーを押す前であれば入力の訂正が可能なため、間投詞や言い淀みが含まれません。

タイトル数
2タイトル
内訳 国際会議(キーボード)
旅行(キーボード)
構成
国際会議 日本語対話 日本語
英語
日英対話 日本語(サンプル
英語(サンプル
旅行 日本語対話 日本語(サンプル
英語(サンプル
日英対話 日本語
英語

このページの先頭へ

ATR会話表現テキストデータベース

ATR会話表現データベースは、模擬会話と会話表現集からなります。

詳細仕様(PDFファイル)

模擬会話

模擬会話は、実際に模擬会話を行いその会話を書き起こしたものです。会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。
データは収集方法により3つに分類しています。

日本語モノリンガル会話
通訳者を介さず、日本語話者により会話を行ない、後から英語の翻訳を付与する方法で収集された会話です。

英語モノリンガル会話
通訳者を介さず、英語話者により会話を行ない、後から日本語の翻訳を付与する方法で収集された会話です。

日英バイリンガル会話
日本語と英語の2言語間の会話を、1発話ごとに通訳者を介しながら、日本語話者、日英通訳者、英語話者、英日通訳者の4者で会話を行なう方法で収集された会話です。

タイトル数
1タイトル
構成
日英対応ファイル(サンプル
日本語テキスト(サンプル
英語テキスト(サンプル
日本語形態素情報(サンプル
英語形態素情報(サンプル

会話表現集

会話表現集は、模擬的会話を収集したものではなく、机上で典型的と想定される会話表現を集めて翻訳したものです。 収集した会話表現は、同じトピックの表現を500ずつ集めてファイル単位としています。連続する会話を構成しているのではなく、 会話表現を列挙したものです。会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。

タイトル数
1タイトル
構成
日本語テキスト(サンプル
英語テキスト(サンプル

このページの先頭へ


ATR音素バランス503文テキスト

日本語の音素連鎖(*)の出現バランスがとれた文セットである「ATR音素バランス503文」は(株)国際電気基礎技術研究所(ATR)の音声翻訳研究成果であり、「ATR503文」としてひろく知られ音声処理研究・開発の標準データとして活用されています。 ATR音素バランス503文はAセットからJセットまで各50文単位(Jセットのみ53文)で構成されています。各セット50文(または53文)単位でも音素バランスが取れるよう文を選択しています。
  (*)2音素連鎖402 種類、3音素連鎖223 種類の合計625 種類

●データ構成

 全文テキストデータ   サンプル
 連続発話リスト     サンプル
 文節区切り発話リスト  サンプル

●価格

 商用利用 ¥200,000(税別) アカデミック利用 ¥50,000(税別)

●詳細情報

 詳細製品情報

このページの先頭へ


ATR音素バランス216単語テキスト

ATR音素バランス216単語(ATR216語)は2モーラ以上の216単語で構成され、可能な2音素連鎖をすべて含む日本語単語テキストデータベースです。 (株)国際電気基礎技術研究所(ATR)の音声翻訳研究において音声データベース構築用に作成され、現在は、「ATR216語」としてひろく知られ音声処理研究・開発の標準データとして 活用されています。

●データ構成

 テキストデータ  サンプル
 単語リスト    サンプル

●価格

 商用利用 ¥40,000(税別) アカデミック利用 ¥10,000(税別)

●詳細情報

 詳細製品情報


ATR英語音素バランス200文テキスト

英語で許容されるすべての半音節(demi-syllable)をカバーするように構成された英語の文セットです。 半音節は必須母音核と等しくなりますが、数個の子音が先行するもの、数個の子音が後続するものを含みます。 先行する子音は最大3個、後続する子音は最大4個です。 200文内には、すべての起こりうる半音節が少なくとも1回は含まれています。 英語の読み上げ原稿としてご利用下さい。

タイトル数
1タイトル
構成
英語テキスト(サンプル

詳細仕様(PDFファイル)


ATR最重要520単語テキスト

AI音声翻訳技術の母体となったATR自動翻訳電話研究の成果である「ATRデジタル音声データベースセットA」は国語辞典から抽出した 日常よく使われる単語5240単語を発話セットとしました。その5240単語から最重要単語として選択されたのが「ATR最重要語520単語テキスト」です。

●データ構成

 単語テキストデータ  サンプル
 単語リスト      サンプル

●価格

 商用利用 ¥80,000(税別) アカデミック利用 ¥20,000(税別)

●詳細情報

 詳細製品情報


このページの先頭へ

お問合せ

お見積もり