ATR音声言語データベース

概要

ATR音声言語データベースCD

ATR音声言語データベースは、ATR音声データベースATR言語(テキスト)データベースから構成されています。
ATRでは1986年の創立以来、音声翻訳の研究が行われてきました。それら研究のために収集されたデータを、より多くの方にご利用いただけるよう、データベースのライセンスを行っております。 1987年の発売以来、多くの大学・研究機関・企業において、教育・研究開発・製品サービスの用途で利用されています。

メディア形式: CD-ROM/DVD-ROM/BD(ISO9660標準フォーマット)
価格: 各パンフレットまたは詳細仕様をご覧ください。
見積もり依頼フォーム
※アカデミック用(大学・教育機関限定)の価格もございますので、弊社までお問合せ下さい。

ATR音声データベース

ATR言語(テキスト)データベース

※構成サンプルは音声サンプル以外をPDF化して掲載しています。(2020年1月)

※一部データベース名を変更しました。(2020年5月)

※詳細仕様書を更新しました。(2020年5月)




ATRデジタル音声データベース

多数の発声のプロが、文、単語等定型の内容を発声した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。
音声認識の目標は、大語彙でしかも不特定多数の話者が発声した音声を認識することですが、そのためには多数の話者が発声した多種類の音声データが必要です。また、音声認識に限らず、音声合成、音声知覚、音声分析や個人性など、音声の基礎的研究を進めるためにも多数の話者が発声した多種類の音声データが必要です。
ATRの音声データベースは単に音声データの収録だけでなく、音韻ラベルと呼ばれる情報を付与することにより研究の効率を飛躍的に向上させています。

※セットA、B、D、Fのタイトル名を変更しました。(2019年8月)

セットA

タイトル数

全20タイトル(1タイトルにつき1話者の発声を収録)

(全発声者数:男性10名、女性10名)

内訳 男性アナウンサー 8タイトル
男性ナレータ 2タイトル
女性アナウンサー 8タイトル
女性ナレータ 2タイトル
構成
デジタル音声波形データ(サンプル
セグメントラベルデータ(サンプル

詳細仕様(PDFファイル)

セットB

新聞、雑誌、小説、手紙、教科書等の文献から無作為に抽出した約1万の文をもとに、 音素環境をバランスさせて作成した503文(音素バランス文)が収録されており、 発声・発話された音声には詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。

タイトル数

全10タイトル(1タイトルにつき1話者の発声を収録)

(全発声者数:男性6名、女性4名)

内訳 男性アナウンサー 3タイトル
男性ナレータ 3タイトル
女性アナウンサー 1タイトル
女性ナレータ 3タイトル
構成
デジタル音声波形データ(サンプル
セグメントラベルデータ(サンプル
基本周波数データ
言語韻律情報データ(サンプル

詳細仕様(PDFファイル)

セットC

新明解国語辞典(第2版、三省堂出版)に所載されている重要単語(5,240単語)から抽出した最重要単語(520単語)、 音素連鎖バランス単語(216単語)、数字(15語)、音素環境をバランスさせて作成した503文(音素バランス文)が収録されており、 発声・発話された音声には詳細な音声セグメントラベルが付与されています。

タイトル数

全84タイトル(1タイトルにつき20話者の発声を収録)

(全発声者数:男性137名、女性138名)

内訳 男性話者 42タイトル
女性話者 42タイトル

※1タイトルごとの詳しい内容な詳細仕様をご参照ください。

構成
デジタル音声波形データ(サンプル
セグメントラベルデータ(サンプル
トランスクリプションデータ(サンプル

詳細仕様(PDFファイル)

セットD

中学校の教科書やNHKテレビ教材等から選んだ12の小論文(約400文)を朗読したものを収録しています。 詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。音声合成の研究を目的としたデータベースです。

タイトル数

全2タイトル(1タイトルにつき1話者の発声を収録)

(全発声者数:男性1名、女性1名)

内訳 男性アナウンサー 1タイトル
女性アナウンサー 1タイトル
構成
デジタル音声波形データ(サンプル
セグメントラベルデータ(サンプル
言語・韻律情報データ(サンプル

詳細仕様(PDFファイル)

セットF

音素環境をバランスさせて作成した503文(音素バランス文)、比較的よく用いられる外来音節等を含む文(19文)、 音声翻訳システム評価用に作成した機能試験文(600文)が収録されており、発声・発話された音声には 音声セグメントラベルが付与されています。音声認識・音声翻訳の評価実験を目的としたデータベースです。

タイトル数

全6タイトル(1タイトルにつき1話者の発声を収録)

(全発声者数:男性3名、女性3名)

内訳 男性ナレータ 3タイトル
女性ナレータ 3タイトル
構成
デジタル音声波形データ(サンプル
セグメントラベルデータ(サンプル

詳細仕様(PDFファイル)

このページの先頭へ

ATR多数話者音声データベース

ATR多数話者音声データベースは、不特定話者を対象とした自然な発話による連続音声認識技術の性能向上を目的に、 日本人同士の模擬会話を収録した音声データベースです。日本の各地で約3,700人の話者による模擬会話を収録しました。 話者の出身地は47都道府県すべてをカバーし、年齢は14歳から65歳にわたっています。地域的、年齢的な広がりを考慮して 設計された大規模な音声データベースです。不特定話者に関する音声認識研究に最適な音声データベースです。

APP(模擬会話)

日本語話者二人が非対面で、会議等のスケジュールを決定するため、異なる会社の社員が電話を通して会話をしているという設定のもと、 話者が自由な発話表現で対話を行なう模擬会話を収録しています。自然発話特有の間投詞、言い淀みも含んでいます。

タイトル数

全4タイトル(全発声者数:男性1,381名、女性2,390名)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成
デジタル音声波形データ(サンプル
時刻情報付き音素単位書き起こしデータ
サンプル
日本語書き起こしデータ(サンプル
形態素情報データ(サンプル
収録情報データ(サンプル

詳細仕様(PDFファイル)

APPBLA(ATR音素バランス文)

模擬会話の収録に参加した話者が、音素環境をバランスさせて作成した503文(ATR音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発声したものを収録しています。

タイトル数
全4タイトル(全発声者数:男性1,379名、女性2,391名)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
デジタル音声波形データ(サンプル
時刻情報付き音素単位書き起こしデータ
サンプル
収録情報データ(サンプル
付録:音素バランス文テキストファイル

詳細仕様(PDFファイル)

APPDIC(辞書)

模擬会話の収録に参加した話者が、国語辞典・地名辞典・外来語辞典などから抜粋された文章(4文章)や単語(5単語)を 発声したものを収録しています。発声内容は原則的に話者ごとに異なっているので、全てのデータを合わせると広範囲の音素環境を カバーした大語彙の音声データベースとなります。

タイトル数
1タイトル(発声者数:男性1,381名、女性2,389名)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
デジタル音声波形データ(サンプル
時刻情報付き音素単位書き起こしデータ
サンプル
収録情報データ(サンプル
辞書テキストデータ(サンプル

詳細仕様(PDFファイル)

このページの先頭へ

ATR自然発話音声データベース SDB

音声研究においては、単語や文音声に関する音声データベースの作成が行なわれてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者による、日本語の模擬会話を収録しています。

SDB

日本語話者二人が非対面で、ホテルの予約、サービスに関する問い合わせ等、主にホテルのフロント係と 顧客の電話を通した会話という設定のもと、話者が自由な発話表現で対話を行なう模擬会話を収録しています。 また、各話者が音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発声したものもあわせて収録しています。音声認識の研究にご活用いただけます。

タイトル数

全4タイトル

(1タイトルにつき20話者から194話者の異なった話者の発声を収録)

内訳

※詳しい内容は詳細仕様をご参照ください。

構成
デジタル音声波形データ(サンプル
時刻情報付音素単位書き起こしデータ
サンプル
日本語書き起こしデータ(サンプル
形態素情報データ(サンプル
収録情報データ(サンプル
付録:音素バランス文テキストファイル

詳細仕様(PDFファイル)

このページの先頭へ

ATR自然発話音声言語データベース SLDB

音声研究における音声データベースについては、単語や文音声に関する作成が行われてきましたが、 連続音声認識技術の発展に伴い、自然発話への関心が高まっています。 本データベースは、ATRにおいて自然な発話の認識および音声翻訳技術実現のために収録された、 旅行会話に関する自然発話の模擬会話データベースです。 日本語話者と英語話者による、日英対訳の模擬会話を収録しています。

SLDB

日本語話者と英語話者の二人が非対面で、お互いの言語は理解しないものとし、ホテルの予約、サービスに関する問い合わせ等、 主にホテルのフロント係と顧客が通訳機能の付いた電話を介したという設定のもと、話者が自由な発話表現で対話を行なう 日英対訳の模擬会話を収録しています。また各話者が、音素環境をバランスさせて作成した503文(音素バランス文)のうち1セット(50文)を、 息継ぎ位置などを自由に読み上げ発声したものもあわせて収録しています。音声認識・言語翻訳の研究にご活用いただけます。

タイトル数
1タイトル
(70話者の話者の発声を収録)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
デジタル音声波形データ
サンプル1)(サンプル2
時刻情報付音素単位書き起こしデータ
サンプル
日本語書き起こしデータ(サンプル
英語書き起こしデータ(サンプル
英語・日本語書き起こしデータ(サンプル
日本語構文解析データ(サンプル
形態素情報データ(サンプル
収録情報データ(サンプル

詳細仕様(PDFファイル)

このページの先頭へ

ATR高齢者日本語音声データベース

60~85歳の高齢者の日本人話者による日本語読み上げ音声を収録しています。 音声認識開発(モデル学習/評価)に利用可能なデータベースです。

タイトル数
1タイトル(発声者数:男性50名、女性50名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声波形データ(サンプル
原稿データ(サンプル
正解テキストデータ(サンプル

パンフレット

このページの先頭へ

ATR子供日本語音声データベース

日本語を母語とする6歳~9歳(小学校低学年)と9歳~13歳(小学校高学年)の子供に、 あらかじめ準備した絵本等の台詞を読み上げてもらい、その音声をスマートフォンで収録したデータベースです。

タイトル数
フルセットとサブセット9タイトルの計10タイトル(全発声者数:男子175名、女子236名)
内訳 ※詳しい内容はパンフレット、サブセット仕様をご参照ください。
構成
デジタル音声波形データ(サンプル
原稿データ(サンプル

パンフレット

サブセット仕様

このページの先頭へ

ATR地域別英語音声データベース

ATR地域別英語音声データベースは、英語圏6地域(米国北東部/中西部/西部/南部、イギリス、オーストラリア)の男女比と年齢分布をバランスさせた母語話者による英語発話を収録しています。 各話者毎に、旅行会話文や音素バランス文などの「読み上げ発声」音声と、話者の旅行体験談等の「自然発話」音声があります。

タイトル数
フルセットとサブセット64タイトルの計65タイトル(全発声者数:男性200名、女性200名)
内訳 ※詳しい内容はパンフレット、サブセット仕様をご参照ください。
構成
「読み上げ発声」音声波形データ(サンプル
「読み上げ発声」正解データ (サンプル
「読み上げ発声」原稿データ(サンプル
「自然発話」音声波形データ(サンプル
「自然発話」書き起こしデータ(サンプル
(付録)「読み上げ発声」トランスクリプションデータ(サンプル

パンフレット

サブセット仕様

このページの先頭へ

ATR米国英語音声データベース

アメリカ英語を母語とする男女あわせて170名による、旅行分野の読み上げ音声を収録した音声データベースです。対応する原稿データも含まれています。

タイトル数
1タイトル(発声者数:男性84名、女性86名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声波形データ(サンプル
原稿データ(サンプル

パンフレット

このページの先頭へ

ATR日本人話者英語音声データベース

2人の日本人話者が、英語で会話を行う発話音声を収録した音声データベースです。 発発話内容は、旅行会話に関する会話で、ホテルの予約、ショッピングなどです。

タイトル数
1タイトル(発声者数:男性47名、女性43名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
発話内容(1会話)(サンプル
デジタル音声波形データ(clerk)(サンプル
デジタル音声波形データ(customer)(サンプル

パンフレット

このページの先頭へ

ATR非母語話者英語音声データベース

英語を母語としない中国、フランス、ドイツ、インドネシア、日本などの出身話者96名による英語発話(Non-Native English Speech)を 収録した音声データベースです。グローバル化の進展によって英語圏以外の多くの人々が英語を話すようになってきています。 このような背景のもと、非母語話者を含めた多様な英語音声認識の研究にご利用下さい。

タイトル数
1タイトル(発声者数:男性80名、女性16名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声波形データ(母語:ドイツ)(サンプル 数字) (サンプル 音素バランス文
書き起こしデータ(サンプル 数字) (サンプル 音素バランス文
原稿データ(抜粋)(サンプル 数字) (サンプル 音素バランス文

パンフレット

このページの先頭へ

ATR出生国別英語音声データベース

ATR出生国別英語音声データベースは、多様な出生国の話者40名による英語発話を収録した音声データベースです。 話者の出生国は10か国あり、各国につき4名(男性2名、女性2名)が数字、コマンド文、短文を読み上げています。

タイトル数
1タイトル(発声者数:男性20名、女性20名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声波形データ(出生国:オーストラリア)(サンプル
読み上げ原稿データ(サンプル

パンフレット

このページの先頭へ

「ATRECSS」音声合成用英語データベース

ATRECSS (ATR English speech Corpus for Speech Synthesis)は、ATRで開発されたコーパスベース音声合成向けの英語音声データベースです。 米国英語男性話者1名による音声データベースで、ニュース記事、旅行会話、小説 (diphone、traiphoneのバランスを取ったもの)を発声しています。 発声された音声には英語発話テキストが付与されています。製品には「ATRECSS-8」の8時間サブセットと「ATRECSS-12」の12時間サブセットがあります。 ATRECSS-8は、Blizzard Challenge 2007 [1](共通コーパスによる音声合成システムの比較評価)において共通コーパスとして用いられました。
[1]参考サイト "The Blizzard Challenge " 2007

タイトル数
全2タイトル(全発声者数:米国人男性プロフェッショナルナレーター1名)
内訳 ※詳しい内容は詳細仕様をご参照ください。
構成
デジタル音声波形データ
サンプル 小説1)(サンプル 小説2
英語テキストデータ
サンプル 小説1)(サンプル 小説2
デジタル音声データ
サンプル旅行会話1)(サンプル旅行会話2
英語テキストデータ
サンプル旅行会話1)(サンプル旅行会話2
デジタル音声データ
サンプルNEWS1)(サンプルNEWS2
英語テキストデータ
サンプルNEWS1)(サンプルNEWS2

詳細仕様(PDFファイル)

このページの先頭へ

ATR地域別中国語音声データベース

ATR地域別中国語音声データベースは、中国語を話す4地域(北京/広東/上海/台湾)の男女比と年齢分布をバランスさせた母語話者による中国語発話を収録しています。 各話者毎に、旅行会話文や音素バランス文などの「読み上げ発声」音声と、話者の旅行体験談等の「自然発話」音声があります。

タイトル数
1タイトル(発声者数:男性200名、女性200名)※サブセットをご希望の場合はご連絡下さい。
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
「読み上げ発声」デジタル音声波形データ(サンプル
「読み上げ発声」読みデータ(サンプル
「自然発話」音声波形データ(サンプル

パンフレット

このページの先頭へ

ATR地域別中国語音声データベースⅡ

中国語話者の居住地域多様性をカバーするため、おもに中国沿岸部を南北に網羅した地域の 中国語母語話者による標準中国語(普通話)を収録した音声データベースです。

タイトル数
フルセットとサブセット11タイトルの計12タイトル(全発声者数:男性750名、女性750名)
内訳 ※詳しい内容はパンフレット、サブセット仕様をご参照ください。
構成
デジタル音声波形データ(サンプル
書き起こしデータ(サンプル

パンフレット

サブセット仕様

このページの先頭へ

「ATRMADE」日英・日中対話データベース

ATRMADE(エイティーアールメイド)は、音声翻訳システムを使用した模擬対話データベースです。 あらかじめ対話を行う場面や役割を設定し、異なる言語を話す話者同士が自由に発話する音声を収録しています。 日英対話と日中対話があり、収録時期によりタイピストまたは音声認識システムを使用してデータを収集しています。

発話音声と発話テキストで音声認識の研究に、発話テキストと翻訳データで翻訳研究にご利用いただけます。

パンフレット

対話サンプルページ(日英対話:空港で荷物の問い合わせをする対話)
※対話サンプルページで、音声データをご試聴いただけます。

このページの先頭へ

ATR多言語音声データベース
(カナダフランス語/米国スペイン語/ドイツ語/フランス語)

各言語地域在住の母語話者による音声認識開発/評価用の読み上げ音声データベースです。 カナダフランス語、米国スペイン語、ドイツ語、フランス語があります。特にカナダフランス語(主にカナダケベック州在住話者)、 米国スペイン語(スペイン語を母語とする米国在住話者)は多文化共生社会の多様な言語状況に対応する音声データベースといえます。 いずれも、音素バランス文、音素バランス単語、固有名詞、各種数字、ハンズフリー用コマンドを読み上げています。

カナダフランス語

カナダ(主にケベック州)で話されているフランス語(カナダフランス語)母語話者の音声を収録した音声データベースです。 出身地域分布に偏りなく多数の母語話者を確保するため、カナダ現地で収録しました。 音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。 さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。

タイトル数

1タイトル(発声者数:男性99名、女性101名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

パンフレット

米国スペイン語

米国在住のスペイン語圏からの移住者によって話されるスペイン語(米国スペイン語)母語話者の音声を収録した音声データベースです。 出身地域分布に偏りなく多数の母語話者を確保するため、米国現地で収録しました。 音声データの他に、発話文、書き起こしデータ、ならびに書き起こしテキストから作成した発音辞書も含まれます。 さらに、参考データとして、このデータベースの音声認識性能を知るために行った音声認識性能評価結果も付属しています。

タイトル数
1タイトル(発声者数:男性99名、女性102名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

パンフレット

ドイツ語

ドイツで話されているドイツ語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、 ドイツで収録を行いました。

タイトル数
1タイトル(発声者数:男性102名、女性107名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

パンフレット

フランス語

フランス共和国で話されているフランス語母語話者の音声を収録した音声データベースです。出身地域分布に偏りなく多数の母語話者を確保するため、 フランスで収録を行いました。音声データの他に、発話文、書き起こしデータ、ならびに書き起こしデータから作成した発音辞書も含まれています。

タイトル数
1タイトル(発声者数:男性102名、女性104名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
ラベルデータ(発話文と書き起こし文)
サンプル

パンフレット

このページの先頭へ

ATR音声データベース多言語評価セット
(日本語/英語/中国語/インドネシア語/タイ語/台湾華語/ヒンディ語)

音声認識評価用の音声データベースです。旅行分野の発話文セットを各言語で男女約40名が読み上げています。 言語は、日本語・英語・中国語・インドネシア語・タイ語・台湾華語・ヒンディ語の7言語です。

日本語

タイトル数

1タイトル(発声者数:男性20名、女性20名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

パンフレット

英語

タイトル数
1タイトル(発声者数:男性20名、女性20名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

パンフレット

中国語

タイトル数

1タイトル(発声者数:男性20名、女性20名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

パンフレット

インドネシア語

タイトル数
1タイトル(発声者数:男性20名、女性22名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

パンフレット

タイ語

タイトル数

1タイトル(発声者数:男性21名、女性21名)

内訳

※詳しい内容はパンフレットをご参照ください。

構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

パンフレット

台湾華語

タイトル数
1タイトル(発声者数:男性24名、女性24名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル

パンフレット

    

ヒンディ語

タイトル数
1タイトル(発声者数:男性28名、女性23名)
内訳 ※詳しい内容はパンフレットをご参照ください。
構成
デジタル音声データ(サンプル
読み上げ原稿 (サンプル
読み上げ原稿(デーヴァナガリー表記)
サンプル

パンフレット

このページの先頭へ

ATR電話・キーボード対話データベース

話し言葉の翻訳システムを構築するためには、話し言葉の特徴に関する基礎的な分析が必要です。 各種の調査や分析のためにデータベースを構築する場合、その利用目的を考慮し、系統立てた収集を行なう必要があります。
対話データベースは、国際会議事務局や旅行代理店との連絡など、目的を持った対話を収集しています。 日本語と英語の対応する会話を収めたバイリンガルなテキストデータベースです。延べ100万語のデータを収集しています。

ATR電話・キーボード対話データベースは以下の事前分析を行っています。

  • ・各種言語単位(単語、文節、文など)への分割
  • ・単語の各種属性(品詞、標準標記)、語形情報(活用形、時刻、格、単複等)
  • ・日本語・英語対応関係
  • ・単語の係り受け関係(日本語のみ)

※すべてのテキストデータには上記の言語情報が付与されています。

電話対話

電話を通しての会話を収集しています。間投詞や言い淀みも含みます。 日本語話者二人の対話を収集し、あとから英訳することで日英対訳データを作成しました。 国際会議の申し込みに関する参加者と事務局の対話、旅行に関する旅行会社と客との対話の2種類の内容のテキストデータです。

文字化した対話データ例
事務局: もしもし、こちら国際コンピューター会議事務局でございます。
質問者: もしもし、[あー]ちょっと今回の会議についてお尋ね(申したいんですが)申し上げたいんですが。
[えー]実はですね、[あのー]私のところにファーストアナウンスメントが(こないだ送っ)[えー]こないだと言いますか、 大分前に送られて来て、[まあ]検討しておったんですが、[えー]そちらの方にですね、[まぁ]一応参加の意向で考えておるところでございます。
それでですね、[あのー、まあ]参加の方法と申しますか、[あのー]ちょっと値段のことも合わせてお聞きしたいんでございますけれども。
事務局: [あっ]はい、[えー]参加登録料の方ですけれども、[え]こちらの方は一般参加者の(こと)方は八万五千円、あと国公立大学、研究所、 そちらの関係の方は五万円というふうになっております。
質問者: [えー、す]実はそのことなんですけれどもね、[えー]ほかに、[あのー]特別な料金セットはないんでしょうか。 ・・・・・

詳細仕様(PDFファイル)

キーボード対話

電話を通しての会話と類似していますが、より計算機処理が行ないやすいものになっています。間投詞や言い淀みを含みません。 日本語話者二人の対話を収集し、あとから英訳することで日英対訳データを作成しました。 国際会議の申し込みに関する参加者と事務局の対話、旅行に関する旅行会社と客との対話の2種類の内容のテキストデータです。

文字化した対話データ例(旅行:日本語)
担当者: はい、JTB海外旅行支店でございます。
申込者: 外国へいきたいんでちょっとお尋ねします。
担当者: はい、どのようなことでしょうか。
申込者: 来年のゴールデンウィークにアメリカに行きたいんですが。
担当者: アメリカはどちらの方でしょうか。

・・・・・
文字化した対話データ例(旅行:英語対訳)
clerk: Yes, this is JTB.
customer: I would like to go abroad so I have a few questions.
clerk: Yes, what can I do for you?
customer: I want to go to America during Golden Week vacation next year.
clerk: Where in America do you want to go?
・・・・・

詳細仕様(PDFファイル)

このページの先頭へ

ATR会話表現データベース

模擬会話

模擬会話は、実際に模擬会話を行ないその会話を書き起こしたものです。 会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。

データは収集方法により3つに分類しています。

日日モノリンガル会話

通訳者を介さず、日本語話者により会話を行ない、後から英語の翻訳を付与する方法で収集された会話です。

英英モノリンガル会話

通訳者を介さず、英語話者により会話を行ない、後から日本語の翻訳を付与する方法で収集された会話です。

日英バイリンガル会話

日英バイリンガル会話は、日本語と英語の2言語間の会話を、1発声ごとに通訳者を介しながら、日本語話者、日英通訳者、英語話者、英日通訳者の4者で会話を行なう方法で収集された会話です。

構成
日英対応テキスト
日本語テキスト
英語テキスト
日本語形態素情報
英語形態素情報

詳細仕様(PDFファイル)

会話表現集

会話表現集は、模擬的会話を収集したものではなく、机上で典型的と想定される会話表現を集めて翻訳したものです。

収集した会話表現は、同じトピックの表現を500ずつ集めてファイル単位としています。 連続する会話を構成しているのではなく、会話表現を列挙したものです。 会話の内容はホテルの予約等、旅行会話のあらゆる場面を想定しています。

構成
日本語テキスト
英語テキスト

詳細仕様(PFDファイル)

お問合せお見積もり

このページの先頭へ

お問合せ

お見積もり