ダウンロード

最新版: 0.2.0 (2014/10/07)

S
M
L
XL
10best
Paraphrase
(2.7M rules, 32 MB)
Paraphrase
(4.3M rules, 51 MB)
Paraphrase
(6.0M rules, 72 MB)
Paraphrase
(11.7M rules, 140 MB)
Paraphrase
(15.0M rules, 211 MB)

データのサイズは言い換え確率の閾値によって設定されます。
本データにおいてはS, M, L, XLの閾値(threshold)をそれぞれ 0.20, 0,10, 0.05, 0.01 として、
P(j'|j)およびP(j|j')が閾値以上である場合、それを採用します。
P(j'|j) >= threshold && P(j|j') >= threshold
また、10bestでは、閾値に関係なく、言い換え確率でソートされた上位10の言い換えを採用しています。

仕様情報

一行につき一つの言い換えを示します。
SOURCE:j ||| TARGET:j' ||| (FEATURE=VALUE)* ||| ALIGNMENT
フレーズは形態素ごとに半角スペースで区切られ、また言い換え確率もそれぞれP(j'|j)とP(j|j')が
半角スペース区切りで1つづつ与えられます。
以下の例では、「仏語」が言い換え確率 P( フランス 語 の 翻訳 の:j' | 仏語:j ) = 0.2 として、
「フランス 語 の 翻訳 の」に言い換えられることを示します。
仏訳 ||| フランス 語 の 翻訳 の ||| 0.2 0.2 ||| 57415 1 5

論文情報

以下の論文情報をご利用ください。

Masahiro Mizukami, Graham Neubig, Sakriani Sakti, Tomoki Toda, Satoshi Nakamura.
Building a Free, General-Domain Paraphrase Database for Japanese
The 17th Oriental COCOSDA Conference. Thailand. September 2014.

水上 雅博,Graham Neubig,Sakriani Sakti,戸田 智基,中村 哲.
日本語言い換えデータベースの構築と言語的個人性変換への応用
言語処理学会第20回年次大会(NLP2014).北海道.2014年3月.

開発情報

リーダー
  • 水上 雅博

開発参加、ご意見、不具合報告等を歓迎いたします。
masahiro-mi at is.naist.jpまでご連絡ください。

更新履歴

2014/09/21
  • Building a Free, General-Domain Paraphrase Database for Japaneseで提案した、
    事前並び替えを用いたアライメント精度向上版の言い換えデータベースを公開
2014/07/11
  • 言い換え確率が閾値以下のデータが混入している問題を修正
    (ご指摘してくださった藤田 篤氏に感謝いたします。)
2014/04/08
  • Nileアライメントバージョンの配布開始
2014/02/08
  • コーパス情報およびライセンス情報を更新
  • サイズ別データベースの配布開始
2014/01/24
  • PPDB:Japanese 0.0.1 リリース
  • 論文情報更新

コーパス情報

PPDB:Japanese(日本語言い換えデータベース)は以下のコーパスから構築されています。

青空文庫の日本語対訳文対応付けデータ
NICTの内山将夫さんが公開されているものを利用しています。
これらは原則として著作権の期限が過ぎたものを中心に作成されており、2次配布が許可されていないものをコーパス作成の時点で除外しています。
Common Crawl
Common Crawlの元データはすべてAmazon Common Crawlとして公開されている、ウェブから入手したものです。
対訳はこちらの論文の手法に基づいて、Jason Smithさんにより抽出されたものです。
EDICT
EDICTはJim Breen氏により作成されたWWWJDICの一部です。
Creative Commons Attribution Share-Alike Licenseによって公開されています。
Wikipedia日英京都関連文書対訳コーパス
Wikipedia日英京都関連文書対訳コーパスはNICTによって作成されたものです。
Creative Commons Attribution Share-Alike Licenseによって公開されています。
Tanaka Corpus
Tanaka CorpusはYasuhito Tanaka氏を中心に整備されたコーパスです。
Public Domainとして公開されています。
コーパスを提供していただきました皆様に深く感謝いたします。

ライセンス情報

PPDB:Japanese(日本語言い換えデータベース)は、コーパスのライセンス条件に基づき
Creative Commons Attribution Share-Alike Licenseでの利用が可能です。
これ以外の利用に関してご相談・ご連絡等ありましたらお気軽にお問い合わせください。