本文創作約3年前

少有的中文對話語料庫,

記錄一下格式相關信息,

貼出樣本以備快速參考,

從樣本看顯然已經分詞。

以下內容主要來自 Readme for conversation_data_v1.1

數據集有5個文件

1. post.index contains post_id with its contents

包含post_id及相關內容

首先是post_id,接著##作為分隔符,接著是內容

5個樣本:

0##祝 各位 朋友 2012 年 萬事如意 !

1##在 家 看 某 電視臺 跨年 晚會 倒數 , 想起 2000 年 的 那 個 千禧 時刻 , 作為 大四 的 學生 , 並且 在 chinaren 做 兼職 的 工作 , 與 一 羣 同學 兼 同事 到 樂傑士 餐廳 喫 夜宵 。 學生 的 懵懂 和 剛剛 開始 工作 的 憧憬 相 交織 , 加上 2000 這麼 一 個 整數 , 這 是 一 生 的 記憶 , 一 生 的 烙印 。 十二 年 後 , 再 祝 新年 快樂 !2##2012 新年 鐘聲 即將 敲響 之際 , 向 關心 華為 手機 終端 的 博友們 、 朋友們 致 新年 的 祝福 ! 感謝 一 年 來 您 的 關心 與 寶貴 意見 , 這 是 我們 不斷 改進 的 強大 動力 ! 幾 天 之後 1 月 9 日 美國 拉斯維加斯 CES 展 上 , 華為 將 發布 讓 世界 震驚 的 旗艦 智能 手機 ! 至少 三 個 世界 No.1 ! 感謝 追求 卓越 的 研發 、 測試 與 供應鏈 兄弟 姐妹們 的 辛勤 努力 ! !3##中國 科大 2012 年 校友 新年 賀卡 北美 鏡像 已 發布 , 請 見 : 或 訪問 能 幫 我 看看 速度 可以麼 ? 如果 五 分鐘 刷新 , 我們 就 在 你們 家 裝 一 臺 伺服器 !4##能 和 我 的 朋友 還 有 軟院 的 學生 一 起 度 過 忙碌 和 豐富 的 2011 , 是 我 人生 的 禮物 ! 謝謝 大家 一路 以來 的 支持5##謝謝 , 2012 年 零點 鐘聲 中 祝 新年 快樂 , 心想 事成 !

2. response.index contains response_id with its contents

包含response_id及其內容

首先是response_id,接著##作為分隔符,接著是內容

5個樣本:

0##祝 湯 教授 新年 快樂

1##謝謝 ; 祝 你 新年 快樂2##祝 各位 朋友 2012 年 十 有 七八 事 如意 ! 看 我 數學 文化 學得 好 吧 …3##喜歡 教授 的 內容 , 受益匪淺 , 祝 新年 快樂 !4##數學 文化 , 代代 傳承 !5##祝願 我 考研 數學 得 個好 成績 ! ! !

3. original.pair original post-response pairs

原始的post-response對信息,post_id和response_id是以:分隔,一個post可能有多個response(逗號分隔)

5個樣本:

0:0,1,2,3,4,5,6,7,10,12,13,24,25,29,32,36,359,455,640,679

1:8,11,14,19,41,67,73,83,107,416,960,9662:9,15,16,17,18,20,22,23,26,28,30,33,34,35,37,38,39,42,43,44,45,47,48,51,53,56,58,59,60,62,63,64,65,66,68,70,71,72,74,75,76,77,78,79,84,85,94,110,119,134,135,136,137,142,150,151,153,154,155,162,164,166,168,169,172,176,185,186,188,189,190,195,197,201,202,205,209,211,226,227,229,234,237,250,254,255,258,263,266,267,276,292,301,305,337,340,346,349,353,3623:21,274:31,40,52,97,100,5635:46,284

4. labeled.pair labeled post-response pairs

帶標籤的post-response對信息,post_id和response_id是以:分隔,每一行中一個post只有一個response(逗號分隔)

標籤,post_ID, response_ID

都是以逗號分隔,其中2表示這一對是『合適的』,1反之

5個樣本

1,10270,259712

1,10270,2726661,10270,1267212,10270,1267281,10270,126754

5. Readme readme of this dataset

注意帶標籤的數據只是原始庫的一個很小的子集,並且不是原始庫指定的

以下是統計和引用:

--------------------------

Statistics of this dataset--------------------------

Retrieval_Repository

#posts 38,016 #responses 618,104 #original_pairs 618,104Labeled_Data #posts 422 #responses 12,402 #labeled_pairs 12,402---------------Please cite the following paper if you publish any result on this data set. Reference paper:

---------------

[1] Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen. A Dataset for Research on Short-Text Conversation, In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), 935-945, 2013.

推薦閱讀:

相關文章