AI Challenger 2018 已近尾聲,各賽道top選手已經結束了代碼核驗,正在準備12月18、19日 AI Challenger 決賽答辯材料的路上。在本年度 AI Challenger 即將塵埃落定之時,這裡整理一批目前網上可見的文本挖掘相關賽道的解決方案和代碼,歡迎補充,同時感謝github,感謝各位開源的同學。

細粒度用戶評論情感分析

在線評論的細粒度情感分析對於深刻理解商家和用戶、挖掘用戶情感等方面有至關重要的價值,並且在互聯網行業有極其廣泛的應用,主要用於個性化推薦、智能搜索、產品反饋、業務安全等。本次比賽我們提供了一個高質量的海量數據集,共包含6大類20個細粒度要素的情感傾向。參賽人員需根據標註的細粒度要素的情感傾向建立演算法,對用戶評論進行情感挖掘,組委將通過計算參賽者提交預測值和場景真實值之間的誤差確定預測正確率,評估所提交的預測演算法。

貌似是最火爆的一個賽道,Testa 提交隊伍有468支,詳細介紹請參考該賽道主頁:challenger.ai/competiti

相關代碼或解決方案:

1. 官方baseline,基於SVM: sentiment_analysis2018_baseline

github.com/AIChallenger

2. 基於fastText的baseline: AI Challenger 2018 Sentiment Analysis Baseline with fastText

2.1 github.com/panyang/fast2.2 文章:AI Challenger 2018 細粒度用戶評論情感分析 fastText Baseline

3. 基於 SVM 的細粒度情感分析: github.com/scruel/senti

4. 第16名解決方案: github.com/xueyouluo/fs

5. 第17名解決方案:github.com/BigHeartC/Al

6. 基於Bert的嘗試:github.com/brightmart/s

7. ai challenger Competitions 1: Fine-grained Sentiment Analysis of User Reviews:

github.com/ShawnXiha/Fi

8. 細粒度用戶評論情感分析 (0.70201):github.com/pengshuang/A

8.1 相關文章1:zhuanlan.zhihu.com/p/478.2 相關文章2:zhuanlan.zhihu.com/p/47

9. AI Challenger 細粒度用戶評論情感分析線上0.62: zhuanlan.zhihu.com/p/44

觀點型問題閱讀理解

機器閱讀理解涉及信息檢索、文本匹配、語言理解、語義推理等不同層次的技術,對於複雜問題的處理甚至需要結合世界知識與常識知識,極具挑戰。為了進一步推動機器閱讀理解領域的技術發展,為研究者提供學術交流和模型評測的基準,本次競賽將重點針對閱讀理解中較為複雜的,需要利用整篇文章中多個句子的信息進行綜合才能得到正確答案的觀點型問題開展評測。本次競賽將利用準確率進行評分,作為主要評價指標。組委會將通過客觀指標,並結合答辯表現,綜合評估參賽者的演算法模型。

更多信息請參考官方主頁:challenger.ai/competiti

相關代碼或解決方案:

1. 官方baseline: 基於pytorch實現論文《Multiway Attention Networks for Modeling Sentence Pairs》

opinion_questions_machine_reading_comprehension2018_baselinegithub.com/AIChallenger

2. 將baseline遷移到了python 3.6.6,修正了錯誤,改變參數最高accuracy為 0.70370:

github.com/dreamnotover

3. 第18名解決方案:github.com/PanXiebit/ai

4. Testa 得分 73.2: github.com/antdlx/aic18

5. ai challenger 2018 s final code: github.com/NoneWait/ai_

6. 基於capsule的觀點型閱讀理解模型: github.com/freefuiiismy

7. AI Challenger 2018 閱讀理解賽道代碼分享:github.com/renjunxiang/

8. 奇點機智分享的可以在Testa上超越第一的BERT方案:BERT fine-tune 終極實踐教程

9. RCZoo: 從Testa棒的第22名到Testb棒的第2名,作者用「RCZoo@github.com/lixinsu/RCZo」 作為戰隊名打榜,不過RCZoo更像是一個通用的深度學習閱讀理解、問答系統解決方案和工具箱,至於在該項賽事中的細節需要作者來揭曉:

Question answering, reading comprehension toolkit:github.com/lixinsu/RCZo

英中文本機器翻譯

英中機器文本翻譯作為此次比賽的任務之一,目標是評測各個團隊機器翻譯的能力。本次機器翻譯語言方向為英文到中文。測試文本為口語領域數據。參賽隊伍需要根據評測方提供的數據訓練機器翻譯系統,可以自由的選擇機器翻譯技術。例如,基於規則的翻譯技術、統計機器翻譯及神經網路機器翻譯等。本次競賽將利用機器翻譯的客觀考核指標(BLEU、NIST score、TER)進行評分,BLEU得分會作為主要的機器評價指標。組委會將通過客觀指標,並結合答辯表現,綜合評估參賽者的演算法模型。

更多請參考該賽道主頁:challenger.ai/competiti

相關代碼或解決方案:

1. 官方baseline: 基於tensor2tensor和transformer的解決方案,估計也是本賽道大多數選手的方案,不同之處在於細節和參數的處理:

github.com/AIChallenger

2. TestB第10名同學的分享:AI Challenger_2018英中文本機器翻譯_參賽小結

zhuanlan.zhihu.com/p/50

3. Document-Transformer

這次英中機器翻譯比賽提供了上下文(Document)語料,我一直沒有找到合適的解決方案,直到看到了清華、搜狗和蘇州大學近期剛剛出品的這個論文和工具包,也許這才是本次比賽的一個解決秘鑰,感興趣的同學可以一試:

代碼:github.com/Glaceon31/Do

論文:Improving the Transformer Translation Model with Document-Level Context

持續更新,歡迎大家補充,也歡迎關注我們的微信公眾號:AINLP


推薦閱讀:
相关文章