組織方:搜狐、清華大學

獎金:¥75000

初賽提交時間:2019年4月8日 – 2019年5月10日

2019年4月8日,第三屆搜狐校園算法大賽正式開賽,同期面向參賽選手開放競賽結果提交。本次比賽聯合了清華大學等機構共同組織,面向全球範圍內的全日制學生。

本次比賽的主題是提取文章主題,並判斷文章對主題的情緒。我們生活在一個信息爆炸的世界,每天能接觸到不同的新聞文章,體裁也多種多樣,包括新聞快訊、廣告軟文、深度分析、事件評論,以及重要人物採訪等等。每天新產生的信息量已經極大地超過了讀者能夠接受的極限。所以,如果有一種機器模型,可以自動提取出文章的主題,並且判斷出文章對這些主題內容的情感傾向,就可以極大地提高閱讀和消化信息的效率。

參賽方式:

大賽頁面地址:https://biendata.com/competition/sohu2019/

友情提示,因涉及到數據下載,強烈建議大家登錄 PC 頁面報名參加~

競賽任務:

具體來說,參賽選手需要根據給定的文章,提取出文章中最重要的三個主題(也就是實體)。所謂實體,意思是人、物、地區、機構、團體、企業、行業等事物。和一般的實體抽取競賽任務不同的是,本次比賽還要求選手判斷文章對主題實體的情感傾向(包括積極、中立和消極三種情緒)。如下圖:

任務分析:

本次比賽可以分成相對獨立的兩個任務:從文章中提取最重要的實體,然後判斷文章對這些實體的情緒。

第一個任務是提取文章中重要的實體。這個任務類似常見的命名實體識別(NER)任務。傳統上來說,NER任務主要抽取7大類實體,包括人名、機構、地名、時間、日期、貨幣和百分比。目前,已經有很多關於命名實體(NER)的研究和分享出現。在斯坦福大學著名的課程CS224d: Deep Learning for Natural Language Processing中,有一次大作業就是用深度神經網絡提取命名實體。也有很多人已經自願分享了這次作業的模型方法和代碼。

作業任務鏈接:

http://cs224d.stanford.edu/assignment2/index.html

代碼分享:

《用深度神經網絡處理NER命名實體識別問題》

https://cloud.tencent.com/developer/article/1081991

本次大賽的發起人之一,搜狐科學家、搜狐智能媒體研發中心負責人楊田也推薦了一篇詳細的命名實體綜述論文A Survey on Recent Advances in Named Entity Recognition from Deep

Learning models。這篇論文的鏈接在:https://aclweb.org/anthology/C18-1182

不過,本次比賽的難度比傳統的NER要大。比賽的最大特點就是實戰與應用。行百里者半九十,在學術成果的基礎上,精度每嚮應用提高一點,難度就數倍增加,因此比賽的挑戰性非常大。比賽的實體不僅僅包括人名,地名和機構名的識別,粒度更細,種類也更多。在比賽前期發佈的樣本數據中,實體的例子包括:衆要機械APP、衛生監督站、媒介、豬瘟、互聯網、錶帶等內容。這也是目前實體抽取技術面對的難點。隨着互聯網的快速發展,信息越來越豐富,呈現出多源、異構、海量的特點,也對信息抽取技術提出了新的要求。很多時候,我們要抽取的並不是一般的實體,而是全新種類的實體。目前,越來越多的人開始研究實體擴展技術,目的是抽取開放類別的實體。

一種很自然的想法是把語料中所有的名詞都作爲實體備選,然後計算它們與訓練集中種子實體的相似度,找出相似實體。這一思路主要由Pantel等人實踐,相關研究記錄在Web-Scale Distributional Similarity and Entity Set Expansion一文中。

在提取出實體後,我們還需要判斷文章對實體的情緒。情感分析也是自然語言處理領域的一個重要方向。有大量相關研究可以參考。早期的研究根據構建好的情感詞庫進行判斷。情感詞庫有很多選擇,例如著名的知網HowNet就提供了“《知網》情感分析用詞語集”公開下載。在考慮情感詞庫時,還需要往前追溯1-2個詞,看看有沒有“不”、“沒有”等否定詞。這種方法需要人工構建情感詞庫,但沒有一個情感詞庫可以適用所有應用場景,所以高度依賴人的經驗。此外,這種方法也很難完整地考慮到上下文的語義信息。不過,如果剛剛上手情感分析,可以嘗試這種方法。以下鏈接是一篇基於情感詞典的文本情感分析代碼:http://www.aidnoob.com/ai/python/qinggan1/。

此後,還出現了基於特徵的情感分析方法。這種方法主要利用統計學領域的知識,從語料中選取特徵對文本進行表示,然後用決策樹、SVM等方法對情緒進行分類。這種方法仍然高度依賴經驗和特徵的選擇。相關研究有很多,比較詳細的案例介紹來自清華大學計算機系謝麗星在孫茂松教授指導下的碩士論文《基於SVM 的中文微博情感分析的研究》。這篇論文的原文鏈接在:http://nlp.csai.tsinghua.edu.cn/site/images/file/2011_xlx_master_thesis.pdf。論文主要使用SVM的方法,分別從微博和Twitter預料中抽取了主題相關特徵(如是否包含主題詞、句子中是否缺乏名詞性短語或者代詞等)和主題無關特徵(是否有url鏈接、是否有表情、是否有情感詞和情感短語、形容詞和動詞的個數等),在使用主題無關特徵時獲得的最高準確率爲 66.467%,使用主題相關的特徵對情感分類後獲得的最高準確率爲 67.283%。

目前主要的情感分析方法大多基於深度學習,首先對詞語、句子和篇章進行向量化表示,然後學習文本的深層語義信息。這種方法可以自動學習特徵,不需要人工進行特徵選擇和規則制定。很多情感分析研究使用NLP常見的RNN,加上LSTM和注意力機制保證語義的完整性。例如,騰訊的徐漢彬和宋彥就曾經分享了Keras代碼實現對40 多萬條真實的鵝漫用戶評論數據的情感分類。他們的代碼通過 Keras 實現,底層框架是 Google 開源的 TensorFlow,詞向量採用騰訊人工智能實驗室開源的詞向量。整個模型包含 6 層,核心層包括 Embedding 輸入層、中間層(LSTM)、輸出層(Softmax)。模型中的 Flatten 和 Dense 層用於做數據維度變換,將上一層輸出數據變換爲相應的輸出格式,最終的輸出是一個二維數組,用於表達輸入文本是正面或者負面的概率分佈。文章鏈接:《基於 LSTM 的情感識別在鵝漫評論分析中的實踐與應用》,https://www.infoq.cn/article/zJI*5CGPeRKqHsHJV3OQ。

很多論文和公開代碼主要針對文檔級別的情感分析。但是在本次比賽中,需要更加細緻的分析,因爲一篇文章裏可能對不同的實體有不同的情緒。我們在比賽前期給的數據樣本里,已經能看到類似的情況。例如以下這篇文章:{"content": "華爲宣佈:起訴美國政府。 新聞越短,信息越大。 就在上午10時,華爲在深圳總部舉行外媒記者會,宣佈一項重要決定:起訴美國政府。 北京時間10時,在外媒記者會上,華爲輪值董事長郭平宣佈,華爲已向美國聯邦法院提起訴訟,指控美國2019年國防授權法第889條款違反美國憲法。 在郭平的表述中,美國政府一直污衊華爲是威脅,還攻擊華爲的服務器,竊取郵件和源代碼,而且從來沒有提供任何證據支撐其關於華爲是網絡安全威脅的指控。 而且,美國竭力詆譭華爲、影響公衆輿論。更糟糕的是,美國政府試圖阻止華爲參與其他國家的5G網絡建設。 而採取法律行動是華爲不得已而爲之的最後選擇,也是受盡壓迫之後的奮力反抗。 爲什麼華爲這麼有底氣去起訴美國政府,除了華爲過硬的技術、品牌的成績之外,這更離不開一個人——任正非,華爲的創始人。}

這裏,人類標註員就判斷文章對實體“華爲”的情緒爲正,對實體“美國政府”的情緒爲負。事實上我們讀完這段文本後很可能也確實同意這一標註判斷。在這種情況下,我們就不能只對文檔級別的內容做情感分析,還需要對粒度更細的內容做分析。

對此,我們可以參考更前沿的研究論文。2016年,清華大學朱小燕和黃民烈在EMNLP上發表了一篇情感粒度更細的論文Attention-based LSTM forAspect-level Sentiment Classification。這篇論文提出了一種基於注意力機制(Attention Mechanism)的神經網絡模型,使用注意力機制注意到文本中對給出的aspect最重要的部分,從而更充分地考慮文本對應的aspect信息,提高細粒度情感分類任務的性能。

根據這篇論文提出的改進,可以識別很多之前的模型無法識別的細粒度情感。例如,“The appetizer are ok, but the service is slow”這句話裏出現了兩個實體(或者說aspect)。food對應的是中性,service對應的是負面。

最後,搜狐官方也給所有參賽者提供了比賽的baseline供大家參考:https://github.com/sohucampus2019/coreEntityEmotion_baseline。

聲明:該文觀點僅代表作者本人,搜狐號系信息發佈平臺,搜狐僅提供信息存儲空間服務。
相关文章