2019年4月8日,第三屆搜狐校園內容識別算法大賽正式開賽,同期面向參賽選手開放競賽結果提交。搜狐攜手清華計算機系共同發起本屆大賽,面向全球範圍內的全日制在校生,旨在通過提供業務場景、真實數據、專家指導,選拔和培養有志於自然語言處理領域的算法研究、應用探索的青年才俊,共同探索更多可能、開啓無限未來。

大賽頁面地址:https://biendata.com/competition/sohu2019/

本次比賽的主題是提取文章主題,並判斷文章對主題的情緒。我們生活在一個信息爆炸的世界,每天能接觸到不同的新聞文章,體裁也多種多樣,包括新聞快訊、廣告軟文、深度分析、事件評論,以及重要人物採訪等等。每天新產生的信息量已經極大地超過了讀者能夠接受的極限。所以,如果有一種機器模型,可以自動提取出文章的主題,並且判斷出文章對這些主題內容的情感傾向,就可以極大地提高閱讀和消化信息的效率。

具體來說,參賽選手需要根據給定的文章,提取出文章中最重要的三個主題(也就是實體)。所謂實體,意思是人、物、地區、機構、團體、企業、行業等事物。和一般的實體抽取競賽任務不同的是,本次比賽還要求選手判斷文章對主題實體的情感傾向(包括積極、中立和消極三種情緒)。

本次比賽的數據來自搜狐智能媒體研發中心。搜狐智能媒體研發中心,是搜狐的核心用戶產品及智能技術研發部門。部門依託平臺化和智能化的技術能力,在內容領域不斷深耕,以提升用戶體驗爲核心目標,不斷推陳出新,改良現有產品,探索新形式。初賽將發佈8萬條數據,其中訓練集預計將有4萬條數據,每條數據中的文章都經過人工標註。參賽選手需要利用訓練集的數據和標籤開發自己的模型,並在測試集上評測自己的模型。

本次比賽是搜狐第三次組織算法大賽。2017年和2018年,搜狐分別以“圖文匹配”和“軟文識別”爲主題,主辦過兩次算法大賽,在全國範圍內引起了很大的反響,兩次比賽吸引了國內外一千多支隊伍參賽。

本次競賽總獎金爲7萬5千元,前10名的隊伍可獲得證書,每個隊伍都有一個人獲得搜狐招聘面試直通車的機會。有意向參賽的選手即日起登錄承辦方數據競賽平臺Biendata.com可獲取更多相關信息並下載數據集。

參賽方式:

大賽頁面地址:https://biendata.com/competition/sohu2019/

友情提示,因涉及到數據下載,強烈建議大家登錄 PC 頁面報名參加。

聲明:該文觀點僅代表作者本人,搜狐號系信息發佈平臺,搜狐僅提供信息存儲空間服務。
相关文章