某高校教授邀請我當這方面的研究助理。範疇是有點興趣的,但不知道這個範疇發展前景如何,值不值得投資時間?


謝邀,句法學學生暫時不能提供嚴謹的、關於語料庫的說明。

【個人看法】

基礎的語料庫相當於一個【脫離真實語言使用者群體】的【語言環境】,使得【神經網路】在訓練階段可以脫離【語言使用者群體】的【手工輸入】及【手工正誤排查】。當然,語料庫內的語料也是由人工輸入的,不論何種方法。

【語料庫】的輸入方法在早期可能以【手工錄入】的方式收錄語料為主。隨著編程技術的發展,出現的爬蟲技術可以輕易地通過爬各種論壇用戶發言、文章、新聞等大量【真實語言使用者】所使用的真實語料網站,來為語料庫收錄語料。但這些語料在語法上出現的大量省略、行業術語、黑話等語言現象,使得語料的正確性可能會一定程度下降(基於神經網路可能不知道如何識別、假設語料的省略部分,對牽涉到日常用字的術語、黑話等也可能無法識別)。

【語料庫】的優點在於,可能可以避免由於【語言使用者】的【個人語言習慣】造成的神經網路訓練問題。即,大量的取材,取自於廣泛大量的語言使用者,使得訓練材料可以擁有廣泛性。

【關於問題】

  1. 語料庫 (Corpus) 在語言學研究裡面扮演的角色是什麼?

見【個人看法】,同。

2. 在學術圈會不會越來越重要?

基於語料庫「有多少人工,就有多少語料」的特性,建立語料庫實際上是一個【搬磚職業】。其重要性在於【多快好省】地【搬磚】,為【語言研究】提供大量正確的訓練素材,但不在於【語言研究】。

【免責】

本答案由非專業人士撰寫,正確性及權威性無法保證。


謝邀。

當助理莫不是做語料錄入工作?那就是實打實的搬磚了。

語料庫在語言學研究中始終是起輔助作用的,當然它可以大大促進語言學由單一定性研究走向定性與定量結合研究。而定量研究又是未來語言學的研究趨勢,所以語料庫這一輔助工具優越性不言而喻。語料庫語言學近年來發展異常迅猛,國內做的好以北外許家金組為代表。他們開發了各種在線和離線語料庫,涉及單語、雙語、平行語料庫,涵蓋各種語言類型。另外國外像BNC,COCA,國內CCL等都是眾所周知做得很出色的語料庫,關鍵是還不收費。另外順帶致敬一個小眾的紹興文理學院,他們古漢語語料庫不錯。

再縱觀這兩年國家社科基金項目,「基於語料庫…的研究」 這類課題簡直可以說是呈爆炸式增長,各高校也是將語料庫研究方法作為創新點大書特書。但目前總體來說,語料庫的建立是人工加體力活,作為科研輔助工具,它的發展速度再快也快不過語言積累,所以語料庫的建設者們做的可是福澤萬代的事業啊。


參加過一點兒最基礎的語料標註工作,學校也有定期舉辦語料庫語言學沙龍,感覺語料庫的發展前景還是非常好的,這是一個造福千秋萬代的工程,耗時耗力,但對於研究者來說,用途是極廣的。上課時常聽老師講起最先的語言學研究是自己去做卡片,耗費時間去做分類、做統計,而現在語料庫的發展為目前的語言學研究提供了諸多便利。很多語言研究都可以去語料庫里查找需要的語料,很多語料庫中的語料是已經進行標註的熟語料,省時省力,而且很多語料庫有相應的數據分析,還不斷地補充語料進行更新,版本升級,不斷改進。Corpus在未來重要與否,應該是肯定地,但這也取決於語料庫的質量,被淘汰的也不少。若語料基數太小,重複使用太多,也會被取代。總之,看好語料庫的發展前景,值得投入時間去做一做。


推薦閱讀:
查看原文 >>
相关文章