年初的時候,瞭解到人工智慧數據標註這個工作,當時就對這個行業充滿興趣,加上身處5線城市,各方面成本都低(小城市唯一的優勢了),就投身到這行業當中了。最早接觸的就是百度,可進入之後發現,每天的任務量根本不夠,想辦法從網上聯繫人工智慧公司吧,其他的基本都是一些特別短期的活。而且要求團隊人數特別多,週期特別短。

我現在就陷入了迷茫期,每月的收入還顧不上員工的工資,但現在已經把所有身價全部投入到了這個裡邊,有任務的時候其實我還挺喜歡這個行業帶給我的工作氛圍。

作為一個小的數據標註團隊,未來的前景能有幾年,如果想要繼續發展,需要怎麼去與大公司聯繫上,希望各位老師能幫忙解答一下!


人工智慧行業流傳著一句古老的讖言:有多少智能,就有多少人工

中國人工智慧崛起速度如此的迅猛,引起了老牌智能強國美國越來越緊密的關注。就在不到一個月前,中科院院士、中國科學技術大學教授潘建偉等人與德國、荷蘭的科學家合作,在國際上首次實現了20光子輸入60×60模式干涉線路的玻色取樣量子計算,在四大關鍵指標上均大幅刷新國際記錄,逼近實現量子計算研究的重要目標「量子霸權」!

還沒有完全脫離對中國「山寨」「抄襲」印象的外國人,難以理解為什麼中國在人工智慧這樣的高尖端技術方面,走的這麼快、這麼遠?速度遠遠自己國家?

他們觀察中國的人工智慧發展,分析其中的原因,預測未來的走勢。他們意識到,並非所有國家有能力以及魄力,像中國這樣投入如此大量資金去扶持一個產業。

AI發展的三大支柱:數據、演算法、算力,演算法和算力差距顯然沒有那麼大。於是他們盯上了AI的基石:數據。

被忽視的數據標註,最關鍵的AI基石

谷歌AI和谷歌大腦負責人Jeff Dean曾在公開場合這樣強調數據對於人工智慧演算法的重要性:

可以看到,深度學習演算法精度的提升嚴重依賴於數據,也就是說,誰掌握了更多的數據、更精準的數據,那麼誰的演算法精度也就會更領先一步,誰的AI發展速度自然就更快一些。

數據是人工智慧賴以發展的基石,可他偏偏又是勞動密集型的。如果說演算法和算力體現的是人工智慧的「智能」部分,那麼數據標註就體現了「人工」。

數據標註沒有什麼神祕性,很多時候一個訓練有素的技工可以非常出色的完成數據標註任務。

Vice曾有記者實地探訪河南AI村,考察那些給人工智慧貼標的新「富士康工人」;支付寶公益基金會、阿里巴巴人工智慧實驗室聯閤中國婦女發展基金會在貴州銅仁萬山區啟動了「AI豆計劃」,作為一種 「AI+扶貧」的公益新模式。

像河南、貴州這些從業者不需要背井離鄉,培訓後即可上崗。

這就導致數據標註一直以來存在感極低。從下圖我們可以看出,數據標註佔據了一個機器學習任務25%的時間。

實際上,雖然表面上看起來數據標註毫無技術含量可言,實際上卻是人工智慧成功的關鍵制約因素之一。只有給演算法投餵足夠精準的數據,纔有可能將其落地用於實際場景中。

數據標註是實實在在的軍備競賽

數據標註是如此的不顯眼,又如此的重要,稱其為軍備競賽並不為過。

實際上,中國人工智慧的迅猛發展,和當年中國經濟發展頗有些相似之處。開局都是用勞動密集型項目,用低成本迅速擴大規模佔領市場。

相比歐美等國而言,我們海量的勞動力資源以及相對低廉的勞動力成本,成為克敵制勝的攻堅利器。人工數據標註彌補了我們在演算法和算力上的差距,加速了我們趕超對手的步伐。

雖然現在各種自監督學習、半監督學習等方法的提出,試圖不斷的降低對人工標註數據的依賴,然而就該目的實現尚有很長一段路要走。

根據智研發布的《2019-2025年中國數據標註與審核行業市場專項分析研究及投資前景預測報告》顯示:中國數據標註與審核行業快速發展,2018年市場規模已達到52.55億元,其中,有三分之一是AI公司內部的標註部門消化,

人工智慧外包公司、人工智慧企業部門、第三方數據標註與審核公司三分市場。報告預測至少在未來的5年內,數據標註行業的增長空間還很大,數據標註的市場才剛打開,數據需求將緊隨人工智慧的大規模落地引來一波爆髮式增長。

經濟學人一篇文章認為,中國雖然依舊緩慢,卻在不斷縮短和美國之間的差距。精美的美國人自然早就嗅到了危機,將數據標註是為是一場結結實實、實實在在的軍備競賽。

數據服務進入精細化階段

隨著人工智慧技術的不斷發展,技術含量低的數據標註基礎性的工作也在趨於減少。取而代之的是更偏情緒判斷、考驗理解能力甚至推理能力的數據標註任務。

而數據標註服務也從通用、開源、免費、集中走向細分、定製、收費、眾包,可以想像未來將會有出現經過嚴格培訓、更專業化的數據標註師,數據標註行業的進入門檻也開始拉大差,專業化、場景化、定製化將成為行業趨勢


大公司任務基本都被幾個有自己標註平臺的公司瓜分了,所以從他們手裡接需求、採用眾包的方式做任務將是未來很長一段世界的業態,沒辦法,成本決定的嘛。

關於你說的任務量問題,首先,你可以聯繫多家標註公司,多去聯繫他們渠道負責人,多接任務,讓大家相信你。其次,你可以自己對接小的創業公司的數據需求。最後,你可以到龍貓數據平臺,和其他渠道一起做任務。

龍貓數據任務量應該是業界最多的,但是對標註團隊要求也高,如果自覺自己團隊做得好,歡迎加入。


謝邀。

這個行業的需求肯定有,數據行業的成功始終離不開高質量的數據。再好再高級的數據清洗方法,都抵不上人工標註的數據。我自己曾經有個預測,就是人工智慧行業發展到完全成熟的狀態,作為基礎的人工數據準備,和作為頂層的數據分析演算法,都是無法徹底被AI取代的。

另一方面,不得不承認的是,人工標註這件事,本身技術門檻不高,你可以做,別人也可以做,這樣的行業很容易迅速飽和。不好拉訂單,某種程度上也是因為,訂單被別人搶走了。

結論是,行業有存在的必要性,被AI取代的可能性低,但是不容易構建護城河,競爭激烈。


我覺得現在外包公司太多了,專做標註的公司從他們手上接的活成本價都不夠,還一味的拖欠結算工資,很是頭疼


情緒上,本人總體持悲觀態度。短期應該還行,但長遠來看,這個行業肯定是沒有保證的。目前常見的數據標註任務,例如命名體識別,圖像識別,現在還有市場,五年以內應該也有市場,但五年以後會怎麼樣,真的很不好說。所以必須時刻跟進行業發展,說不定什麼時候就得轉型或者被喫掉了。

之所以拿出來5年這個詞,是由於自己的親身經歷。5年前,2015年,神經網路演算法剛剛興起,大殺四方。那個時候想做一些泰語、越南語這樣的小語種命名體識別(NER)必須用當地語言的訓練數據來重新訓練模型。想直接跳過訓練數據的想法幾乎是天方夜譚。實際上 ,到了2017年,即便是學術界有了一些拿得出手的跨語言的 NLP 模型(例如 MUSE),真放到業界的命名提識別任務(例如識別商品標題中的關鍵信息),效果也是很差。而到了2018年和2019年,預訓練的語言模型一出來(BERT),尤其是多語言的預訓練模型一出來(XLM),很多跨語言的任務真的就可以跳過蒐集訓練數據這一步了。比如想搞一個越南語的 NER,你可以直接在 XLM 的基礎上,使用英文的訓練數據做 fine-tune,得到的模型就可以直接預測越南語。這樣就省去了越南語的數據任務,只關注英語就好了。而眾所周知,英文的訓練數據還是比較充足的。

我舉這個例子就是想說,zero-shot 和 few-shot 的機器學習方法正在逐漸擠壓數據標註的市場。你可能會說,在剛才的例子裡面仍然是需要英文的數據標註啊,是的,但總體上省去了很多語言的標註不是嗎?而且泛化能力強大的與訓練模型,使得同樣效果的機器學習模型所需要的訓練數據也減少了。這就會壓縮整體的市場。

以上是基於個人經驗和情緒的回答。但如果從理智的角度來看,將來機器學習的應用場景會越來越多,可能有更多的模型需要去訓練。例如,語音助手裡面,現在只支持十幾個意圖,所以只需要標註這麼多。但很有可能將來要支持幾十個,或者,每個意圖下面又有十幾個子意圖,這樣就得搞更多的訓練數據。這也是有可能的,除非有什麼更高級的技術革了當前這種方法論的命。

放到商業環境中,如果真的想走的更長遠,我倒是有一個腦洞:初級機器學習任務的整體外包。即,對方老闆提出一個需求,我這邊直接給出一套 baseline 解決方案,包括數據本身,預處理的 Pipeline,以及基礎的模型。例如,一個英語培訓公司想要一個語法檢錯系統,目前的做法大都是自己重金挖一個阿里P8,招人,成立團隊,找你們數據團隊標數據,然後訓練模型,然後調優。而我想說的是,你完全可以把其中的一部分工作包攬過來。你們派人去分析任務,建模,搞數據,然後給一個 baseline 的模型以及分析報告。對方以這個為基礎,決定下一步動作。如果效果好,高薪聘請P8來搞,有了現成的數據和 baseline,一切也都稍微快一點。如果效果不好,這個英語培訓機構也可以及時止損。現在的機器學習的門檻已經沒有那麼高了,AI 培訓班也遍地都是。如果只是做一個 baseline 模型,這樣的工作幾乎可以當成勞動密集型的。同時,想提升一個機器學習系統的效果,更多的時候也是去修改訓練數據。我認為這部分工作也可以嘗試外包,而數據標註團隊就可以利用自己的數據優勢。歡迎與我聯繫(逃)


推薦閱讀:
相關文章