目前想換工作,做數據標註員這一塊。就是不知道以後發展崗位是怎麼樣的?

數據標註員晉陞崗位方向是哪些呢?數據標註員跟大數據行業哪些崗位更密切,容易轉崗呢?


很贊你能有這樣的敏銳度。

從數據管線來說,依次是數據採集、清洗、標註及特徵提取,再往後是知識挖掘這些。

標註的前段是自動化,後段也是自動化。其實共組強度是非常大的。

標註工作的延展性有兩種可能,一是往業務領域走,及業務知識的規則抽取和翻譯,他是定義標註員工作程序的人。二是往前段、後段的工序走,參與自動化工具的開發或者維護。

這兩個方向都是技術型崗位,需要新的技能和知識學習,並不容易。

建議關注行業,比如自動駕駛或者智能安防明顯好於教育。選對一個大行業,未來轉換職位機會的的可能性會更大。

我們有些職位的和行業的數據分析,可以來看看http://www.uvfortune.cn


回答這個問題之前,我覺得有必要科普一下數據標註員是做什麼的?

首先談談什麼是數據標註。數據標註有許多類型,如分類、畫框、注釋、標記等等,我們會在下面詳談。

要理解數據標註,得先理解AI其實是部分替代人的認知功能。回想一下我們是如何學習的,例如我們學習認識蘋果,那麼就需要有人拿著一個蘋果到你面前告訴你,這是一個蘋果。然後以後你遇到了蘋果,你才知道這玩意兒叫做「蘋果」。

類比機器學習,我們要教他認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標註著「蘋果」兩個字,然後機器通過學習了大量的圖片中的特徵,這時候再給機器任意一張蘋果的圖片,它就能認出來了。

這邊可以順帶提一下訓練集和測試集的概念。訓練集和測試集都是標註過的數據,還是以蘋果為例子,假設我們有1000張標註著「蘋果」的圖片,那麼我們可以拿900漲作為訓練集,100張作為測試集。機器從900張蘋果的圖片中學習得到一個模型,然後我們將剩下的100張機器沒有見過的圖片去給它識別,然後我們就能夠得到這個模型的準確率了。想想我們上學的時候,考試的內容總是不會和我們平時的作業一樣,也只有這樣才能測試出學習的真正效果,這樣就不難理解為什麼要劃分一個測試集了。

我們知道機器學習分為有監督學習和無監督學習。無監督學習的效果是不可控的,常常是被用來做探索性的實驗。而在實際產品應用中,通常使用的是有監督學習。有監督的機器學習就需要有標註的數據來作為先驗經驗。

在進行數據標註之前,我們首先要對數據進行清洗,得到符合我們要求的數據。數據的清洗包括去除無效的數據、整理成規整的格式等等。具體的數據要求可以和演算法人員確認。

常見的幾種數據標註類型

1.分類標註:分類標註,就是我們常見的打標籤。一般是從既定的標籤中選擇數據對應的標籤,是封閉集合。如下圖,一張圖就可以有很多分類/標籤:成人、女、黃種人、長發等。對於文字,可以標註主語、謂語、賓語,名詞動詞等。

適用:文本、圖像、語音、視頻

應用:臉齡識別,情緒識別,性別識別

2.標框標註:機器視覺中的標框標註,很容易理解,就是框選要檢測的對象。如人臉識別,首先要先把人臉的位置確定下來。行人識別,如下圖。

適用:圖像

應用:人臉識別,物品識別

3.區域標註:相比於標框標註,區域標註要求更加精確。邊緣可以是柔性的。如自動駕駛中的道路識別。

適用:圖像

應用:自動駕駛

4.描點標註:一些對於特徵要求細緻的應用中常常需要描點標註。人臉識別、骨骼識別等。

適用:圖像

應用:人臉識別、骨骼識別

5.其他標註:標註的類型除了上面幾種常見,還有很多個性化的。根據不同的需求則需要不同的標註。如自動摘要,就需要標註文章的主要觀點,這時候的標註嚴格上就不屬於上面的任何一種了。(或則你把它歸為分類也是可以的,只是標註主要觀點就沒有這麼客觀的標準,如果是標註蘋果估計大多數人標註的結果都差不多。)

那麼,數據標註員發展職業線是怎麼樣的?

數據標註員可以說是AI消滅了一部分工作又創造出來的一種工作。在未來AI發展良好的前提下,數據的缺口一定是巨大的。可以預見3-5年內數據標註員的需求會一直存在。

至於發展,其實所謂一些熟能生巧的工作,都是有被替代掉的風險的。深度學習解決的一件事情就是熟能生巧。在這個崗位上,其實你的一些想法就代表了AI的想法,AI會根據你標註的數據進行學習,想想還是有點成就感的。

數據標註可以說是AI的入門級崗位,未來可轉向其他AI崗位。項目實施顧問、數據分析師、數據挖掘工程師等,這就要求更多的工作技能,需要再工作中積累。


因為創業我組建了幾十個人的業餘兼職文本標註團隊,我請的大部分是本科左右學歷,一般是在校學生,三四線城市的基層公務員或者中小學老師,國企工程師之類的,成本費用比較低。

我不太贊同數據標註會成立為一個單獨的職業,因為目前人工智慧支撐不了這個成本,舉個例子來說,醫學數據標註就需要非常專業的人員,但是如果全職來請這個,那基本上成本不可控制。對標註員個人來講,基本上他也沒有前途。

而且標註文本數據基本上和領域相關,也不太可能長期的需要/存在大量的標註任務。


數據標註員職業發展線是:標註員——質檢員——項目經理。

數據標註員的工作是藉助標註工具對數據進行標註,產出滿足機器學習的標註數據集。在數據標註行業中,標註員是最基礎的崗位。

隨著標註員業務能力水平的提升,標註員可以提升至質檢員。相比於標註員,質檢員對於標註業務能力要求比較高,對於標註文檔的理解力要求也比較高,一個質檢員往往要質檢多個標註員的標註結果。

項目經理是標註員職業發展的更高階段,項目經理不僅需要具備高水準的標註能力,同時也要具備很強的項目管理經驗以及項目對接能力。


標註員上面是審核員 做的好的話也可以做技術指導 帶團隊


推薦閱讀:
相關文章