年初的时候,了解到人工智慧数据标注这个工作,当时就对这个行业充满兴趣,加上身处5线城市,各方面成本都低(小城市唯一的优势了),就投身到这行业当中了。最早接触的就是百度,可进入之后发现,每天的任务量根本不够,想办法从网上联系人工智慧公司吧,其他的基本都是一些特别短期的活。而且要求团队人数特别多,周期特别短。

我现在就陷入了迷茫期,每月的收入还顾不上员工的工资,但现在已经把所有身价全部投入到了这个里边,有任务的时候其实我还挺喜欢这个行业带给我的工作氛围。

作为一个小的数据标注团队,未来的前景能有几年,如果想要继续发展,需要怎么去与大公司联系上,希望各位老师能帮忙解答一下!


人工智慧行业流传著一句古老的谶言:有多少智能,就有多少人工

中国人工智慧崛起速度如此的迅猛,引起了老牌智能强国美国越来越紧密的关注。就在不到一个月前,中科院院士、中国科学技术大学教授潘建伟等人与德国、荷兰的科学家合作,在国际上首次实现了20光子输入60×60模式干涉线路的玻色取样量子计算,在四大关键指标上均大幅刷新国际记录,逼近实现量子计算研究的重要目标「量子霸权」!

还没有完全脱离对中国「山寨」「抄袭」印象的外国人,难以理解为什么中国在人工智慧这样的高尖端技术方面,走的这么快、这么远?速度远远自己国家?

他们观察中国的人工智慧发展,分析其中的原因,预测未来的走势。他们意识到,并非所有国家有能力以及魄力,像中国这样投入如此大量资金去扶持一个产业。

AI发展的三大支柱:数据、演算法、算力,演算法和算力差距显然没有那么大。于是他们盯上了AI的基石:数据。

被忽视的数据标注,最关键的AI基石

谷歌AI和谷歌大脑负责人Jeff Dean曾在公开场合这样强调数据对于人工智慧演算法的重要性:

可以看到,深度学习演算法精度的提升严重依赖于数据,也就是说,谁掌握了更多的数据、更精准的数据,那么谁的演算法精度也就会更领先一步,谁的AI发展速度自然就更快一些。

数据是人工智慧赖以发展的基石,可他偏偏又是劳动密集型的。如果说演算法和算力体现的是人工智慧的「智能」部分,那么数据标注就体现了「人工」。

数据标注没有什么神秘性,很多时候一个训练有素的技工可以非常出色的完成数据标注任务。

Vice曾有记者实地探访河南AI村,考察那些给人工智慧贴标的新「富士康工人」;支付宝公益基金会、阿里巴巴人工智慧实验室联合中国妇女发展基金会在贵州铜仁万山区启动了「AI豆计划」,作为一种 「AI+扶贫」的公益新模式。

像河南、贵州这些从业者不需要背井离乡,培训后即可上岗。

这就导致数据标注一直以来存在感极低。从下图我们可以看出,数据标注占据了一个机器学习任务25%的时间。

实际上,虽然表面上看起来数据标注毫无技术含量可言,实际上却是人工智慧成功的关键制约因素之一。只有给演算法投喂足够精准的数据,才有可能将其落地用于实际场景中。

数据标注是实实在在的军备竞赛

数据标注是如此的不显眼,又如此的重要,称其为军备竞赛并不为过。

实际上,中国人工智慧的迅猛发展,和当年中国经济发展颇有些相似之处。开局都是用劳动密集型项目,用低成本迅速扩大规模占领市场。

相比欧美等国而言,我们海量的劳动力资源以及相对低廉的劳动力成本,成为克敌制胜的攻坚利器。人工数据标注弥补了我们在演算法和算力上的差距,加速了我们赶超对手的步伐。

虽然现在各种自监督学习、半监督学习等方法的提出,试图不断的降低对人工标注数据的依赖,然而就该目的实现尚有很长一段路要走。

根据智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》显示:中国数据标注与审核行业快速发展,2018年市场规模已达到52.55亿元,其中,有三分之一是AI公司内部的标注部门消化,

人工智慧外包公司、人工智慧企业部门、第三方数据标注与审核公司三分市场。报告预测至少在未来的5年内,数据标注行业的增长空间还很大,数据标注的市场才刚打开,数据需求将紧随人工智慧的大规模落地引来一波爆发式增长。

经济学人一篇文章认为,中国虽然依旧缓慢,却在不断缩短和美国之间的差距。精美的美国人自然早就嗅到了危机,将数据标注是为是一场结结实实、实实在在的军备竞赛。

数据服务进入精细化阶段

随著人工智慧技术的不断发展,技术含量低的数据标注基础性的工作也在趋于减少。取而代之的是更偏情绪判断、考验理解能力甚至推理能力的数据标注任务。

而数据标注服务也从通用、开源、免费、集中走向细分、定制、收费、众包,可以想像未来将会有出现经过严格培训、更专业化的数据标注师,数据标注行业的进入门槛也开始拉大差,专业化、场景化、定制化将成为行业趋势


大公司任务基本都被几个有自己标注平台的公司瓜分了,所以从他们手里接需求、采用众包的方式做任务将是未来很长一段世界的业态,没办法,成本决定的嘛。

关于你说的任务量问题,首先,你可以联系多家标注公司,多去联系他们渠道负责人,多接任务,让大家相信你。其次,你可以自己对接小的创业公司的数据需求。最后,你可以到龙猫数据平台,和其他渠道一起做任务。

龙猫数据任务量应该是业界最多的,但是对标注团队要求也高,如果自觉自己团队做得好,欢迎加入。


谢邀。

这个行业的需求肯定有,数据行业的成功始终离不开高质量的数据。再好再高级的数据清洗方法,都抵不上人工标注的数据。我自己曾经有个预测,就是人工智慧行业发展到完全成熟的状态,作为基础的人工数据准备,和作为顶层的数据分析演算法,都是无法彻底被AI取代的。

另一方面,不得不承认的是,人工标注这件事,本身技术门槛不高,你可以做,别人也可以做,这样的行业很容易迅速饱和。不好拉订单,某种程度上也是因为,订单被别人抢走了。

结论是,行业有存在的必要性,被AI取代的可能性低,但是不容易构建护城河,竞争激烈。


我觉得现在外包公司太多了,专做标注的公司从他们手上接的活成本价都不够,还一味的拖欠结算工资,很是头疼


情绪上,本人总体持悲观态度。短期应该还行,但长远来看,这个行业肯定是没有保证的。目前常见的数据标注任务,例如命名体识别,图像识别,现在还有市场,五年以内应该也有市场,但五年以后会怎么样,真的很不好说。所以必须时刻跟进行业发展,说不定什么时候就得转型或者被吃掉了。

之所以拿出来5年这个词,是由于自己的亲身经历。5年前,2015年,神经网路演算法刚刚兴起,大杀四方。那个时候想做一些泰语、越南语这样的小语种命名体识别(NER)必须用当地语言的训练数据来重新训练模型。想直接跳过训练数据的想法几乎是天方夜谭。实际上 ,到了2017年,即便是学术界有了一些拿得出手的跨语言的 NLP 模型(例如 MUSE),真放到业界的命名提识别任务(例如识别商品标题中的关键信息),效果也是很差。而到了2018年和2019年,预训练的语言模型一出来(BERT),尤其是多语言的预训练模型一出来(XLM),很多跨语言的任务真的就可以跳过搜集训练数据这一步了。比如想搞一个越南语的 NER,你可以直接在 XLM 的基础上,使用英文的训练数据做 fine-tune,得到的模型就可以直接预测越南语。这样就省去了越南语的数据任务,只关注英语就好了。而众所周知,英文的训练数据还是比较充足的。

我举这个例子就是想说,zero-shot 和 few-shot 的机器学习方法正在逐渐挤压数据标注的市场。你可能会说,在刚才的例子里面仍然是需要英文的数据标注啊,是的,但总体上省去了很多语言的标注不是吗?而且泛化能力强大的与训练模型,使得同样效果的机器学习模型所需要的训练数据也减少了。这就会压缩整体的市场。

以上是基于个人经验和情绪的回答。但如果从理智的角度来看,将来机器学习的应用场景会越来越多,可能有更多的模型需要去训练。例如,语音助手里面,现在只支持十几个意图,所以只需要标注这么多。但很有可能将来要支持几十个,或者,每个意图下面又有十几个子意图,这样就得搞更多的训练数据。这也是有可能的,除非有什么更高级的技术革了当前这种方法论的命。

放到商业环境中,如果真的想走的更长远,我倒是有一个脑洞:初级机器学习任务的整体外包。即,对方老板提出一个需求,我这边直接给出一套 baseline 解决方案,包括数据本身,预处理的 Pipeline,以及基础的模型。例如,一个英语培训公司想要一个语法检错系统,目前的做法大都是自己重金挖一个阿里P8,招人,成立团队,找你们数据团队标数据,然后训练模型,然后调优。而我想说的是,你完全可以把其中的一部分工作包揽过来。你们派人去分析任务,建模,搞数据,然后给一个 baseline 的模型以及分析报告。对方以这个为基础,决定下一步动作。如果效果好,高薪聘请P8来搞,有了现成的数据和 baseline,一切也都稍微快一点。如果效果不好,这个英语培训机构也可以及时止损。现在的机器学习的门槛已经没有那么高了,AI 培训班也遍地都是。如果只是做一个 baseline 模型,这样的工作几乎可以当成劳动密集型的。同时,想提升一个机器学习系统的效果,更多的时候也是去修改训练数据。我认为这部分工作也可以尝试外包,而数据标注团队就可以利用自己的数据优势。欢迎与我联系(逃)


推荐阅读:
相关文章