数据标注师 数据标注师是干什么的( 三 )


年初,刘梦缘单独接了一个“私单”,赚了2万元 。
那是一个大厂“丢”出来的单子,做无人驾驶的数据标注工作,由于公司手头上的人员都扑在另一个项目上,她拉了之前的一些老同事和10个兼职学生,干了个“包工头”的活 。
已经快1年没有亲自上阵标注文件的刘梦缘,只能硬着头皮和所有人一样移着鼠标,头顶、脖子、肘部、手腕、膝盖……都要一个个地标出来 。整整一周,一群人完成了几万个点位的标注——他们看似在科技的潮头,干的却是苦力活 。
本以为这单生意之后,可以继续接小单,可好景不长 。“4月份开始,很多新团队出现,压价特别狠,原来是标注的报价按毛算,现在报价单上都出现几分钱了” 。
数据标注行业有一套分工流程:巨头把任务交给中游的数据标注公司,再由中游包给下游的小公司、小作坊 , 有的小作坊还会进一步众包给“散户”:比如兼职学生 。一单生意几经转手,就造成了行业众包中介层叠越来越严重,利润所剩无几 。
“AI 肯定是未来的大趋势,但我们这些小公司很迷茫,听说很多公司都不干了 。”刘梦缘本想着“私单”做得差不多了之后就出来单干,可这样的行业情况下,她能感受到的只有压力 。
困境、挣扎尽管目前的情况不乐观 , 刘梦缘依旧相信,数据标注行业最终会大浪淘沙,而他们,是走到最后的那一批 。
从好的局面来看,下游市场陷入混战的同时,上游的 AI 市场从未停止过发展 , AI正在成为人们进入这个社会的“入口”,这让刘梦缘和其他从业者们感到充满希望 。

但行业也显露出严峻的一面,数据标注在迭代:大模型慢慢替代标注师,一些门槛更高、学科更细分的领域正露出头角 。比如,医疗健康领域需要对病理切片等进行标注 , 以腰椎间盘突出的 CT 片为例,标注员必须准确识别并标注出间盘的轮廓 。不过,很多医疗专家并没有时间和精力做数据标注 , 而这类工作又是普通的标注师无法胜任的,通常需要请医生或医学院的学生来做,结果就是成本居高不下 , 这些专业人员的成本是普通标注员的10倍 。
像刘梦缘之前那样手把手教人工智能学习的方式,被称为“有监督”的机器学习 。但当人工智能被逐渐成熟,它自身的识别能力与模型拟合准确度将不断提高,进入人机协作模式 。直至人工智能会在模型的注准确度与效率上完全超过人类,此时它便要离开人工标注 , 进入无监督机器学习 。
理论上说,每一个垂直场景随着技术发展,人工智能都有可能进入无监督学习状态 。AI的核心在于预测 , AI的下一个变革是无监督学习、常识学习 。也就是说,“老师”们正在努力让 AI 不依赖人类训练,自己去观察世界是如何运转的 , 并学会预测,最终AI要甩掉“老师” 。
但刘梦缘并没有很强的危机感:“我带领我们的人在做一件最有意义的事,在将每一个个体的智慧转化为 AI 。我能保证,如果未来 AI 取代人类,他们也会是最后一批被取代的 。”
为什么是最后一批?“因为总会有一个新的行业需要引入 AI,需要我们(标注师)为他们来做数据准备 。”

刘梦缘一直认为:“最大的一块市场是审核” 。随着 AI 技术的发展,早年一些基本的标注工作正被逐渐被淘汰 。以自动驾驶模型为例:以前靠人工来识别车、行人,如今则是由机器先标出来,然后人再去检查标注是否正确 。

推荐阅读