那些好的大数据平台,数据平台介绍( 五 )


北京、上海、成都为需求企业分布前三地区 , 杭州数量下滑从需求企业来看 , 根据AI数据标注猿统计数据显示 , 2020年4月 , 国内数据标注业务相关公司数量为565家 , 2020年12月 , 数量增长至705家 。从数据标注需求企业地区分布情况来看 , 截至2020年12月 , 北京、上海、成都、深圳、杭州为数据标注企业分布TOP5城市 , 企业数量分别达到185家、84家、68家、63家、46家;其中北京、上海、成都、深圳企业数量均较2020年4月有所上升 , 杭州企业数量较2020年4月有所下降 。
市场集中度较低 , 未来将有所提升 , 行业并购成为趋势2019年 , AI数据标注行业CR5(前五大企业市场份额)为26.2% , 处于低集中竞争阶段 , 行业活力充足 , 发展空间良好 。前五大企业中 , 海天瑞声与百度数据众包越众而出 , 据了解 , 国内整体供应方中 , 以提供图像类数据采标服务的公司居多 , 内容涉及人像数据、OCR数据、自动驾驶数据等 , 业务需求较为分散 , 其中以百度数据众包营收份额占比最大 。
相比而言 , 语音类数据需求较为集中 , 且供应门槛高于图像类数据 , 内容包含语音识别数据、语音合成数据等 , 其中以海天瑞声营收份额占比最大 。目前人工智能数据标注行业集中度较为适中 , 既非寡占型市场也非充分竞争市场 , 这一方面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早 , 积累了较多客户资源 , 另一方面则是由于下游企业之前多采用公开数据集训练模型 , 对数据的高精度要求由来尚短 , 受生态传导效应滞后影响 , 市场门槛还不显著 , 资金与研发实力较为薄弱的中小企业还有较强的发展土壤 。
然而未来 , 随着下游企业发展壮大 , 直接使用外包团队成本低廉、数据安全可控性强 , 一些基础性需求将由下游企业自给自足 , 外部的数据服务商现有的存量市场面临下降 , 因此必须承担高难度、前沿独特性任务 , 这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究 , 以把握客户需求 , 开拓增量市场 , 因此资金与研发实力成为较高行业门槛 , 同时受近年资本市场冷却影响 , 一批中小型厂商面临业务收缩 , 再者部分厂商如倍赛开始在业内并购 , 参考海外数据服务市场发展情况(海外行业巨头Appen多次并购其他企业) , 并购也将成为市场趋势 , 多种因素叠加影响下 , 行业集中度将提升 。
综上 , 未来数据标注行业兼并与重组将成为大势所趋 。目前 , 国内较为典型的并购事件为倍赛BasicFinder收购专业的人工标注服务商荟萃 , 以此丰富自主数据采集系统 , 从而完成更具多样性的任务 。全球数据标注行业兼并重组步伐加快 。一方面头部企业逐渐收购中小微数据平台 , 将自己的议价能力提高到新的水平 , 在此背景下 , 全球数据标注行业市场集中度进一步提升 。

推荐阅读