Zed行业 | 2023人工智能基础数据服务发展和趋势解析

自动化标注、专业数据采标及全栈式服务是人工智能基础数据的三大核心能力,其中领先的科技巨头在三个维度均有持续的积累,综合能力最强。

人工智能基础数据服务
出处:德勤

中国人工智能产业处于高速增长期,正在加速向各行各业渗透,包括互联网娱乐、智能制造、智慧医疗、智能安防及自动驾驶等,而自动驾驶等应用场景的复杂性又反向推动了人工智能的迭代演进。人工智能产业的快速增长带动了人工智能基础数据服务市场的蓬勃发展,自动驾驶是未来五年最重要的应用领域。

结构化数据是人工智能算法开发迭代的重要基础,人工智能基础数据服务市场受人工智能核心产业发展带动仍将保持高速增长,预计2027年市场规模有望达到130-160亿元。自动驾驶是人工智能基础数据服务市场占比最大的下游应用,随着自动驾驶算法技术不断迭代与场景落地,未来占比有望进一步提升。

标注复杂化、自动化、全栈式服务需求以及愈加严格的数据合规需求是AI基础数据服务市场的四大趋势。

  • 标注复杂化:随着算法迭代创新以及场景功能的持续扩展,数据标注元素和标注信息维度均将大幅增加,对于数据基础服务供应商提出了更高的要求;
  • 自动化标注:AI赋能的自动标注工具逐渐成为基础数据服务商和AI算法公司降本增效的利器,推高行业集中度;
  • 全栈式服务:下游算法应用方自研人工智能算法的趋势逐渐显现,需求方对于“基础数据服务+云资源+工具链”的全栈式服务需求提升(包括算法公司,但主要由应用方驱动),特别是对于工具链产品的需求将随着商业化场景的成熟由自动驾驶领域向各行各业拓展,适应未来的迭代需求;从自动驾驶基础数据服务需求方的角度出发,整车厂及Tier1自研需求不断提升,同时技术迭代带来的更复杂、更专业的数据标注需求,这将推升整个自动驾驶行业的基础数据服务外包需求,并进一步释放对工具链及全栈式服务的需求。
  • 数据合规性:数据安全法律法规体系不断完善,基础数据服务商在数据脱敏、数据采集的测绘资质要求等环节的专业性价值会为其带来竞争优势。

AI基础数据服务持续快速发展

结构化数据是人工智能算法模型开发和迭代的基础,从设计、训练、评测、仿真到整个算法更新迭代的全生命周期都需要持续不断的结构化数据的输入作为支撑。基于结构化数据的重要性,人工智能产业逐渐诞生了一批专业人工智能基础数据服务商—通过数据采集与数据标注,有效衔接数据源与具有算法开发需求的企业。

人工智能算法模型开发流程

人工智能基础数据服务商处于产业链中游,通过提供数据采集和标注服务,连接上游数据来源方和下游人工智能算法研发方。市场上现存的大量数据均为非结构化数据,无法直接应用于人工智能算法的研发与训练,需要通过数据的采集与标注将其转化为结构化数据,以供下游人工智能算法研发商使用。这个采集与标注的过程逐渐形成了一项专项工作,主要由专业的基础数据服务商来提供,少量由算法研发企业的自有团队执行。

人工智能基础数据服务产业链

人工智能技术经历数十载的发展,近年来深度学习加速了人工智能技术的商业化落地,同时也带来了大量AI算法训练需求,推动基础数据服务市场的快速增长。人工智能基础数据服务应用于众多下游场景,但不同下游场景对数据采集类型以及数据标注对象有着各自的差异化需求,自动驾驶当前是人工智能基础数据服务最重要的应用领域,并将在未来继续维系这一地位。

自动驾驶AI算法的升级迭代及模型训练数据量的指数级增长,将持续拉动人工智能基础数据服务需求。目前自动驾驶主要聚焦于L2+级别开发和应用,随着算法趋于成熟,算法开发对于数据的需求量呈周期性收敛趋势,而高级别L3和L4自动驾驶技术场景更为复杂,算法模型训练所需的数据量将逐步呈现指数级上升。

  • 目前已经处于L2+级别自动驾驶规模化量产阶段,除了新进入者及新车型带来的基础数据服务需求外,整体需求呈现收敛态势;
  • L3级自动驾驶预计在2025年实现商业化应用,目前各大车企正在积极布局,预计2023年开始将爆发大量模型训练带来的数据需求;
  • 预计各类网联式L4车辆将在2030年实现商业化落地,鉴于目前已经有部分领先算法公司处于L4算法研发阶段,对于数据的需求将持续释放。

AI基础数据服务趋势

人工智能算法仍处于快速动态演进阶段,随着算法与功能的迭代创新,场景功能的持续扩展,数据标注元素和标注信息维度均将大幅增加,对于数据基础服务供应商提出了更高要求。

  • 算法迭代创新需求

随着不同场景下的功能不断拓展完善,算法存在迭代创新的需求。以自动驾驶领域为例,随着L2至L4自动驾驶技术的迭代发 展需要,相应的算法对于功能性要求愈发提高,对于数据采集与标注的需求也将愈发庞大复杂,需要感知训练评测平台加持 模型迭代的效率与精确度。

  • 场景功能扩展需求

利用AI算法,实现对于同一种或者相似度较高的功能(例如人脸识别)需求不断拓展,对算法进行挖掘需求提炼、规则定义、工具制作、数据处理等工作,深度挖掘高价值数据标签。

人工智能发展趋势示意图

随着标注量的增大,纯人工标注在成本上不再具有优势,AI赋能的自动标注能力与相关工具逐渐成为基础数据服务商和AI算法公司降本增效的利器,也推高了行业门槛,未来市场集中度有望提升。

随着人工智能技术应用深化,下游AI算法应用方自研人工智能算法的趋势逐渐显现,他们相对算法公司而言,更需要“基础数据服务+云资源+工具链”的全栈式服务:

  • 传统算法公司对于基础数据服务的需求聚焦于标注效率、标注质量以及标注成本等基础型需求
  • 算法应用方对于数据存储以及算法开发和运行所依赖的云计算算力资源提出了相应的新需求
  • 需借助数据管理中台、智能标注平台、感知训练平台、仿真平台等成熟的算法工具链产品实现快速部署与持续的快速迭代目前工具链主要应用在自动驾驶领域,未来需求将随着人工智能商业化场景的成熟扩展至各行各业

自动驾驶板块表现十分明显,算法研发过去由专业算法公司把控,近年来越来越多的整车厂与头部Tier1也开始构建自有算法,尝试掌握自动驾驶的核心环节,由此成为行业的“算法新兵”…

“算法新兵”将在未来释放出大量基础数据服务需求的外包需求,同时随着整车厂及Tier1供应商对于自动驾驶算法自主研发能力的深化,也将释放更多工具链使用需求:

  • 数据需求向整车厂及Tier1侧重

随着整车厂及Tier1供应商对于自动驾驶算法自主研发能力的深化,将产生更多的基础数 据服务需求,占比逐步提升

  • 外包服务需求整体加强

随着当前的L2+继续向L3和L4的技术迭代,更多复杂场景下的复杂标注需求将更多通过外包的形式得到满足,数据基础服务供应商的专业性将协助其进行市场开拓

  • 工具链需求逐渐显现

由于工具链对于算法开发在算力、协同性、易用性等方面不可替代的优势,未来随着传统车企与Tier1随着算法能力构建深入,工具链将成为未来企业的主要工具

随着数据安全相关法律法规体系的完善,数据合规要求愈发严格,基础数据服务商在数据脱敏处理、数据采集的测绘资质要求等环节的专业性价值优势凸显。

本文摘自德勤发布的《人工智能基础数据服务白皮书》,全文下载:

更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。