要以可信为先 生成式 AI 正加速数字人 2.0 落地

生成式 AI 和大模型对数字人市场的推动效应,一是纵向提升数字人内在潜能,增强其可及性和可用性;二是横向拓展数字人应用边界,积极探索数字人在新场景、新应用下的落地潜力。

要以可信为先 生成式 AI 正加速数字人 2.0 落地
出处:大模型赋能下的 AI 2.0 数字人平台

2023 年是人工智能领域的一个重要转折点,生成式 AI 和大模型技术的飞跃性进步,使得 AI 从过去的“分类器”角色转变为具备强大创造力的“生成器”。这一根本性的转变赋予了 AI 前所未有的创新能力和深层次的理解力,引领我们步入了 AI 2.0 的新时代。

在这一技术革新浪潮的推动下,各行各业和企业纷纷积极探索,将生成式 AI 和大模型技术融入其产品开发和业务流程,旨在提升客户体验、优化业务效率以及创新商业模式等方面实现新的突破。据 Gartner 预测,到 2026 年,将有超过 80%的企业采用生成式 AI,或部署支持生成式 AI应用,这一比例在 2023 年初还不足 5%。

生成式 AI、大模型应用的崛起也为数字人产业发展注入了新的动力。生成式 AI 和大模型对数字人市场的推动效应,主要源自于两大关键作用力:一是纵向提升数字人内在潜能,增强其可及性和可用性;二是横向拓展数字人应用边界,积极探索数字人在新场景、新应用下的落地潜力。

1. 大模型加速数字人提升内在潜能

IDC 认为,与 AI 深度融合的数字人才能称为 AI 数字人。商汤智能产业研究院在 2022 年发布的《企业级 AI 数字人白皮书》中,根据 AI 在数字人拟人化和生产自动化两个维度的融合程度,又将数字人分为“L1-L5”五个等级,并指出, 只有达到 L4 级及以上的数字人才被认为是 AI 数字人(见图1)。

图1:L4级及以上的数字人被定义为AI数字人,商汤智能产业研究院

可见,AI 技术的发展对数字人的演进至关重要。如果将 AI1.0 视为 CG 数字人向 AI 数字人转变的分水岭,那么以生成式 AI 和大模型为代表的 AI2.0 则是推动数字人从 L4 向 L5 级进化的加速器。具体表现在三大方面:

首先,大模型大幅提升数字人生产自动化水平,增进数字人的可及性和经济性。

在大模型赋能下,通过生成式 AI 算法,基于深度学习模型、动作模拟、情感模拟等技术,仅需几分钟的真人视频素材,经过大模型数小时的训练,就能高效地生成具有高度逼真性的数字人。

这一过程不仅极大地缩短了制作时间,而且显著降低了制作成本,使得数字人的应用门槛得以降低,为更广泛的行业和领域打开了大门。例如,用户只需要上传一段 2~5 分钟手机拍摄的真人视频,就能通过商汤如影平台生成声音及动作自然、口型准确、多语种精通的数字人分身,整个制作过程耗时从原先的多则半年少则两周,现在控制在 24 小时以内,生产成本从百万级别降低至了数千元。

其次,大模型助力数字人智能化交互更上新台阶。

AI 数字人作为 AI 技术的产物,其核心价值在于能够模拟人类智能,提供高效、准确的服务。大模型通过其强大的数据处理和学习能力,赋予了数字人更加智慧的“大脑”,显著提升了数字人的智能水平,使其在多个方面实现了质的飞跃。

这种跨越式的飞跃,一方面体现在大模型让数字人能够更深入地理解复杂的语境和情感,使得它们在自然语言处理方面的能力大幅提升。数字人不仅能够更好地理解用户的意图,进行更加自然、连贯的对话,甚至在复杂的社交场景中,如直播带货,数字人能够与观众进行流畅的多轮互动,提供实时的反馈,极大地提升了用户体验。还能进行多语种交互的能力,为用户带来更加丰富和无缝的沟通体验,这极大地扩展了数字人的全球应用范围,也为跨文化交流和合作提供了前所未有的便利。

另一方面,大模型支持数字人在多模态交互方面显著提升。这意味着数字人不仅能够处理和理解文本,还能够处理音频、图像和视频等多种形式的数据。这种多模态能力使得数字人在提供服务时更加全面和生动,例如,在教育领域,数字人可以根据学生的反馈调整教学内容和方式,或者在电商领域,数字人能够根据用户的兴趣推荐个性化的内容。

第三,大模型更生动的实现数字人角色带入,极大增强用户的沉浸式体验。

大模型对数字人在语音和表情交流能力上的显著提升,使得数字人在与用户的互动中能够展现出更加自然和真实的反应,从而极大地提升了用户体验的深度和丰富性。

在语音交流方面,大模型使得数字人能够理解和生成更加流畅、富有情感色彩的对话。它们可以模仿真人语调、节奏和情感变化,使得对话更加生动和富有表现力;在表情交流方面,基于大模型训练,数字人能够更加准确地捕捉和模拟真人面部表情变化,从而在视觉层面上实现更加真实的情感传达。

例如,通过大模型训练将古今中外的名人以数字化的形式生动的复刻出来,让他们与当代人进行跨时空对话。商汤如影推出的钱学森 AI 数字人就是基于大模型数字化还原钱学森先生的音容相貌,为广大青少年进行沉浸式的科学普及,弘扬老一辈航天人的宝贵精神。

2. 生成式 AI 与数字人融合拓展应用边界

大模型技术的突破性进展,使得人们能够以更经济的成本拥有“更聪明”的数字人。这一变革不仅提升了数字人的可用性和可及性,在此基础上也进一步激发了人们在更广泛的应用场景中积极探索大模型、生成式 AI 应用与数字人能力的有机融合,以期为用户创造更好的 AI2.0 体验,也为数字人市场带来了前所未有的增长动力和创新活力。总结起来共两大方向(见图2):

图2:数字人与生成式AI融合创新激发更多市场潜力,商汤智能产业研究院

一是,生成式 AI 场景为数字人落地提供了天然的土壤,为用户创造了与真人无异的互动体验。

IDC 预测,随着大语言模型和生成式 AI 的进步,CUI(对话式交互界面) 将在未来的 AI 应用中占据主导地位。这预示着用户将能够在多样化的应用场景中,与 AI 进行更加自然、流畅的语言交互,使得用户能够便捷地接入和使用各种 AI 应用。

这样的交互环境为数字人技术的融入提供了天然土壤,也将传统以功能为主的交互环境转变成一种更为生动的互动体验——数字人不仅能够模拟人类的情感反应,还能理解和传达信息中的情感特征,为交互过程增添丰富的情感维度。

例如,小冰公司推出的数字互动名片,通过将数字人技术与智能问答系统相结合,实现了用户与数字分身在多个场景下的实时智能对话,为企业和个人提供了一种全新的社交和沟通模式。利用 Synthesia 平台,用户生成的数字分身可以在企业内训、产品介绍、市场推广等场景中广泛落地,无疑为数字人打开了更为广阔的落地可能。

二是,数字人与大模型结合转化为新型的 AI 劳动力,加速向产业和个人生活中深入渗透。

这种结合的核心在于,大模型的深度学习和理解能力与数字人的个性化定制及交互性相结合,共同构建了一个能够模拟并增强人类在多种工作场景中表现的智能系统。这种系统不仅极大地提高了执行复杂任务的效率,减少了对传统人力资源的依赖,还能通过持续学习和适应,不断提升其在决策、分析和创造性工作方面的能力,为企业和个人带来了前所未有的生产力释放和价值增长。

例如,数字员工与企业大模型结合,能够全天候工作,高效处理那些重复性高、规则性强的任务,显著提升工作效率,降低错误率,并有效节约人力成本。Gartner 预测,到 2030 年,中大型企业中超过有将近 500 万名一线和中层管理者将被数字人取代,这一发展将提高员工的生产力和参与度。

在专业领域,如金融、医疗和法律,数字专家与行业大模型结合可以提供基于海量数据的深入分析和建议,并快速吸收行业新知,为企业或个人提供实时、数据驱动的咨询和决策支持。

在日常生活中,数字人助手与个人大模型结合,能够根据用户日常习惯、偏好和需求,提供高度个性化的服务,在健康管理、时间管理、学习辅导,还是娱乐休闲等方面,成为用户的得力伙伴。

这种新型 AI 劳动力展现出的显著优势,在数字人可用性和可及性的强化下,加速向各行各业及个人生活中深入渗透。

3. AI2.0 数字人平台的技术架构

数字人平台即是生产数字人的生产力工具。进入 AI 2.0 时代,数字人产业的发展焦点已经从单纯的 AI 算法驱动的数字人创建,转变为基于大模型能力,以提升数字人在形象塑造、人机交互以及场景适应性方面的灵活性和效率。

“工欲善其事,必先利其器。” 这意味着AI2.0时代的数字人平台构建不仅要注重大模型对数字人生成的支撑作用,还需兼顾多样化场景下的用户需求,通过集成生成式AI应用和大模型技术,提升数字人在复杂环境中的表现力和实用性。随着这一趋势的发展,数字人平台及其基础架构正经历着全面的技术升级,以确保平台能够持续适应并满足不断变化的市场需要。

AI2.0 数字人平台由基础层、平台层共同构成,以支撑数字人应用生态的蓬勃发展。(见图3)。

图3:AI2.0数字人平台的技术架构,商汤智能产业研究院

“基础层”由 AI 算力平台、数据管理平台和大模型开放平台构成。它们共同为数字人的创建和应用部署提供必要的智能计算资源、数据管理支持,以及可调用的大模型服务。

其中,大模型开放平台是 AI2.0 时代数字人平台构建的核心基石。该平台不仅提供了丰富的大模型储备,通过 API 接口让用户能够便捷地接入并利用这些模型能力,高效开发数字人和生成式 AI 应用,还配备了一整套工具链,支持用户对大模型进行微调和部署。这使得用户能够定制和训练专属的大模型,进一步打造与数字人有机融合的 AI 劳动力。

“平台层”是实现数字人应用规模化落地的关键。它涵盖了由 AI 引擎驱动的三大核心功能模块:数字人生成、生成式 AI 应用和视频合成。此外,平台层还包括了运营服务平台,这一服务旨在弥合技术实现与实际应用之间的差距,确保技术的顺利部署和市场落地,从而打通从创新到商业化的“最后一公里”。

其中,AI 引擎作为数字人平台的“中枢”,由视觉、语音和语言处理引擎以及 API 接口构成。它能够高效地调用基础层的计算资源和大模型能力,确保数字人平台的三大核心功能模块能够顺畅运行,为用户提供流畅且高效的服务。

在 AI 引擎的助力下,数字人的生成过程和交互体验实现了质的飞跃。结合生成式 AI 应用,平台能够创造出丰富多彩的文案、图像和视频等多模态内容,并通过视频合成技术,以生动的表现形式呈现给用户,从而带来前所未有的沉浸式体验。

通过运营服务平台的“架桥通路”,数字人平台能够实现技术与市场需求之间的无缝对接,确保技术优势转化为实际的商业价值。这一过程涉及将数字人应用与用户的特定需求相结合,通过专业的运营策略和客户支持,为用户提供定制化的解决方案和售后服务。例如,为本地服务商家提供直播支持,为中小企业主播提供短视频运营服务,或针对企业在数字人与大模型结合中所面临的技术问题,为用户提供 AI 专家服务等等。

在 AI2.0 数字人平台的助力下,数字人应用和解决方案得以稳步推进,以提升服务体验和增强 AI 劳动力为目标,实现在多个行业的规模化部署。这些应用和解决方案在本地生活服务、直播电商、教育培训、金融、医疗和法律等领域展现出巨大的应用潜力,共同构建了一个多元化和充满活力的数字人应用生态。

4. AI2.0 数字人平台的三大特点

AI 2.0 数字人平台在实际部署中展现出三大显著特点(见图4),分别是产线化能力升级、应用服务一体化发展,以及对可信建设的重视。这些特性的融合赋予了 AI 2.0 数字人平台更强的综合能力,使其能够高效地创造出可信、可用、可及的 AI 数字人及其相关应用,更好的响应市场用户和场景需求。

图4:AI2.0数字人平台的三大特点

首先,AI 2.0 数字人平台实现了产线化能力的显著增强。

一方面,结合大模型能力,数字人平台的产线化过程进一步强化了自动化和智能化水平。这不仅意味着数字人及其应用的创作流程被转化为一条高效、智能的流水线作业,而且通过集成大模型技术,平台能够在减少人工干预的同时,实现更高质量的内容生成。

例如,目前 2D 数字人应用的定制自动化程度逐步提升。从用户的数据采集及录制,到自动化的数据标注和预处理,再到基于大模型的数据训练、生成式 AI 应用融合、视频合成,最后到测试上线,整个过程通过自动化产线生产流程, 甚至可以“一键”完成从数据上传到应用产品的快速上架,大大提升了数字人产品及应用的上线效率。

另一方面,产线化的模块化设计也赋予了数字人平台极高的可扩展性和灵活性,使其能够迅速适应技术迭代的需求。这种设计允许平台在不影响整体运作的情况下,对特定模块进行升级和优化。

无论是算法的更新、新功能的引入,还是性能的提升,都能够通过模块化的快速替换和集成,实现平台的持续进化。这种能力确保了数字人平台能够紧跟技术发展和市场变化的步伐,为用户提供始终处于前沿的产品和服务,同时能够轻松适应多样化的业务需求和快速变化的市场环境。

例如,底层的大模型能力的迭代,都可以通过 AI 引擎向上“传递”,进一步提升数字人生成过程及生成式 AI 应用的智能化程度,或者针对特定场景需求,平台能够迅速开发定制化的 AI 应用,增强数字人在实际应用中的适应性和实用性,确保其在多样化环境中的有效部署。

其次,AI2.0 数字人平台更强调应用服务一体化。

一键式生成数字人应用仅仅是这场创新旅程的起点。随着大模型技术的飞速发展,产业用户对数字人应用的期待已经超越了简单的场景模拟,他们寻求的是将大模型及数字人技术深度融入到自身的业务流程中,以实现企业运营效率的显著提升。

为了满足这一需求,数字人平台必须超越基础的创建工具,提供更加全面和定制化的专家级服务。这包括但不限于个性化的数字人定制、业务流程优化咨询、以及与企业现有系统和平台的无缝集成。通过这些服务,数字人平台能够帮助企业在客户服务、市场营销、产品展示等多个领域实现智能化转型,从而在激烈的市场竞争中保持领先地位。这也正是数字人平台的技术架构中运营服务这一模块建设的意义和价值。

第三,可信是 AI2.0 数字人平台构建的必要条件。

随着数字人市场的迅猛发展,随之而来的风险和挑战也日益凸显。例如,数字人版权、人格权保护(尤其是基于真人形象的数字人)等问题已在国内外引发多起法律争议。同时,数字人产品在内容传播和生成式 AI 技术的融合应用中, 可能在内容安全、隐私保护、数据安全和系统可控性等方面引发信任危机,已引起伦理和社会层面的广泛讨论。

在这一背景下,国家监管机构如网信办发布的《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理办法》和《网络信息内容生态治理规定》等法律法规,虽未对数字人生成内容进行专门规定,但已从多角度明确了技术研发者、服务提供者和用户在隐私保护、内容安全等方面应承担的责任和义务。

鉴于此,中国信息通信研究院 2023 年 9 月发布的《可信虚拟人白皮书》特别强调,数字人行业的所有参与主体应将可信技术、管理和其他关键可信要素深度融入数字人的全生命周期。这要求从研发到生产,再到应用部署的每一个环节,都应遵循可信原则,确保数字人及其应用的可靠性和安全性,从而促进数字人市场的健康发展,实现可持续的高质量发展。

数字人平台在数字人全生命周期中扮演着至关重要的角色。它不仅承载着技术研发的核心成果,还负责数字人及应用的创建过程,并直接连接到用户的应用场景。据 IDC 调研显示,有 37% 的企业将强大的数据安全性作为选购软件服务商的主要考虑因素。因此,确保平台本身的可信建设显得尤为关键,这对于维护用户信任、保障数据安全以及推动整个数字人产业的健康发展具有深远影响。

自 ChatGPT,Sora 等生成式 AI 应用爆发后,虚实融合的 AI2.0 时代已正式拉开帷幕,通用人工智能(AGI)的概念不再遥不可及,而成为了科技发展的明确目标。在这一进程中,融合了生成式 AI 和大模型技术的数字人通过模拟人类的智能行为,提供了前所未有的交互体验,使得虚拟与现实之间的界限变得模糊。它们更和生成式 AI 应用融合创新,在教育、医疗、娱乐、客户服务等多个领域展现出巨大的潜力,预示着在未来智能化社会中,数字人将成为推动社会进步、提升生活质量的关键力量。

本文摘编自上海市人工智能技术协会、零壹智库 、增强现实核心技术产业联盟、商汤科技联合发布的《2024 大模型赋能下的 AI 2.0 数字人平台白皮书》。

在此声明以上观点和内容,仅代表原作者和出处,与数治网DTZed 无关,如有出错或侵犯到相关合法权益,请通过电邮与我们联系:cs@dtzed.com。

欢迎先注册登录后即可下载检索人工智能等相关标准、白皮书及报告。更多高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”。