近日,国家广播电视总局组织相关单位编制了《数字虚拟人技术要求》行业标准,并对已通过审查的报批稿进行公示,公示时间为2024年11月15日至2024年11月24日。《数字虚拟人技术要求》行业标准涵盖了数字虚拟人的分类、应用场景、技术架构及各项具体要求。
数字虚拟人按人物形象分为2D/3D数字虚拟人,非交互式/交互式数字虚拟人,以及算法驱动型/真人驱动型数字虚拟人,主要应用场景涵盖内容播报、交互客服、虚拟演播和内容创作等,技术架构涉及数字虚拟人形象、算法驱动能力、真人驱动能力、平台能力和安全能力。
- 形象要求
总体要求:包括人物形象、表情、服饰等方面的得体、美观以及支持不同景别姿态等。
2D/3D数字虚拟人形象要求:详细规定了2D真人、2D卡通、3D写实、3D卡通形象的具体要求。
建模技术要求:涉及模型网格、人体网格、骨骼系统设计、蒙皮权重等建模相关的技术细节。
- 算法驱动能力要求
驱动能力:包括文本驱动、语音驱动、视频驱动,以及混合技术驱动方式。
合成能力:涵盖语音合成与视频合成的技术要求。
多模态能力:包括语音识别与自然语言处理等技术要求。
- 真人驱动能力要求
身体动作捕捉:涉及光学动捕、惯性动捕和视觉动捕的技术要求。
对数字虚拟人交互效果的评估可以从数字虚拟人在交互过程中的动作、表情是否自然流畅,系统对用户输入的响应速度,对用户指令的理解和执行准确性,用户反馈和使用数据来评估交互体验的好坏,以及是否能准确识别和表达情感等多个方面进行。
数字虚拟人技术在内容播报领域的应用已经越来越广泛,它们不仅能够提供高效、准确的内容传递,还能根据用户需求提供个性化的播报服务,特别是在智能客服的应用和多语言内容播报上,包括虚拟客服、智能助手和交互问答等。
首先,数字虚拟人可以根据不同的内容播报需求,如新闻资讯、电影介绍或直播带货等,定制化人物形象、表情和服饰,使得播报内容更加生动有趣。其次,数字虚拟人支持多种景别姿态,能够根据播报内容灵活变换,提升视觉效果。
再次,数字虚拟人具备高保真的音视频同步技术,避免了口唇不一致等问题,提高了播报的真实感。最后,利用算法驱动的文本、语音和视频驱动能力,数字虚拟人可以更加精准地传递信息,使内容播报更加准确和高效。
数字虚拟人技术在智能客服中的应用主要体现在交互客服场景,通过自然语言处理能力理解用户的问题,并提供相应的答案或解决方案。同时,数字虚拟人支持多轮对话能力,能够根据上下文内容进行判断选择,完成用户交互。此外,数字虚拟人的语音识别能力使其能够准确捕捉用户的语音信息,提升交互体验。
- 文本驱动的数字人播报:用户输入文本,数字人根据文本内容进行播报,适用于新闻、教育、广告等多种内容播报场景。
- 语音驱动的数字人播报:利用语音合成技术,数字人能够根据语音输入进行播报,提供更自然的交互体验。
- 视频驱动的数字人播报:结合视频内容,数字人能够在播报时同步展示视频画面,增强内容的吸引力和表现力。
数字虚拟人技术在多语言内容播报中极具优势,支持多种语言的文本驱动能力,可以根据不同语言的特点调整语音合成效果;具备多语言的语音识别能力,能够准确识别不同语言的语音输入;通过自然语言处理能力,可以理解和处理不同语言的文本内容,从而实现多语言内容的准确播报。这些优势使得数字虚拟人能够跨越语言障碍,服务于全球用户。
- 高效性:数字虚拟人能够快速生成播报内容,提高内容生产效率。
- 个性化服务:根据用户喜好和需求提供定制化的播报内容。
- 全天候服务:数字虚拟人不受时间和空间限制,可以24小时不间断地进行内容播报。
随着数字虚拟人技术结合人工智能的发展,未来数字虚拟人的形象和动作将更加逼真自然,能提供更加智能化的交互体验,用户也将能更容易地定制个性化的数字虚拟人形象和行为,在媒体、教育、娱乐、医疗等多个领域发挥更大作用。
如对标准有异议,请在公示期内向国家广播电视总局科技司提出,并明确异议的事实依据、真实姓名、工作单位和联系方式等。
公示时间:2024年11月15日至2024年11月24日
监督电话:(010)86092148,68016436(传真)
监督邮箱:kjsbzc@nrta.gov.cn
下载附件:
1. 数字虚拟人技术要求(报批稿)
来源:国家广播电视总局,图片:Shubham Dhage,Unsplash