全球生成式人工智能技术发展态势和挑战

生成式人工智能在文本、代码、图像、音视频等方面的理解与生成取得了突破性进展，有望大幅提升社会生产力，加速千行百业的数字化进程，促进人类社会全面迈向智能化新阶段。

近年来，生成式人工智能不断取得突破，展现出强大的生成创造能力，开始涌现出“智慧”。生成式人工智能在文本、代码、图像、音视频等方面的理解与生成取得了突破性进展，有望大幅提升社会生产力，加速千行百业的数字化进程，促进人类社会全面迈向智能化新阶段。

“模型、数据、算力”三大要素的演进带动

生成式人工智能技术突飞猛进，展现出惊人的创造能力和生成能力，主要得益于模型、数据、算力等方面的不断提升。模型层面，模型结构的创新和模型规模的提升成为生成式人工智能取得突破的关键。从模型结构来看，注意力机制、自回归模型、扩散模型等技术不断升级迭代，特别是以Transformer为主的基础模型脱颖而出，成为生成模型主流技术路线，推动文本、图像、音频、视频等内容的生成和理解能力不断提高。

涌现出ChatGPT、文心一言等大语言模型，Stable Diffu- sion、DALL-E2、DALL-E3等视觉生成模型，以及GPT-4、BLIP-2、Emu等多模态模型。从模型参数规模来看，上述新模型架构使得参数规模不断增大成为可能，带来模型能力质的飞跃。

以GPT系列模型为例，2020年发布的GPT-3参数规模有1750亿，相比于2018年发布的参数规模为1.17亿的GPT-1，在复杂自然语言处理方面实现了显著提升。此外，围绕基础模型衍生出的插件机制，可以将外部的搜索、数据处理等功能与基础模型能力集成，从而进一步丰富模型功能，拓展应用范围。OpenAI、360、百度、华为、科大讯飞等企业均推出了相应的模型插件，例如文心一言上线的搜索、交互等插件，使模型更容易实现功能的扩展和定制，以适应多种场景的需求。

数据层面，数据质量、多样性、规模等方面的进步成为人工智能能力提升的基础。被广泛用于大模型预训练的The Pile数据集，主要基于学术或专业领域知识构造，具有较高质量，包含了维基百科、书籍、期刊、Reddit链接、Common Crawl等20余个数据集。北京智源人工智能研究院发布的大规模文本对数据集MTP，范围涉及搜索、社区问答、百科常识、科技文献等，数据规模达到3亿对。Anthropic、斯坦福大学、Hugging Face 等单位发布的微调数据集，涵盖了多种类型的指令，有助于提升模型的可控性，使模型更好地理解和遵循人类指令。

此外，合成数据可能成为高质量数据的重要来源之一。生成式人工智能能够大批量制作拟真合成数据，或将帮助缓解高质量训练数据枯竭这一未来潜在问题。根据Gartner预测，到2024年，60%用于人工智能开发和分析的数据将会是合成数据；到2030年合成数据将取代真实数据，成为人工智能模型所使用数据的主要来源。

算力层面，算力设施的完善支撑生成式人工智能的快速发展。人工智能芯片提供算力基础保障，GPU、FPGA、NPU、TPU 等不同技术路线芯片持续探索，针对人工智能计算不断优化，为模型的训练与推理提供了基础保障。

深度学习框架放大芯片算力效能，一是通过提供高性能的大规模分布式训练与推理技术，有效缓解模型训练耗时长、推理算力需求高等问题。二是通过与底层芯片适配优化，充分发挥硬件性能，提高计算效率。

云边端多样化算力满足生成式人工智能不同应用需求，云侧强大的计算和存储能力保障大模型训练以及高吞吐量应用的推理任务；边缘算力将海量复杂数据进行本地化预处理，可对数据进行实时处理并将其导向大模型，实现快速响应和决策；端侧算力减少数据处理和传输的延迟，直接在端侧进行数据计算分析，提升智能应用的实时性。

开源开放驱动生成式人工智能生态渐趋繁荣

模型开源促进技术的发展和普及。以LLaMA 2、BLOOM、ChatGLM、Baichuan、Aquila、InternLM、Qwen等为代表的开源模型层出不穷，并且不断升级进化。在模型迭代优化方面，模型开源的兴起扩大了企业对基础模型和微调模型的选择范围，目前大量创业公司使用LLaMA 2、Stable Diffusion等开源模型调优并推出新产品。

在研发门槛降低方面，应用开源模型具有规避初始高昂投资、私有数据的完全控制、可自我迭代优化等优势。开发者基于开源模型，可快速搭建具备专业领域知识的垂类任务模型，大幅缩减了模型从开发到应用所需的算力、数据和时间成本。例如，开源平台Github上显示，基于智谱AI开发的Chat-GLM开源模型，大幅降低了研发门槛，有11个模型脱颖而出，覆盖医疗、法律、金融、教育等多个领域。

开放接口为开发者提供便捷。除了模型开源，开放易用的API和SDK也是促进人工智能生态繁荣的重要一环。

一方面，接口开放将简化开发流程并提升效率。开放接口帮助开发者无需从头开始编写算法或模型，大大简化开发流程，减少开发时间和工作量。例如，通过调用GPT-3.5-Turbo模型API开放接口，仅需少量Python代码就可实现代码生成、对话代理、语言翻译、辅助学习等复杂功能。
另一方面，接口开放可以丰富模型的应用场景。接口开放可以帮助广大开发者更便捷地接入模型能力，形成更加多样化的应用场景。例如，百度文心一言提供的接口可以应用于搜索、推荐、对话等场景，提升应用效果和用户体验。

开发者社区持续推动技术扩散。开发者社区通过提供免费算力、课程教材、公开数据集和模型套件等工具组件，赋能培养具备模型开发能力的人才，对于推动人工智能领域的技术交流和发展起到了积极的促进作用。

例如，Hugging Face提供了一键式的预训练模型调用功能，提供了大量预训练模型、简单的API和丰富的文档，以及活跃的社区论坛，加快了技术扩散。华为云AI Gallery百模千态社区构建了一站式AI 社区服务平台，助力企业和开发者快速创建模型应用。阿里巴巴魔搭社区开放的在线预训练模型，可以在无需开发代码的情况下体验各种模型效果。FlagOpen飞智集合了大模型的算法、模型、工具、评测等多个模块，打造了大模型“Linux”开源开放技术体系。百度的飞桨星河社区提供开放数据、开源算法、免费算力，提供一体化大模型开发体系，助力开发者的大模型探索之旅。

生成式人工智能发展凸显通用人工智能曙光

生成式人工智能的突破加快了通用人工智能的探索步伐。生成式人工智能不仅能够处理单一数据类型的任务，而且可以在不同数据类型间建立联系和融合，向着多模态方向发展。多模态生成模型的突破显著提高机器智能的拟人性和通用性。AI Agent 伴随着多模态生成模型技术的突破，能够更好地理解和处理复杂的现实场景，从而为人类提供更为精准、个性化的服务。

多模态生成模型与智能体的结合带来更多可能性。具身智能将多模态生成模型与机器人技术结合，通过模仿人类学习来感知复杂的世界，实现“感官”（硬件）与“思考”（软件）的多模态融合，协助人类完成各种任务。例如，谷歌发布的Robotic Transformer2（RT2）作为视觉-语言-动作（VLA）模型，将视觉-语言模型（VLM）预训练与机器人数据相结合，直接控制机器人，使其在真实世界中执行各种任务。

生成式人工智能技术内在风险引发安全隐患

生成式人工智能技术在迭代升级的同时也放大了技术安全风险。数据方面，数据投喂带来价值偏见、隐私泄露、数据污染等问题。

一是训练数据固有偏见导致模型产生偏见内容。全球科研机构的多个实验发现经过人工标注的大模型在应用中存在性别歧视、种族歧视等偏见问题。例如，根据微软发布的GPT-4研究报告，大模型在生成职业性别描述时，会进一步扩大数据集的固有偏差，存在严重性别偏向。
二是海量训练数据扩大了数据安全和隐私保护风险。训练大模型依赖庞大的数据，对于数据来源的合法性审查带来了诸多挑战。此外，大模型也存在泄露用户输入数据风险。三星在启用ChatGPT的20天内就发生3起员工泄露数据事故，泄露内容包括半导体设备测量、良品率/缺陷、内部会议内容等敏感信息。
三是人工智能生成数据将造成训练数据污染。如果使用生成式人工智能产生的数据作为语料训练生成式人工智能模型，可能会导致“模型崩溃”现象发生。剑桥大学学者指出，生成式人工智能在制造便利的同时也在摧毁互联网环境。

算法方面，算法模型生成特性及安全漏洞会引发“幻觉”（hallucination）或虚假信息、模型遭受攻击等风险。

一是生成式模型模仿特性生成“幻觉”或虚假信息。生成式人工智能基于训练数据进行模仿而非理解的特性，可能生成错误的、不准确的、不真实的信息，即生成“幻觉”内容。美新闻卫士公司用“虚假信息数据库”中的100条提示词测试ChatGPT，其对80条提示词反馈了虚假和误导性信息。
二是算法模型安全漏洞诱发网络攻击风险。攻击者通过精心设计的输入操控，可能导致生成式人工智能后端系统被利用或被控制。甚至有黑客通过修改Web测试套件SilverBullet的配置，大规模窃取了ChatGPT帐户。OpenAI公司虽已发布最高奖励2万美元的“漏洞悬赏计划”，用于帮助发现并修补其产品的安全漏洞，但生成式人工智能恐将长期面临严峻的网络攻击风险。

此外，生成式人工智能的底层模型“根属性”诱发链路性风险。当前，生成式人工智能产业生态雏形初现，底层大模型成本高、投入重，形成了高技术壁垒和强竞争优势，其“ 根”基础设施属性得以牢固。中下游基于大模型底座开发部署的产品应用可能将固有风险进行链路性扩散。2023年2月，布鲁金斯学会报告指出，未参加生成式人工智能原始模型开发的“下游开发者”可能会将原始模型经过调整后整合到其他软件系统，由于双方均无法全面了解整个系统，或将增加这些软件错误和失控风险。

人机关系变化加深科技伦理失范

生成式人工智能重构人机关系可能带来科技伦理失范。生成式人工智能强大的任务处理能力，容易导致人的思维依赖。过度依靠生成式人工智能提供的答案，会使人自身的观察与理解、归纳与演绎、比较与推理等感知和逻辑能力缺乏训练，怠于思考与创新。例如，很多学生开始依赖于生成式人工智能完成作业，美国北密歇根大学的一位教授在其课堂上发现了一篇优秀的课程论文，却是由ChatGPT生成。

生成式人工智能存在价值失焦或道德缺位，容易产生负面的机器诱导。在人类与生成式人工智能交互过程中，曾出现聊天机器人“情绪化”、“攻击性”等情况，甚至出现过诱导人类自杀，部分原因在于生成式人工智能道德缺位而做出与人类伦理价值相悖的不利诱导。

生成式人工智能表现出强拟人特征，进一步冲击人的主体性。在人际关系方面，人机交互愈发频繁，使人产生情感依赖，消弭真实的社会交往。在人机关系方面，生成式人工智能由浅至深地替代人的各种机能，冲击现有的劳动分工体系，可能使人成为机器支配的对象。

技术跃迁引发人类社会发展挑战

生成式人工智能凸显发展的不均衡，拉大发展差距。对于许多语种来说，可供训练模型的文本非常有限，例如阿拉伯语全球使用人口虽然超过 4.2 亿，但软件应用程序中阿拉伯语资源和工具的供应远不及英语等语种。语言数据较少的国家或人群发展生成式人工智能将受到较多限制。生成式人工智能发展可能扩大教育不公平，加深教育领域的数字鸿沟，生成式人工智能的应用对硬件设施和数字素养有着较高的要求，经济条件的差异可能加剧地区和群体之间的教育资源差距，导致不平等的学习机会。

生成式人工智能冲击劳动与就业结构，加剧社会分化，据高盛研究，在创造新岗位的同时，生成式人工智能可能会取代全球3亿人的工作岗位，密集型劳动力面临被替代的风险，产生更多“无用阶级”，社会阶层分化将更为明显。生成式人工智能可能影响生态环境，模型训练的计算和环境成本与模型大小成正比，如果消耗大量能源进行重复训练，不仅导致资源的浪费，也抬高了碳排放水平。有研究人员指出，1750亿个参数的GPT-3模型能耗相当于1287兆瓦时的电力，同时还产生了552吨二氧化碳。

此外，生成式人工智能正在冲击知识产权制度，生成式人工智能是否能作为作者、是否具有可版权性等问题尚无定论，未经授权或者未按开源许可的要求使用文章或代码都可能侵犯知识产权。

本文摘编自世界互联网大会发布的《发展负责任的生成式人工智能研究报告及共识》，全文下载：