斯坦福大学以人为本人工智能研究所(Stanford HAI)在近日发布了《2024 年人工智能指数报告》(Artificial Intelligence Index Report 2024),AIIndex2024 是迄今发布的第 7 个年度 AI 指数研究。研究所由李飞飞教授与哲学家约翰·埃切门迪(John Etchemend)联合成立和领导,致力于推动人工智能领域的跨学科合作,让科技以人为中心,并加强对人工智能社会影响的研究。她第一时间在 X 社交平台推荐,还是我们熟悉的建议——值得从头读到尾。
在此,数治网DTZed 小编选取十大要点和其中的章节如技术性能、负责任的 AI、经济、科学与医学以及公众看法等要点进行编译,有错漏之处,还请谅解。请下载英文原版对照查看。
下载地址:https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf
2024 指数是我们迄今为止最全面的,它迎来了一个重要的时刻,此时 Al 对社会的影响从未如此明显。今年,我们扩大了我们的范围,更广泛地涵盖了基本趋势,如人工智能的技术进步,公众对该技术的看法,以及围绕其发展的地缘政治动态。
比以往任何时候都有更多的原始数据,这版介绍了对人工智能训练成本的新估计,对负责任的人工智能景观的详细分析,以及致力于人工智能对科学和医学的影响的全新章节。
人工智能指数报告跟踪、整理、提取和可视化与人工智能(AI)相关的数据。我们的使命是提供公正的、经过严格审查的、来源广泛的数据,以便决策者、研究人员、高管、记者和公众对人工智能的复杂领域有更透彻和细致的了解。
人工智能指数是全球公认的最可信和最权威的人工智能数据和见解来源之一。之前的版本被主要报纸引用,包括《纽约时报》、《彭博》和《卫报》,积累了数百篇学术引述,并被美国、英国和欧盟等地的高层决策者引用。今年的版本在大小、规模和范围上都超过了以往的版本,反映了人工智能在我们生活中日益增长的重要性。
十大要点
1.AI 在某些任务上胜过人类,但不是所有任务。
人工智能在几项基准测试中超过了人类的表现,包括图像分类、视觉推理和英语理解方面的一些测试。然而,它落后于更复杂的任务,如竞赛级数学、视觉常识推理和规划。
2.工业继续主导前沿研究。
2023 年,工业界产生了 51 个著名的机器学习模型,而学术界只贡献了 15 个。 2023 年,还有 21 个著名的产学合作模型,创下新高。
3.前沿模型变得更加昂贵。
据 Allndex 估计,最先进的 Al 模型的训练成本已经达到了前所未有的水平。例如, OpenAl 的 GPT-4 使用了价值约 7800 万美元的算力进行训练,而谷歌的 Gemini Ultra 花费了 1.91 亿美元进行计算。
4.美国领先中国、欧盟和英国成为顶级人工智能模型的主要来源。
2023 年, 61 个著名的人工智能模型来自美国机构,远远超过欧盟的 21 个和中国的 15 个。
5.严重缺乏对 LLM 的责任可靠性和标准化评估。
AlIndex 的新研究显示,负责任的 Al 报告严重缺乏标准化。领先的开发人员,包括 OpenAl 、 Google 和 Anthropic ,主要根据不同的负责任的人工智能基准测试他们的模型。
6.生成式 AI 投资暴涨。
尽管去年人工智能私人投资总额有所下降,但对生成式人工智能的投资却大幅增加,从 2022 年起增加了近八倍,达到 252 亿美元。包括 OpenAl 、 Anthropic 、 Hugging Face 和 Inflection 在内的生成式人工智能领域的主要参与者报告了大量的融资轮次。
7.数据显示:人工智能提高了员工的工作效率,提高了工作质量。
在 2023 年里,多项研究评估了人工智能对劳动力的影响,表明人工智能使工人能够更快地完成任务并提高他们的产出质量。这些研究还证明了人工智能在弥合低技能和高技能工人之间的技能差距方面的潜力。尽管如此,其他研究警告说,在没有适当监督的情况下使用人工智能可能会导致性能下降。
8.多亏了人工智能,科学进步甚至进一步加速。
2022 年, AI 开始推进科学发现。然而, 2023 年,我们看到了更重要的科学相关人工智能应用的推出——从使算法排序更有效的 AlphaDev 到改进材料发现过程 GNoME 。
9.美国的人工智能法规数量急剧增加。
过去一年和过去五年中,美国相关法规的数量显著增加。 2023 年,与人工智能相关的法规有 25 项,而 2016 年只有一项。仅去年一年,与 AI 相关的法规总数就增长了 56.3% 。
10.全球各地的人们越来越认识到 AI 的潜在影响,也越来越紧张。
益普索的一项调查显示,在过去的一年中,认为人工智能将在未来三到五年内极大地影响他们生活的人的比例从 60% 增加到 66% 。此外, 52% 的人对人工智能产品和服务表示紧张,比 2022 年上升了 13 个百分点。
技术性能
1. AI 在某些任务上打败了人类,但不是全部。
AI 在几个方面超越了人类的表现基准测试,包括图像分类、视觉推理和英语理解。然而,它落后于更复杂的任务,如竞赛级数学、视觉常识推理和规划。
2.多模态人工智能来了。
传统上,人工智能系统的范围有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。然而,最近的进步导致了强大的多模态模型的发展,如谷歌的 Gemini 和 OpenAl 的 GPT-4 。这些模型表现出灵活性,能够处理图像和文本,在某些情况下,甚至可以处理音频。
3.更难的基准出现了。
人工智能模型在 lmageNet 、 SQuAD 和 SuperGLUE 等既定基准上已经达到性能饱和,这促使研究人员开发更具挑战性的模型。 2023 年,出现了几个具有挑战性的新基准,包括用于编码的 SWE-bench 、用于图像生成的 HEIM 、用于一般推理的 MMMU 、用于道德推理的 MoCa 、用于基于智能体的行为的 AgentBench 和用于幻觉的 HaluEval 。
4.更好的人工智能意味着更好的数据..更加好的 AI 。
SegmentAnything 和 Skoltech 等新的人工智能模型正被用于为图像分割和 3D 重建等任务生成专门的数据。数据对于所有技术改进都至关重要。使用人工智能创建更多数据增强了当前的能力,并为未来的算法改进铺平了道路,特别是在更困难的任务上。
5.人类评估开始了。
随着生成模型产生高质量的文本、图像等,基准测试已经开始慢慢转向纳入人工评估排行榜,而不是像 ImageNet 或 SQuAD 这样的计算机化排名。公众对人工智能的看法,正在成为跟踪人工智能进展的一个越来越重要的考虑因素。
6.多亏了 LLM ,机器人变得更加灵活。
语言建模与机器人技术的融合产生了更灵活的机器人系统,如 PaLM-E 和 RT-2 。除了改进机器人能力,这些模型还可以提问,这标志着机器人朝着能够更有效地与现实世界互动的方向迈出了重要一步。
7.更多智能体方面的技术研究。
创造能够在特定环境中自主运行的人工智能系统一直是计算机科学家面临的挑战。然而,新的研究表明,自主智能体的性能正在提高。当前的智能体现在可以掌握像《我的世界》这样的复杂游戏,并有效地处理现实世界的任务,如在线购物和研究辅助。
8.闭源 LLM 明显优于开源 LLM 。
在 10 个精选的 AI 基准测试中,闭源模型优于开源模型,性能优势中位数为 24.2% 。
负责任的 AI
1.严重缺乏对 LLM 的责任可靠性和标准化的评估。
来自 AlIndex 的新研究揭示了在负责任的 Al 报告中严重缺乏标准化。领先的开发机构,包括 OpenAl 、 Google 和 Anthropic ,主要针对不同的负责任的人工智能基准测试他们的模型。
2.政治深度伪造更容易产生,难以察觉。
政治性的深度伪造已经影响了世界各地的选举,最近的研究表明,现有的 Al 深度伪造方法具有不同程度的准确性。此外,像 CounterCloud 这样的新项目表明 AI 可以轻松地创建和传播虚假内容。
3.研究人员在 LLM 中发现了更复杂的漏洞。
以前,红队模型的大部分努力都集中在测试对人类直观有意义的对抗性提示上。今年,研究人员发现了让 LLMs 表现出有害行为的不太明显的策略,比如要求模型无限重复随机单词。
4.人工智能的风险正成为全球企业的担忧。
一项关于负责任人工智能的全球调查强调,公司最关心的人工智能问题包括隐私、数据安全和可靠性。调查显示,组织开始采取措施来降低这些风险。然而,在全球范围内,大多数公司迄今只减轻了这些风险的一小部分。
5. LLM 可以输出受版权保护的材料。
多名研究人员已经表明,流行的 LLM 的生成输出可能包含受版权保护的材料,例如《纽约时报》的摘录或电影中的场景。这种输出是否构成侵犯版权正在成为一个核心的法律问题。
6.人工智能开发者在透明度上得分很低,这对研究有影响。
最新的引入的基础模型透明度指数表明,人工智能开发人员缺乏透明度,尤其是在训练数据和方法的披露方面。这种开放性的缺乏阻碍了进一步了解人工智能系统的鲁棒性和安全性的努力。
7.极端的风险很难分析。
在过去的一年里,人工智能学者和实践者之间出现了一场关于关注即时模型风险(如算法歧视)与潜在的长期存在威胁的实质性辩论。很难区分哪些主张是有科学依据的,应该为决策提供依据。与现实威胁的理论性质相比,已经存在的短期风险的有形性质加剧了这一困难。
8.人工智能事件的数量持续上升。
根据 AI 事件数据库,它追踪与滥用 AI 有关的事件, 2023 年报告了 123 起事件,比 2022 年增加了 32.3 个百分点。自2013年以来,人工智能事件增长了 20 多倍。一个值得注意的例子包括在网上广泛分享的由人工智能生成的泰勒·斯威夫特露骨色情伪造视频。
9. ChatGPT 有政治偏见。
研究人员发现, ChatGPT 明显偏向美国民主党和英国工党。这一发现引发了人们对该工具影响用户政治观点的可能性的担忧,尤其是在今年全球大选期间。
经济
1.生成式人工智能投资暴涨。
尽管去年整体人工智能民间投资有所下降,但对生成式人工智能的投融资却大幅增加,从 2022 年起增加了近 8 倍,达到252亿美元。生成式人工智能领域的主要参与者,包括OpenAl 、 Anthropic 、Hugging Face和 Inflection ,都报告了大量的融资轮次。
2.美国已经处于领先地位,在私人投资方面走得更远。
2023 年,美国的 AI 投资达到 672 亿美元,比第二大投资国中国高出近 8.7 倍。自 2022 年以来,中国和欧盟(包括英国)的民间人工智能投资分别下降了 44.2% 和 14.1% ,而美国同期则显著增长了 22.1% 。
3.美国和全球的 AI 就业机会越来越少。
2022 年,人工智能相关的职位占美国所有职位发布的 2.0% ,这一数字在 2023 年降至 1.6% 。人工智能职位列表数量的下降归因于领先人工智能公司的职位减少,以及这些公司中技术职位的比例下降。
4. AI 降低成本,增加收入。
麦肯锡的一项新调查显示, 42% 的受访者组织报告实施人工智能(包括生成式人工智能)后成本降低, 59% 的组织报告收入增加。与前一年相比,报告成本下降的受访者增加了 10 个百分点,这表明 Al 正在推动业务效率的显著提高。
5.私人投资总额再次下降,而新资助的私营投资公司增加。
全球私人 AI 投资连续第二年下降,尽管降幅小于 2021 年至 2022 年的大幅下降。新投资的人工智能公司数量增至 1,812 家,较上年增长 40.6% 。
6.所有组织的采用率都在上升。
麦肯锡 2023 年的一份报告显示, 55% 的组织现在在至少一个业务或职能部门中使用人工智能(包括生成式人工智能),高于 2022 年的 50% 和 2017 年的 20% 。
7.中国主导工业机器人技术。
自 2013 年超过日本成为工业机器人主要安装国以来,中国与最接近的竞争对手之间的差距显著扩大。 2013 年,中国的安装量占全球总量的 20.8% ,到 2022 年这一比例升至 52.4% 。
8.机器人安装更加多样化。
2017 年,协作机器人仅占所有新工业机器人安装的 2.8% ,到 2022 年,这一数字攀升至 9.9% 。同样, 2022 年,除医疗机器人外,所有应用类别的服务机器人安装都有所增加。这一趋势不仅表明机器人安装的总体增加,还表明越来越重视部署机器人来承担面向人类的角色。
9.数据显示:人工智能提高了员工的工作效率,提高了工作质量。
2023 年,多项研究评估了人工智能对劳动力的影响,表明人工智能使工人能够更快地完成任务,并提高他们的产出质量。这些研究还证明了人工智能在弥合低技能和高技能工人之间的技能差距方面的潜力。尽管如此,其他研究警告说,在没有适当监督的情况下使用人工智能可能会导致性能下降。
10.财富 500 强公司开始谈论人工智能,尤其是生成式人工智能。
2023 年, AI 在 394 次财报会议中被提及(占所有财富 500 强公司的近 80%),与 2022 年的 266 次提及相比有显著增加。自 2018 年以来,在财富 500 强的财报会议上提到 AI 的次数几乎增加了一倍。在所有财报会议中, 19.7% 的财报会议最常提及的主题是生成式人工智能。
科学与医学
1.由于人工智能的出现,科学进步进一步加快。
2022年,AI 开始推进科学发现。然而, 2023 年推出更重要的科学相关人工智能应用,从提高算法排序效率的 AlphaDev 到改进材料发现过程的 GNOME 。
2.人工智能帮助医学向前迈进了一大步。
在 2023 年,几个重要的医疗系统包括增强疫情预测的 EVEscape 和 AI 驱动协助突变分类的 AlphaMissence 。人工智能被越来越多地用于推动医学进步。
3.知识渊博的医学专家已经来到了。
在过去的几年里,人工智能系统显示在 MedOA 基准(评估 AI 临床知识的关键测试)上取得显著进步。 2023 年的杰出模型 GPT-4 医疗提示的准确率达到 90.2% ,比 2022 年的最高得分提高了 22.6 个百分点。自 2019 年推出基准测试以来, MedOA 上的 AI 性能提高了近两倍。
4. FDA 批准越来越多与 AI 相关的医疗器械。
2022 年, FDA 批准了 139 个与 AI 相关的医疗器械,较 2021 年增长 12.1% 。自 2012 年以来, FDA 批准的人工智能相关医疗器械的数量增加了 45 倍以上。人工智能越来越多地被用于现实世界的医疗目的。
公众看法
1.全球各地的人们越来越认识到 AI 的潜在影响,也越来越紧张。
益普索的一项调查显示,在过去的一年中,认为人工智能将在未来三到五年内极大地影响他们生活的人的比例从 60% 增加到 66% 。此外, 52% 的人对人工智能产品和服务表示紧张,比 2022 年上升了 13 个百分点。
2.公众对 AI 的经济影响持悲观态度。
在益普索的一项调查中,只有 37% 的受访者认为人工智能会改善他们的工作。只有 34% 的人预计人工智能将提振经济, 32% 的人认为它将促进就业市场。
3.关于乐观的人口统计学差异出现了。
人们对人工智能改善生活的潜力存在不同看法,年轻一代普遍更乐观。例如,59% 的 Z 世代受访者认为人工智能将增加娱乐选择,而只有 40% 的婴儿潮一代认为这一点。此外,与低收入和教育水平较低的人相比,收入和教育水平较高的人对人工智能对娱乐、健康和经济的积极影响更乐观。
4. ChatGPT 广为人知,应用广泛。
多伦多大学的一项国际调查表明 63% 的受访者知道 ChatGPT 。在那些知道的人中,大约一半的人报告说每周至少使用一次 ChatGPT 。