GPT-4重磅登场!分析、创意及推理等六边形能力全解

OpenAI鼓励并促进透明度、用户教育和更广泛的人工智能素养,正在努力解决比如社会偏见、幻觉和对抗性的提示。OpenAI也致力于扩大人们在塑造模型方面的输入渠道。

640-61
作者:e-works祖哥 出处:数字化企业

3月14日,OpenAI重磅官宣GPT-4大型多模态模型正式发布,它是OpenAI公司史上最强大的人工智能系统,拥有更广泛的常识和更精准解决复杂问题的能力!OpenAI CEO Sam Altman以及总裁和联合创始人Greg Brockman共同发推,GPT-4在功能和协同方面都有显著进步。

640-55

640-56

应该说GPT-4的推出要比小编预想的早很多,此前Sam Altman接受采访时一直用模棱两可的口吻向外界宣称GPT-4的发布时间:可能很快,也可能要等很久以后。

随后OpenAI总裁兼联合创始人Greg Brockman就在Youtube上进行了GPT-4的开发者直播,第一件事就是拿来和GPT-3.5进行对比。所以就以这段为引子,为大家介绍GPT-4所更新的功能以及限制!

640-57

GPT-3.5-turbo结果演示

他把OpenAI官网的一篇介绍GPT-4的博文(博文地址供参考:https://openai.com/research/gpt-4)复制到了描述栏,并选择GPT-3.5-turbo模型,要求其把这篇博文进行一句话总结,并且每一个词都要用字母“G”开头,GPT-3.5给出了这样的结果:

GPT-4, a large multimodal model, exhibits human-level performance, generally outperforming GPT-3.5, and is being released via ChatGPT and API, while OpenAI Evals is open-sourced to guide further improvements.

小编简评:显然3.5给出的答案差强人意,压根没有按照主人的意图进行尝试解答,绝大部分单词都不是“G”开头的。可以说绝大部分场景下,GPT-3.5的理解能力达不到这一步,他放弃了任务的执行。

GPT-4结果演示

于是,Greg Brockman把模型选到GPT-4,再次执行相同的任务,来看看这次的结果如何:

640-58

GPT-4 generates groundbreaking, grandiose gains, greatly galvanizing generalized AI goals. (GPT-4创造了开创性的、宏伟的成果,极大地激励了通用AI的目标。)

小编简评:显然GPT-4的答案完美地贴合了主人的用意,每个单词全部以“G”开头,且是一句对文章总结通顺的话。这一点直接把3.5按在地上摩擦!

这还没完,接着盘他!让他每个单词以“A”开头再执行这个任务:

640-59

GPT-4 achieves advanced advancements, amplifying artificial aptitude astoundingly.(GPT-4取得了先进的进步,惊人地提高了人工智能的能力。)

GPT-4:你以为换成“A”就难倒我了吗,小Case!

好吧,再换成“Q”把这篇文章总结成一句话:

640-60

GPT-4 quintessentially quickens quality quantifications, quelling questionable quandaries.(GPT-4从本质上加快了质量的量化,消除了有争议的困境。)

——这句话的意思是,GPT-4是一种能够有效地评估和提高生成内容的质量的AI系统,它可以解决一些复杂和不确定的问题。它可以在各种领域和任务上进行精确和可靠的量化分析,如机器翻译,自然语言理解等。它是一种能够提高AI性能和可信度的系统。掌声在哪里?👏🏻👏🏻👏🏻

以上只是一个案例简介GPT-4增强的地方,下面小编把一些具体的方面,图文并茂的按顺序罗列出来:

① 可接受图像输入并生成说明、分类和分析。

小编需要预先说明的是:本次的图像输入功能并没有开放,还在进行准备阶段。但是他是具备以下能力的:

640-61

输入图像,告诉他如果绳子剪断会怎么样?他会回复:气球将飞走。

640-62

输入图片,告诉它可以用这些食材来做什么?回复如下:

640-63

② 创意性和协作性

本段第一部分就是最好的例子,GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起完成创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

再一个示例:用一个句子解释《灰姑娘》中的情节,其中每个单词必须以字母表中从 A 到 Z 的下一个字母开头,不重复任何字母。

640-64

看看这个回答(Output),着实有点惊人,每个单词的首字母居然按照字母表A-Z给回答了出来!

③ 更强的处理长文本的能力

GPT-4 能够处理超过 25,000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

示例:主人直接贴了一个歌手蕾哈娜的维基百科链接(这个百科页面的介绍非常长),让GPT-4读取链接内容,描述一下她在超级碗上的表现以及它的特别之处。

看看这回答:

640-65

回答中文翻译:出于多种原因,蕾哈娜 (Rihanna) 的超级碗 LVII 中场秀表演很特别。首先,这是她五年多来的第一次现场表演,也是她第一次登上超级碗中场秀的头条新闻。此外,她还创造了历史,成为第一个在怀孕期间在超级碗上表演的人。该节目本身广受好评,许多人称赞她充满活力的表演和令人印象深刻的歌声。它还获得了巨大的收视率,成为历史上收视率第二高的中场秀。

④ GPT-4在高级推理能力方面超越ChatGPT

这个案例很有意思,大家看好了:

问题——
◉ 安德鲁从上午 11 点到下午 3 点有空
◉ 乔安妮从中午到下午 2 点或下午 3:30 到下午 5 点是自由
◉ 汉娜在中午半小时可用,然后下午4点到6点有空。

对于安德鲁、汉娜和乔安妮来说,一个30 分钟会议的开始时间有哪些选择?

我们来看ChatGPT给出的答案:

640-66

先是把每个人的可用时间列出来,然后推理出来的是:下午4点开会。这个显然不对,因为Andrew没有空啊。

再看GPT-4的答案:

640-67

更精准的数字列出了每个人的可用时间,给出了正确也是唯一的答案:中午12点到12点半进行半小时的会议。

⑤ GPT-4更会考试

GPT-4在统一律师考试中获得了前10%的成绩,而ChatGPT则是倒数的10%。

640-68

而在生物奥林匹克竞赛中,GPT-4更是离谱的获得了前99%的成绩,辗轧ChatGPT。GPT-4在各种专业和学术基准上表现已经达到甚至超越了人类的表现。

640-69

⑥ 更安全,更具事实性

OpenAI是一家致力于创建和推广人类友好的AI的公司,OpenAI花了6个月的时间让GPT-4更安全、更符合人类价值观。在内部评估中,GPT-4回应不允许的内容的可能性比GPT-3.5低了82%,产生事实性回应的可能性比GPT-3.5高了40%。通过对安全和事实性的改进,使其更能符合人类的利益和期望。

640-70

这一点应该说非常重要。在之前ChatGPT的体验中,常常会感觉到他词不达意,或者太过中庸,说些正确的废话。但是随着GPT-4事实性的显著增强,他所给出的答案将更加精确。

⑦ GPT-4的使用限制

虽然GPT-4很强大,它还有很多已知的局限性,OpenAI正在努力解决,比如社会偏见、幻觉和对抗性的提示。其鼓励并促进透明度、用户教育和更广泛的人工智能素养,随着社会采用这些模型。OpenAI也致力于扩大人们在塑造模型方面的输入渠道。

GPT-4 与早期的 GPT模型具有相似的局限性。最重要的是,它仍然不完全可靠,不要完全相信甚至依赖他,尤其是在一些重大的事情上。GPT-4 普遍缺乏2021年9月之后的数据,所以也会犯简单的推理错误。

GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI正在与外部研究人员合作,以改进其理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。