GPT-4重磅登场！分析、创意及推理等六边形能力全解

OpenAI鼓励并促进透明度、用户教育和更广泛的人工智能素养，正在努力解决比如社会偏见、幻觉和对抗性的提示。OpenAI也致力于扩大人们在塑造模型方面的输入渠道。

3月14日，OpenAI重磅官宣GPT-4大型多模态模型正式发布，它是OpenAI公司史上最强大的人工智能系统，拥有更广泛的常识和更精准解决复杂问题的能力！OpenAI CEO Sam Altman以及总裁和联合创始人Greg Brockman共同发推，GPT-4在功能和协同方面都有显著进步。

应该说GPT-4的推出要比小编预想的早很多，此前Sam Altman接受采访时一直用模棱两可的口吻向外界宣称GPT-4的发布时间：可能很快，也可能要等很久以后。

随后OpenAI总裁兼联合创始人Greg Brockman就在Youtube上进行了GPT-4的开发者直播，第一件事就是拿来和GPT-3.5进行对比。所以就以这段为引子，为大家介绍GPT-4所更新的功能以及限制！

GPT-3.5-turbo结果演示

他把OpenAI官网的一篇介绍GPT-4的博文（博文地址供参考：https://openai.com/research/gpt-4）复制到了描述栏，并选择GPT-3.5-turbo模型，要求其把这篇博文进行一句话总结，并且每一个词都要用字母“G”开头，GPT-3.5给出了这样的结果：

GPT-4, a large multimodal model, exhibits human-level performance, generally outperforming GPT-3.5, and is being released via ChatGPT and API, while OpenAI Evals is open-sourced to guide further improvements.

小编简评：显然3.5给出的答案差强人意，压根没有按照主人的意图进行尝试解答，绝大部分单词都不是“G”开头的。可以说绝大部分场景下，GPT-3.5的理解能力达不到这一步，他放弃了任务的执行。

GPT-4结果演示

于是，Greg Brockman把模型选到GPT-4，再次执行相同的任务，来看看这次的结果如何：

GPT-4 generates groundbreaking, grandiose gains, greatly galvanizing generalized AI goals. （GPT-4创造了开创性的、宏伟的成果，极大地激励了通用AI的目标。）

小编简评：显然GPT-4的答案完美地贴合了主人的用意，每个单词全部以“G”开头，且是一句对文章总结通顺的话。这一点直接把3.5按在地上摩擦！

这还没完，接着盘他！让他每个单词以“A”开头再执行这个任务：

GPT-4 achieves advanced advancements, amplifying artificial aptitude astoundingly.（GPT-4取得了先进的进步，惊人地提高了人工智能的能力。）

GPT-4：你以为换成“A”就难倒我了吗，小Case！

好吧，再换成“Q”把这篇文章总结成一句话：

GPT-4 quintessentially quickens quality quantifications, quelling questionable quandaries.（GPT-4从本质上加快了质量的量化，消除了有争议的困境。）

——这句话的意思是，GPT-4是一种能够有效地评估和提高生成内容的质量的AI系统，它可以解决一些复杂和不确定的问题。它可以在各种领域和任务上进行精确和可靠的量化分析，如机器翻译，自然语言理解等。它是一种能够提高AI性能和可信度的系统。掌声在哪里？👏🏻👏🏻👏🏻

以上只是一个案例简介GPT-4增强的地方，下面小编把一些具体的方面，图文并茂的按顺序罗列出来：

① 可接受图像输入并生成说明、分类和分析。

小编需要预先说明的是：本次的图像输入功能并没有开放，还在进行准备阶段。但是他是具备以下能力的：

输入图像，告诉他如果绳子剪断会怎么样？他会回复：气球将飞走。

输入图片，告诉它可以用这些食材来做什么？回复如下：

② 创意性和协作性

本段第一部分就是最好的例子，GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起完成创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。

再一个示例：用一个句子解释《灰姑娘》中的情节，其中每个单词必须以字母表中从 A 到 Z 的下一个字母开头，不重复任何字母。

看看这个回答（Output），着实有点惊人，每个单词的首字母居然按照字母表A-Z给回答了出来！

③ 更强的处理长文本的能力

GPT-4 能够处理超过 25,000 个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

示例：主人直接贴了一个歌手蕾哈娜的维基百科链接（这个百科页面的介绍非常长），让GPT-4读取链接内容，描述一下她在超级碗上的表现以及它的特别之处。

看看这回答：

回答中文翻译：出于多种原因，蕾哈娜 (Rihanna) 的超级碗 LVII 中场秀表演很特别。首先，这是她五年多来的第一次现场表演，也是她第一次登上超级碗中场秀的头条新闻。此外，她还创造了历史，成为第一个在怀孕期间在超级碗上表演的人。该节目本身广受好评，许多人称赞她充满活力的表演和令人印象深刻的歌声。它还获得了巨大的收视率，成为历史上收视率第二高的中场秀。

④ GPT-4在高级推理能力方面超越ChatGPT

这个案例很有意思，大家看好了：

问题——
◉ 安德鲁从上午 11 点到下午 3 点有空
◉ 乔安妮从中午到下午 2 点或下午 3：30 到下午 5 点是自由
◉ 汉娜在中午半小时可用，然后下午4点到6点有空。

对于安德鲁、汉娜和乔安妮来说，一个30 分钟会议的开始时间有哪些选择？

我们来看ChatGPT给出的答案：

先是把每个人的可用时间列出来，然后推理出来的是：下午4点开会。这个显然不对，因为Andrew没有空啊。

再看GPT-4的答案：

更精准的数字列出了每个人的可用时间，给出了正确也是唯一的答案：中午12点到12点半进行半小时的会议。

⑤ GPT-4更会考试

GPT-4在统一律师考试中获得了前10%的成绩，而ChatGPT则是倒数的10%。

而在生物奥林匹克竞赛中，GPT-4更是离谱的获得了前99%的成绩，辗轧ChatGPT。GPT-4在各种专业和学术基准上表现已经达到甚至超越了人类的表现。

⑥ 更安全，更具事实性

OpenAI是一家致力于创建和推广人类友好的AI的公司，OpenAI花了6个月的时间让GPT-4更安全、更符合人类价值观。在内部评估中，GPT-4回应不允许的内容的可能性比GPT-3.5低了82%，产生事实性回应的可能性比GPT-3.5高了40%。通过对安全和事实性的改进，使其更能符合人类的利益和期望。