谷歌 OpenAI 大模型巅峰对决！Gemini 激战 GPT-4，数学代码却惨遭碾压

文章目录[隐藏]

超大杯还没来，大杯临时顶上
顶级模型的内卷
代码编程
数学应用
老爹笑话
事实检索
创意写作
辩论对话
ChatGPT 更胜一筹，但差距在缩小

新智元报道

编辑：Aeneas 好困

【新智元导读】大模型巅峰对决开启，Gemini 和 GPT-4 展开大 pk！代码和数学 Gemini 惨遭 GPT-4 碾压，但要论讲笑话和写作，它的答案却意外的好笑。

被谷歌寄予厚望的复仇杀器 Gemini，是否能够如愿单挑 ChatGPT？

最近几天，外媒记者和网友们纷纷放出实测，比较了 Gemini Pro 加持的新 Bard 与 GPT-3.5 和 GPT-4 的各项性能。

先说结果 ——ChatGPT 略胜一筹，但 Gemini 进步巨大。

虽然宣传手段有一些夸大的成分，但谷歌确实靠 Gemini 在 LLM 大战中挽回了一些颓势。

而且，现在双方都还捂着杀手锏没有放出来，真正的巅峰对决，恐怕要等 Gemini Ultra 或者集成了 OpenAI 神秘 Q * 技术的新模型出场后了。

超大杯还没来，大杯临时顶上

需要强调的是，此次出战的选手 Gemini Pro 只是「二弟」，因为号称「在 32 个广泛使用的学术基准测试中击败 GPT-4」的老大哥 Gemini Ultra 还未放出。

而且，由于目前只有纯文本提示用上了 Gemini Pro。

所以，Bard 暂时还没有得到加持的图像理解能力，依然很拉跨……

来源：马里兰大学博士生 Fuxiao Liu

顶级模型的内卷

早在 4 月，就有许多人做过 PaLM 支持的 Bard 和 GPT-4 的 pk，当时的结果是 GPT-4 七局五胜，略胜 Bard 一筹。

这次对决中，也考虑进了 Bard 在四月的结果，因此可以用来衡量几个月来谷歌的进步速度。

这些测试虽不够全面，但也提供了一个很好的基准，可以用来判断这些 AI 聊天助手在普通用户日常任务中的表现。

话不多说，现在开始！

代码编程

既然谷歌这次大吹特吹了全新的 AlphaCode 2，那我们首先就来看看它们的编程水平如何。

题目：Write a Python script that says “Hello World,” then creates a random repeating string of characters endlessly.

编写一个 Python 脚本，在其中输入「Hello World」，然后不停地随机创建一个重复字符串。

PaLM Bard 的答案：

首先，初代的 Bard 非常简陋，并不能生成代码。

不过，谷歌后来在 6 月的时候，给它加上了这个功能。（但并没有针对这个题目进行过测试）

Gemini Pro Bard 的答案：

可以看到，新版 Bard 生成的代码没什么大问题，但需要在前面添加一个 import string 才能运行。

好在，这个 bug 很容易解决。

然而，不知道是因为好奇网友太多导致负荷超载，还是系统本身就不稳定。

针对这道题，Bard 在大部分时候都会先「沉默」30 秒，然后返回错误提示：「抱歉，出了点岔子，Bard 目前还处在试验阶段」。

GPT-3.5 的答案：

GPT-4 的答案：

相比之下，不管是 GPT-3.5 还是 GPT-4 Turbo，都提供了非常简洁，而且可以直接跑通的代码。

获胜方：毫无疑问，这一轮是 ChatGPT 阵营大获全胜。

数学应用

接下来，就是次次都能难倒一片大模型的数学题了。

题目：If Microsoft Windows 11 shipped on 3.5″ floppy disks, how many floppy disks would it take?

如果使用 3.5 英寸软盘来安装 Windows 11，需要多少张？

PaLM Bard 的答案：

可以看到，初代 Bard 给出了非常离谱的答案。

先不管 Win11 有没有 21 个 GB，就算有，15.11 张软盘也装不下吧……

Gemini Pro Bard 的答案：

到了新版 Gemini Bard 这里，3472 这个结果显然是把 1GB 当成了 1000MB 去算的。

然而，即便是按照 1000MB 去算，计算直接得到的 3472.2… 也应该进一位变成 3273。

毕竟，多出的那些数据，显然是不能被「四舍五入」掉的。

GPT-3.5 的答案：

GPT-3.5 这边也是类似，首先推测 Win11 安装包的大小为「几 GB」，然后四舍五入到 20GB。

最后，按照「1GB=1000MB」去算的答案，并且把多出的 0.88… 张盘也给舍掉了。

GPT-4 的答案：

相比之下，只有 GPT-4 正确地使用了「1GB=1024MB」，并且将结果中的 3555.5… 进了一位变成 35556。

从结果来看，Gemini Pro 加持的 Bard 和 GPT-3.5 半斤八两，而 GPT-4 不仅逻辑清晰而且还在计算中利用「Analysis」保证了答案的正确性。

考虑到 Gemini Pro 在评测跑分上要比 GPT-3.5 高了不少，这个结果多少有些令人失望。

获胜方：谷歌和 OpenAI 的免费版模型可谓是「旗鼓相当」，而付费版的 GPT-4 则凭借着压倒性的优势取胜。

老爹笑话

原创性方面的测试题目是：Write 5 original dad jokes。

写 5 个原创的 dad jokes。

Dad Jokes（老爹笑话）是一种中年男人爱讲的笑话，简单幼稚、无聊、莫名其妙，并且包含双关的谐音梗，属于无厘头的冷笑话。无聊到女儿听到时，常常会给老爸一个白眼。

不过下面的答案因为是从英文翻译来的缘故，中文翻译会丢失一些谐音梗的趣味性。

PaLM Bard 的答案：

1. 我曾经是一名银行家，但我失去了兴趣。

2. 我彻夜未眠，想看看太阳去了哪里，但后来我恍然大悟。

3. 我看到一个酒鬼在吃葡萄。我问他是否要喝它们，他说：「不，我只是去摘葡萄。」

4. 我曾经为鸡经营过约会服务，但我很难让母鸡们互相见面。

5. 我看到一只蜗牛背上背着一片生菜。我问他在做什么，他说：「我正在努力抢占先机。」

Gemini Pro Bard 的答案：

1.水牛的儿子去上大学，它会说什么？「野牛！」

2.我以前对肥皂上瘾，但我现在干净了。

3.没有眼睛的鱼（Fish）叫什么？「嘘（Fsh）！」

4.我正在读一本关于反重力的书，根本不可能把它放下！

5.你听说过患有幽闭恐惧症的宇航员吗？「他只是需要一点空间。」

GPT-3.5 的答案：

1. 为什么科学家不相信原子？因为它们构成（虚构）了一切！

2. 我只认识 25 个字母。我不认识 y（你）。

3. 假意大利面应该怎么叫？Impasta。

4. 稻草人为何获奖？因为他在自己的领域里很出色！

5. 企鹅如何建造它的房子？Igloos 起来！

GPT-4 的答案：

1. 为什么科学家不相信原子？因为它们构成（虚构）了一切！

2. 我告诉我儿子我是以 Thomas Edison 的名字命名的。他说：「但是爸爸，你叫布 Biran。」我回答说：「没错，我是在 Thomas Edison 之后起名字的！」

3. 稻草人为什么获奖？因为他在自己的领域表现出色！

4. 我正在读书一本关于反重力的书。根本不可能把它放下！

5. 你听说过那个害怕负数的数学家吗？他会不惜一切代价避免负数。

这个问题的精髓，就在于回答中的原创性。

但不管是 Bard 还是 ChatGPT，给出答案几乎都可以通过谷歌搜索找到，或者就是模型在原答案的基础上，进行了一些小的改写。

而且，Bard 和 GPT-4 有一个答案重了（关于反重力的书），GPT-3.5 和 GPT-4 则有两个笑话重复了（「科学家相信原子」和「稻草人获奖」）。

最有趣的答案来自 GPT-4，它讲的笑话里说，一个名叫 Brian 的孩子是以 Thomas Edison 命名的。谷歌没有搜到相同的笑话，但是搜到一个类似的 Thomas Jefferson 的孩子名叫 Brian 的笑话。

获胜方：这一轮可以视为平局。因为 AI 们写出的笑话几乎都不是原创的……

事实检索

问题：Who invented video games?

谁发明了电子游戏？

PaLM Bard 的答案：

初代 Bard 答案中，「Ralph Baer 的 Brown Box 和 Magnavox Odyssey」的信息似乎是直接从维基百科中找到的。

Gemini Pro Bard 的答案：

相比之下，新版 Gemini Bard 不仅简洁而准确地指出了 William Higinbotham 早期的「Tennis for Two」的贡献。

而且，还扩展到对电子游戏早期发展做出重大贡献的人，比如 Nolan Bushnell、Ted Dabney 和 Al Alcorn，提供的人物信息也是准确且相关的。

不过后面的回答不够完美：它没有提 Steve Jobs 和 Steve Wozniak 在 Atari 的工作，反而对他们创造 Apple II 进行了一些不合逻辑的讨论。

GPT-3.5 的答案：

而 GPT-3.5 虽然提到「多年个人和公司都为该行业做出了贡献」，却没有说出任何重要人物的名字。

GPT-4 的答案：

GPT-4 则表示，电子游戏的发明「不能归因于某个人」，然后提到了 Higinbotham、Bushnell，以及 Steve Russell 1962 年创作的《太空战争》。

获胜方：在免费版模型里，Bard 的答案比 GPT-3.5 更好。但要说最佳答案，还得看付费版的 GPT-4。

创意写作

问题：Write a two-paragraph creative story about Abraham Lincoln inventing basketball.

写一篇关于亚伯拉罕・林肯发明篮球的两个段落的创意故事。

PaLM Bard 的答案：

初代 Bard 在写作中，包含了一些令人回味的语句，比如「林肯对自己微笑，因为他记得小时候玩过那样的游戏」。

Gemini Pro Bard 的答案：

相比而言，Gemini Bard 的写作更见简洁和专注主题。

然而，两个版本的 Bard，都没有按要求分成两个段落。

GPT-3.5 的答案：

GPT-3.5 的表现颇有亮点，它是唯一一个将林肯想象成年轻人而不是坐在白宫里焦躁不安的总统形象的模型。

GPT-4 的答案：

而 GPT-4 是唯一一个明确提及林肯摔跤手经历的模型，而不是泛泛地说他有运动能力。

更有趣的是，GPT-4 的故事中，林肯是从白宫花园里的一群孩子那里，偷来了把球扔进篮筐这个概念。

获胜方：所有模型的写作都有其独特的魅力和令人回味的句子，算是一场平局。

辩论对话

题目：Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.

写一篇 2000 年左右 PowerPC 处理器爱好者和 Intel 处理器爱好者之间的 5 行辩论。

PaLM Bard 的答案：

Gemini Pro Bard 的答案：

可以看出，新版 Gemini Bard 对初代 Bard 的答案进行了改进，尤其是在技术术语的选择上。

这些答案中包含 AltiVec 指令、RISC 与 CISC 设计、MMX 技术，放在 2000 年的 Ars 论坛讨论中并不违和。

GPT-3.5 的答案：

GPT-4 的答案：

不过，ChatGPT 显然表现更优。GPT-3.5 的答案冗长，但 GPT-4 中就简化为更短小精辟的论点。

二者的响应中，都避免了令普通受众感到艰涩的术语，更关注普遍的「功能与兼容性」论点。不足之处可能是对于技术受众来说太泛泛。

获胜方：ChatGPT 成功地复刻了辩论双方的观点，而不是依赖于令人困惑的术语，因此 ChatGPT 获胜。

ChatGPT 更胜一筹，但差距在缩小

可以看到，在数学、摘要、事实查找和创意写作等测试中，基于 Gemini 的新版 Bard 相较于 8 个月之前，都表现出了显著的进步。

虽然根据以上非常主观的评测，ChatGPT 依然占据上风。

但与今年四月的情况相比，双方的差距已经缩小了很多。

最后，我们很期待看到，像 Gemini Ultra 或者可能融合了 OpenAI 神秘的 Q * 技术的新模型，将如何在不久的将来应对这些任务。

参考资料：

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/

本文来自微信公众号：新智元（ID：AI_era）

谷歌 OpenAI 大模型巅峰对决！Gemini 激战 GPT-4，数学代码却惨遭碾压

超大杯还没来，大杯临时顶上

顶级模型的内卷

代码编程

数学应用

老爹笑话

事实检索

创意写作

辩论对话

ChatGPT 更胜一筹，但差距在缩小

Published by

风君子