5款大模型，马斯克的grok1竟是一个复读机？

就在最近，国产大模型Kimi再次引爆了舆论。3月18日，月之暗面宣布其对话式AI助手产品Kimi智能助手现已支持200万字的无损上下文输入。这个差异化的“长文本处理”的免费大模型，一下子就火出了圈。这意味着什么？以往需要一个新手投入10000小时才能成为某领域的专家标准，现在你只需10分钟的时间向Kimi提供相关资料，其便可以达到一个全新领域的初级专家水平。

免费+好用，Kimi的服务器瞬间就被挤宕机了，官方紧急扩容了五次，才算是恢复正常。

（现在我还在内测排队中）

自2024年开始，各家的大模型开启了又一轮的发布与迭代，AI大模型以十分迅猛的速度，疯狂地刷新着人们的认知，从sora再到kimi，改变可谓是翻天覆地。

在感叹AI发展日新月异之余，我们也在积极地寻找利用AI的机会。实际上，大部分人对于大模型各种标准测试排名并不关心。哪一款AI能够低门槛灵活使用，解决眼前实际的问题，带来效率上的切实提升才是重点。

（大模型的排行榜）

那么问题来了：哪一款大模型，是现阶段比较好用的呢？

本着“能用、好用、性价比高”的评价原则，我们这次找来了当下最热门的五款大模型，并且开通了付费最高等级的模型，模拟工作生活中的场景进行一次“非专业性测试”，看看哪一款是现阶段我们用着称心的“AI好帮手”！

参与评测的大模型有：大模型老大ChatGPT4、Google的Gemini Pro、OpenAI的叛忍Claude 3 Opus、突然爆火的Kimi、以及马斯克的grok 1：

多图、长图预警！

正式测试开始↓

数学/逻辑测试

我们先从一般的数学和逻辑测试开始。我找了一些数学和逻辑类型的问题来提问，想看看大模型们的数学能力孰强孰弱。

我找了一系列问题来分别测试它们的运算能力。

先是ChatGPT 4，ChatGPT4完全体现了大模型运用现代工具的能力，它先是简单地说了下该如何解题。

对于后面难一些的奥数题，它直接开始调用函数程序开始计算，像极了口算不行改拿计算器的我。

而在它调用函数的过程中，中间不知道是网络的原因还是算法的问题，还出现了“算错了”的情况。

最后ChatGPT4总结了所有的答案。

然后是Gemini Pro，Google的Gemini Pro很快就给出了答案。

Claude 3 Opus也是同样，思考的速度比Gemini Pro稍微慢了点，但也十分言简意赅。

grok 1的答案感觉也是使用了计算器，但是你的答案好像和上面的不一样啊！

最后是国产大模型Kimi，第四题和第五题它以“没有确切的条件”为由拒绝回答。

幻觉测试

因为生成式大模型经常会出现幻觉现象（Illusion Phenomenon in Large Models），简单来说就是“一本正经地胡说八道”。

针对这个情况，我准备了一系列逻辑欠缺、常识不对或者有明显误导性的问题，看看大模型能否准确识别。

首先是ChatGPT 4，它的回答先是说这些问题“富有寓意性”，然后它在很认真地纠正我问题中常识性的错误，还给我科普一些知识，但是它空了两个题没有回答。

Claude 3 Opus的回答则让我十分惊讶，它先是说这些问题是“无意义的”或不可能回答的，然后嘲讽我这些是“伪科学”，说这些荒谬的问题不可能实现。

Claude 3 Opus语气严谨而坚定，一本正经说教的样子仿佛引导弱智一般。

随后是Gemini Pro，它逐条对我的脑残问题进行驳斥，没有任何个人色彩。

然后是老马家的grok1，本来兴致满满地期待，结果第一次就给我出了个大岔子。

我们先不提黄河的这个“彩虹屁”……最后怎么还复读上了？

再来一次之后，总算是正常了。

相比较而言，Kimi的回答还是很详细地一遍就过了，表现还是很不错的。

长文本总结测试

因为grok1并没有上传文件的按钮，所以缺席了这次测试。我找了六篇关于AI终端的报道和论文，输入进去并让大模型进行总结并分析。

首先是ChatGPT4，它给出的结论对这几个文章进行了有效地总结与归纳，不过内容明显浮于表面。

接下来是Claude 3 Opus，它的文案总结十分详细，还分条缕析地给出了每个小点的内容，包括AI终端所面临的挑战，完全可以做一个文章大纲了。

发挥出乎意料的是Gemini Pro，一开始的文案总结还算正常。

但是到了最后，文案的总结就好像跑偏到了专业领域，让人看不懂重点在哪里。

Kimi的答案很长很详细，但没有Claude 3 Opus涵盖的要点齐全，属于和ChatGPT4同级别的回答表现。

创作能力测试

在创作能力的测试中，我们采用这几年大热的“赛博朋克”为题创作小说故事，看看在没有更加详细的要求下，各个大模型的创作水平是否能达到令人满意的程度。

首先是ChatGPT4，它的回答更像是一个自传电影的大纲，并没有多少吸引人的转折。

不过ChatGPT4所自带DALLE·3的文生图程序，表现还是很不错的。

这是水墨画的小猫：

这是秦王和他的柱子：

Claude 3 Opus的回答应该是本轮测试中最为出色的一个，不但有亮眼的递进和转折，还能结合历史事件进行改编。

Gemini Pro虽然也很好，但是创作的故事，未免太过于政治正确了一些……

（AI编故事也要政治正确吗？）

好好好，不得不说，这真的很美国。

为了达到最佳的效果，我将grok1的回答模式从“常规”改成了“趣味”，但是它的回答并不怎么有趣。

Kimi的回答也是很官方。

看来在文艺创作方面，各家的大模型在现阶段，还是无法自主生成可立即使用的创意内容。

从网上获取信息能力测试

最后，我们以“全球气候变化”为题，来看看大模型联网获取信息并筛选处理的能力。

ChatGPT4的表现很稳定，它的优点将引用的链接在后面标注好，不好的点在于，引用信息可能有些过时。

其他几家的搜索结果也都是大差不差。这是Claude 3 Opus的回答，好像并没有太多的最新的网络资料援引。

Gemini Pro的回答也只是援引了《巴黎协定》的资料。

Grok1的回答更为简单。

表现最好的是Kimi，不但将所有的援引资料链接清楚标明，回答也是最为全面的。

大模型综合评价

经过一系列的测试，我们也对于各家最新的大模型能力有了一个初步的认识。那么哪款大模型是现阶段最适合我们使用的呢？

从易获取性/易用性上来说，Kimi获得第一名当之无愧，国产大模型无需多余的科学上网操作，即开即用，也难怪它异常火爆。而其他大模型想要体验都要费一些周折，例如grok1，目前只有两种方法可以使用——在X（Twitter）上开通会员+服务，或者下载开源模型在自家电脑上做推理计算，需要注意的是，你家电脑的配置需要包含至少8块英伟达H200。

这还算能够正常使用的，有些模型还会对中国用户有些区别对待。