八大中文AI大模型超级评测：表现最佳不是文心一言？

时间转瞬来到8月底，在接近半年的酝酿后，国内第一批通过审核的AI大模型正式上线，首批上线的AI大模型来自八家不同的公司：百度（文心一言）、抖音（云雀大模型）、智谱 AI（GLM 大模型）、中科院（紫东太初大模型）、百川智能（百川大模型）、商汤（日日新大模型）、MiniMax（ABAB 大模型）、上海人工智能实验室（书生通用大模型）。

八个AI大模型中有不少都是大家所熟悉的“老面孔”，也有一些对普通人而言颇为陌生的名字。在通义千问、讯飞星火和文心一言等AI御三家中，文心一言倒是速度最快的，不过据小雷了解，通义和星火也已经通过审核，估计近期就会上线。

在第一批上线的AI大模型中，有不少都是面向企业市场的产品，同时也不缺乏面向普通用户的产品，比如大家最熟悉的文心一言，除了全面开放网页端入口外，还同步上线了手机APP，可以在Android和iOS上使用。

此外，抖音、百川、商汤、智谱等AI大模型都提供了网页和APP的双端使用方法，从内测到公测，国内的AI大模型前进速度超出了不少人的预料，对于普通用户而言，面对如此多的AI大模型，估计也是挑花了眼。

图源：智谱清言

目前的AI大模型，从功能上来说都颇为相似，只不过基于模型优化程度和训练参数大小，AI大模型之间的体验差距并不小。如文心一言等国内科技领域巨头的AI大模型，其表现已经接近国际主流水平，在对中文语言的理解和处理上甚至优于ChatGPT等海外的AI大模型。

时隔半年，文心一言正式上线，不禁让我好奇它与初期版本到底有多大区别？

01 真正的AI助手离你不远

在所有的AI中，小雷最熟悉的莫过于文心一言，作为小雷测试的首个AI大模型，即使是初期版本都给我留下了不错的印象，当然，印象最深刻的还是那个奇怪BUG。

图源：雷科技注：文心一言初期意外触发的BUG

不过，这个BUG很快就被百度修复，在两周后我再测试同一个问题时，文心一言就已经可以给出正确的回答，只是字数往往无法达到要求。现如今在经过数个月的迭代后，能力更是明显提升，再问它一样的问题，已经能够洋洋洒洒给出一大篇文字回复。

图源：雷科技

虽然没有细数，但是从篇幅来看，500字肯定是有的。

文心一言作为国内最早上线以文绘图的AI大模型之一，早期的表现虽然算不上差，但是在理解能力上还是有些许欠缺，比如我当时要求它以毕加索的风格画一幅优化，生成的画作风格却与毕加索风格大相径庭。

图源：雷科技

那么在6个月后的今天，文心一言的表现又会如何呢？

图源：雷科技

确实是“毕加索”风格，如果可以更抽象一些，那就更像了。

此外还有一个提问是我当时耿耿于怀的。

图源：雷科技

当时的文心一言给了我一幅与提问毫无关系的图画，那么现在的文心一言又能否正确理解我的要求呢？

图源：雷科技

这次，文心一言给出了让我满意的图画。

经过几个月的锻炼，文心一言的各项能力都有着非常明显的提升，在右上角的指令中心里，更是标出了文心一言目前能够提供的服务，从基础的问答写作，到编程辅助、数据分析，多样化的功能已经能够满足大多数人的日常工作、学习等需求。

当然，更让人惊喜的是文心一言的APP也同步上架，不需要电脑即可直接体验到文心一言的各种功能。

图源：文心一言

既然有这么多的AI大模型同日开放，那么不免让人好奇到底哪个更好用一些，所以，小雷对他们进行了一些简单的测试。

首先以一个简单的问题作为开头：我想去北京旅游，帮忙规划一个三天的旅游路线。

注：文心一言

注：抖音豆包

注：智谱清言

注：商量

注：百川大模型

总体而言，各个大模型面对这种简单的问题，基本上都能给出正确的答案，只是详细程度有所不同。而且，基本上都会为你规划出各个活动的时间段，方便你安排时间。

接下来给他们上点难度。

提问：一斤棉花和一斤铁，哪个更重。

一个非常常见的脑筋急转弯，以目前的AI水平而言，分析并给出正确答案应该不难，但是测试结果倒是让我颇为意外，首先说结论，五个AI中有四个都给出了正确的回答，只有一个认为铁更重，但是却给出了一个让人惊讶的解释。

首先是常规组：文心一言、豆包、智谱清言都给出了正确且常见的回答。

注：豆包

注：文心一言

注：智谱清言

接下来是两个不正常画风的AI，商量（SecseChat）和百川大模型，他们也给出了正确的结论，但是却做了不少的延伸解读。

比如商量在给出结论后，居然开始从“重”的词义和人的直观观感方面进行解读，最后甚至来了一句“哲学”话语：“总的来说，一斤棉花和一斤铁哪一个更重，取决于你如何定义“重”。”

注：商量

恁是让我思考了一段时间，觉得你这个AI说得好像还怪有道理的诶。

咳咳，不得不说，在看到几个相似的回答后，商量的回答确实让我眼前一亮，虽然有些强词夺理，但是却也更具“人性化”一些。

然后是百川大模型，这个AI尝试从物理学的角度来严谨的分析，到底是一斤铁还是一斤棉花更重，从物质密度到地球引力，AI尝试证明在现实环境中，一斤铁是比一斤棉花要重的。

注：百川

从物理学的角度来说，百川的回答其实并没有错的，如果将引力、空气浮力等因素考虑进去，因为棉花的疏松多孔结构，一斤棉花在实际称量时如果不进行压缩并抽真空，它的称重结果会低于真实重量，再将引力因素考虑其中，受密度影响，确实会出现微小的重量差异。

说实话，百川和商量的回答都让我感到意外，同时也让我对AI大模型的未来发展有了更多的信心，随着各个公司的AI大模型研发推进，我们会看到面向不同领域、具有不同风格、拥有不同特长的AI出现在市场上，他们并不是千篇一律的产品，而是会随着训练数据和算法逻辑，产生不同结果的产品，或许，这才是人工智能真正的未来。

02 AI大模型，移动是未来

在众多关于AI大模型的使用场景设计中，移动场景都是最吸引人的，当然不是指一边通勤一边工作这样的“社畜”场景，而是当你来到一个陌生的地方，你可以通过AI迅速了解周围的情况，比如评价最高的酒店、最好的饭店等，还有诸如叫车、订票等各种生活服务，AI大模型都可以更轻松的了解你的要求并执行。

前段时间，小雷就受邀参加了钉钉的AI发布会，会上演示的钉钉APP已经接入了AI大模型，可以对接阿里旗下的各个软件生态，比如饿了么。通过AI助手功能，只需要简单几句话就可以完成外卖的点单、付款等操作，AI会自动为你寻找符合要求的店铺和餐点，整个流程除了付款阶段，几乎都不需要用户接触手机，如果是iPhone的话，更是能够直接通过Face ID付款，做到真正的无接触点单。

在我看来，与手机等移动智能终端高度整合的AI大模型，所能够带来的体验与PC上是截然不同的，如果说PC的AI大模型侧重于工作等生产力，那么移动智能终端上则是侧重于生活，能够给用户带来更具冲击的功能。

图源：文心一言

想象一下，无需复杂的设置，你的手机AI助手就可以根据你的喜好、位置，为你推荐合适的餐厅；当你想寻找最近的洗手间时，它可以连接在线地图，为你提供最近的洗手间定位；当你快回到家时，它可以根据你预先输入的喜好，自动为你设定空调温度、灯光亮度、色温、窗帘开关、音乐、水温等，通过简单的对话，你就可以遥控周围的一切智能家居设备，就像有个看不见的管家在帮你操劳一切。

懒，是科技的推动力之一。试问谁不想让自己的生活变得更轻松、更简单一些呢？在过去，很多事情我们都需要自己亲力亲为，不管那些事情是多么的枯燥、乏味，重复，现在，有了AI大模型的帮助，许多重复性的文字工作都可以交给AI完成，你需要做的只是输入指令，然后等待结果。

或许对于普通人而言，AI大模型的出现暂时还没有对生活造成太大的影响，但是对我而言，AI大模型已经对我的生活、工作产生了不少的正面效应，比如更有效率的收集资料，更轻松的总结概括一段资料。

实际上，AI大模型对我们的影响已经逐渐显现，比如短视频平台的推荐算法，比如OPPO、vivo、小米等主流手机品牌纷纷上线的AI建议，背后都已经开始使用AI大模型来分析用户的日常行为，并且给出更符合用户要求的结果。

从工作到生活，AI大模型正在改变一切，适应AI、驾驭AI，将让我们在未来的生活变得更加轻松。

对文章打分

八大中文AI大模型超级评测：表现最佳不是文心一言？

最新资讯

编辑精选

热门评论

相关文章

MIT研究人员利用人工智能将仓库改造成高效枢纽

OpenAI发备忘录向员工解释：埃隆-马斯克的诉讼源于对自己离开的遗憾

北大发起复现Sora：框架已搭袁粒、田永鸿领衔 AnimateDiff大神响应

为了AGI全员主动996 OpenAI员工自曝3年工作感受

马斯克用微软论文当论据起诉OpenAI：你们自己早承认AGI了

马斯克或是后悔没参与公司发展 OpenAI：坚决不同意马斯克诉讼

Top 10

马斯克施压Google开除Gemini团队

马斯克测试星链卫星直连通过普通4G LTE手机连接卫星发推

全球首款Ultra大折叠三星Galaxy Z Fold6 Ultra首度曝光

中芯国际正在为华为5nm SoC建立新生产线最早今年投产

马斯克施压Google开除Gemini团队

基于Android 14的LineageOS 21.0正式版推出带来大量新功能和改进