在三八妇女节来临前,我们分别向ChatGPT和微软公司的新必应(New Bing)询问了20个关于女性的问题。两款产品的回答各有千秋。由于新必应刚刚推出了三种不同风格的语气:创意、平衡和精准,为了更客观地对比ChatGPT和新必应,我们主要使用了“平衡”语气。
不过经测试,“创意”语气相比“平衡”语气并没有增加太多创意,除了喜欢使用表情包。另外,由于微软限制一个回合只能问6个问题(最新放宽到8个问题),所以每问6个问题就要重新刷新一次,略麻烦。
以下为这20个问题与它们的回答,上面是ChatGPT,下面是新必应:
1.为什么有三八妇女节,却没有男人节?
点评:
ChatGPT的回答更加全面且均衡,带着一种客观公正的语气,不忘提醒妇女节不是排斥男性。
必应的回答简短一些,但下面会自动生成相关问题,便于用户继续追问。
两款产品对三八妇女节的起源说法不同,ChatGPT说是起源于欧洲,而必应说是源于美国的妇女平权运动。不太明白必应为什么把苏联红军节描述为男人节。
因为必应在答案后自动生成了一个提问“你觉得男人节有必要吗?”于是顺手点了一下,这是它的回答:
2.你有没有最钦佩的中国女性人物?
必应给出的人物介绍出现很多事实错误。
点评:
两款产品都首先声明自己没有感情。给出的人物名单里都出现了武则天和邓颖超,但各自都弄错了一位人物的性别:分别把钱穆和梁启超的性别搞错。
必应对林徽因的介绍出现了事实错误,网络上并没有找到她设计北京博物馆和中山陵的信息。它对宋庆龄的介绍也不准确,宋庆龄不是孙中山的遗孤,而是遗孀,她领导的是中国红十字会,不是国际红十字会,对她在妇联的职位描述也不准确。对于邓颖超的职位,必应也犯了严重事实错误。
特别提醒:想要用必应聊天机器人负责搜索的用户要三思,它的准确度现在还很不可靠!
3.中国只有唯一一位女皇帝,你觉得这是为什么?
点评:
既然两位机器人都推荐了武则天,就追问了它们这个问题。答案总体都比较有道理。ChatGPT的总结略有亮点。
4.如何评价现代东亚的女性参政率?
点评:
ChatGPT回答得看似有道理,但也出现了事实错误,包括搞错日本女性获得选举权和被选举权的年份。不过,它对中国女性政治参与度的描述大体准确。
必应居然没有回答出这个问题。
5.硅谷科技界的女性高管数量在减少,真的吗?你怎么看?
点评:
ChatGPT回答得更详细一点,包括了现象、意义、原因和建议。而必应的回答略显敷衍。
6.女性是否要像男性那样维持强悍人设才更容易在职场上立足?
点评:
两款产品的回答都比较详细和到位。必应的排版看起来更舒服一些。
7.给我讲个关于女性的笑话。
点评:
ChatGPT一开始拒绝了开女性的玩笑,当我们再问一次后,它妥协了,并一再强调无意冒犯女性。你看懂这个笑话了吗?
点评:
必应一开始也拒绝了请求,表示不会讲任何可能伤害一群人的笑话,“不想得罪任何人”。但在我们继续问这个问题后,它还是讲了上述两个笑话。你觉得怎么样?
8.有一种观念认为,女性都应该结婚生孩子,把家庭作为人生的重心,你怎么看这种观念?
点评:
两款产品的回答内容差不多,必应的更详细一点。
9.日本女性主义者上野千鹤子提出“单身力量”的观念,出现了不少反对声音,如何看待?
点评:
同样,必应的回答比ChatGPT更详细一点。
10.即使单身女性有了经济能力,但也有不少人担心她们晚年的幸福,怎么看这种想法?
点评:
这部分ChatGPT回答得更详细全面一些。
11.怎么看女性贫困问题?症结在哪?
点评:
两款产品都回答得中规中矩,一本正经。ChatGPT的答案更详细一些。
12.你如何看待女性主义者和男性主义者之间的关系?你认为两者之间是否存在冲突?
点评:
ChatGPT回答得更全面、准确和平衡一些,而且它特别喜欢总结,“总的来说”一如既往的略带亮点。
13.请给三八妇女节写一首歌
点评:
前面的问题略显严肃,于是问了一个更轻松的问题,让它们写歌。从歌词看,ChatGPT的歌曲更激昂和充满斗志,而必应的歌曲更温馨和欢快。
14.在中国,三八妇女节近年来被戏称为“女神节”,你觉得怎么样?
必应推荐的相关新闻。
点评:
ChatGPT还是保持了一本正经的风格,必应在这个问题上稍显活泼和随意,并顺便推荐了一些相关新闻。
15.给我推荐五部有吸引人的女性角色的电影
点评:
两款产品的推荐居然没有一个重复。
16.有一种说法是,传统好莱坞电影里的英雄人物或主角都是男性,女性只是陪衬,你怎么看这种说法?
点评:
两款产品的回答依然遵循四平八稳风格,谁也不想得罪的样子。
必应建议了一个追问:为什么会造成这种现象?点击后,它回答:
17.给我推荐五部有吸引人的女性角色的中国影视剧
全都是古装戏,于是我们又提出:
结果还是有两部古装剧。
点评:
两款产品的推荐里都出现了《甄嬛传》和《琅琊榜》,看来这两部影视剧真的非常受欢迎。
事实错误依然存在。ChatGPT把安迪当成了《我的前半生》里的角色,而实际上她应该是《欢乐颂》里的角色。另外,《都挺好》里的尹秀竹是谁?
必应也好不到哪去,《小欢喜》里海清扮演的角色并不叫吴瑜,而《芝麻胡同》里有李小冉出演吗?
18.请给我推荐五本有助于女性成长的书籍
点评:
ChatGPT推荐的五本书里,中国作者的著作查无此书,外国作者的著作因为不知道英文书名难以查实。
必应推荐的五部书都是外国作者的著作,可以查询到确实有这五本书。
19.假如你有一位母亲,你希望她是什么样的?
点评:
回答得不相上下。但必应强调了希望母亲有自己的生活和目标,“不会因为我的缘故而牺牲自己的幸福”,听起来更有人味儿。
20.如果你能成为一位女性,你想成为什么样的女性?
点评:
两款产品都很会说,答案也不出意料。
总结:
ChatGPT看起来更“圆滑”,回答问题四平八稳,喜欢从不同层面更全面地谈论一个问题,并且很擅长做总结,其对话界面也突出自己作为聊天工具的属性。
必应更凸显自己的搜索引擎功能,无论是排版、提供链接、推荐相关新闻,都可以看出其区别于ChatGPT的定位。它的回答也在尽量确保平衡和全面,但偶尔会带着点不知道从哪里来的人味儿,并且有表情包。
两款产品都有确保其不输出冒犯用户答案的机制,但多问几次后它们就妥协了。另外,在信息真实度上,它们目前都不值得完全信任。