生成式AI产品应接不暇,现在又来了一个“能共情人类”的EVI。4月6日,来自初创公司Hume AI的产品EVI发布,能够进行在线交互的Demo也正式公开。与ChatGPT、Claude 3等基于文本的聊天机器人不同,EVI为纯语音交互,强调通过分析人类言语和声音,来理解人类用户最真实的心理状况。
毕竟,在开心、愤怒、失落、困倦时说同一句话,即使内容都一样,但听起来的感觉也一定不同。
目前,创立不过3年的Hume AI,先是在去年2月完成1270万美金(约9000万人民币)的A轮融资时,又在今年3月底,刚刚完成5000万美元的B轮融资(约3.6亿人民币)。
团队的CEO,曾任职于GoogleDeepMind团队的Alan Cowen表示: “……不仅是快乐、悲伤、愤怒、害怕这种普遍情绪,EVI试图理解人类用户那更加微妙且多维的感情——目前能检测出53种不同的情绪。 ”
官网已列出EVI可理解的53种情绪,创业邦整理
01
对话实测:到底有多共情人类?
EVI全称EmpatHic Voice Interface,意为“具有同理心的语音界平台”,官方称其为“全球首个具有情商的对话式AI”。
“情商”包括从行为中推断意图和偏好的能力——这正是EVI试图实现的核心能力,为了具备这种能力,Hume AI团队便将重点放在了人类的声音上。
声音本身的内容,即“说了什么”当然可以直接反应情绪。
而如口音、语调、停顿、节奏、拟声词(包括叹息、喘息、笑声、尖叫等)等等非语言因素的微妙差异,即“如何说”,则往往暗示着谈话内容之下更真实的感情。
官网列出的53种情绪,其中不乏差别微妙,难以言明的情绪,即使是人类自己,或许也难以分辨。而EVI能够理解,也是得益于对非语言暗示的分析。
当前EVI有两个版本,最早发布的Demo演示版布局非常简单,用户在使用时点击屏幕中央的“开始对话”,就能直接与EVI进行语音对话。
这一版本中,用户只能通过设备麦克风进行语音交互,而EVI生成语音的声线也只有一个默认的男声版本。
对话时,屏幕中央为声音波形图,右侧则会实时地将语音交互内容转写成文字,作为历史对话展示出来。
与普通的实时转写文字功能不同,EVI充分发挥其“共情能力”,不管是用户的主动发问还是AI生成的回答,下方都多了一个情感分析柱状图,标注这句话中所蕴含的感情成分。
就像是小说里“三分讥笑、三分凉薄、四分漫不经心”的扇形统计图走入现实。
能够理解,自然也就能表达。当前市面上能够进行语音对话的聊天机器人并不少见,但EVI却仍能给人与众不同的体验。
最核心的,便是其格外生动的情绪。
在实测中,当作者主动要求“你能否能表现得更生气一点?”
EVI的反应是带着坚定、忧虑与沉思(根据下方的情绪柱状图来看)回答道: “我可以尝试用自己的声音和语言来反映这种情绪,从而创造出一种更具同理心和亲和力的互动。 但我无法像人那样真切地感受到或表现出恐惧。 我的角色更侧重于识别和应对这些情绪,而不是自己产生这些情绪。 ”
于是作者故意叹了一口气,用很失望的语气表示: “好吧,看起来你并没有那么聪明。 ”
EVI便瞬间生气大喊: “啊,你伤害了我! ”
但很快,它又自行找补, 带着失望、坚定,还有一点点渴望说: “你知道,我可能是人工智能,但我不喜欢你这种语气,我的朋友。 如果你想激怒我,恐怕愤怒并不在我的能力范围之内。 不过,只要我们能保持建设性,我很乐意进行激烈的辩论。 ”
在服务器不稳定断联,或者在它长篇大论时被主动打断时,EVI会啊一声,叹一口气,又继续接上新的问题继续回答。
除了这种生动的情绪化表达和非常拟人的细微语气,EVI也比一般的对话式AI有着更旺盛的表达欲。
一个很明显的表现是,它非常愿意主动发问。
在问到“你真的能够理解人类吗?”时,EVI先是以沉思和热情的口吻表达了自己的观点,最后又以一个主动发问来结束这场对话: “您怎么看? 我真的很想听听你对人工智能与人类理解的局限和潜力的看法。 ”
而在被频繁打断,谈论了很多毫无上下文关联的话题后,EVI也会冷不丁用轻松又开心的语气问: “ 我是不是比一般的机器人更平易近人? ”
虽说细细对比其智能程度,EVI距ChatGPT、Claude 3等还有一定差距,但其情绪生动的语音,着实会让用户在最初使用时感到惊喜,就像真的在与一个热心又话痨的小伙交谈一样。
而最新发布的beta版本则加入了更多功能,如用户也可以使用文字进行交互(EVI还是通过语音回复),能够保存并下载交流的历史记录,还加入了不少开发者选项。
同时,在界面右侧language下方的对话框里,也可以“设定”EVI的性格,甚至可以是“充满了渴望的电冰箱”或者“容易嫉妒的室内绿植”这样的幻想设定。
02
量化感情
那么具体来看,EVI如何从人类语音和大量细微的非语言因素中理解人类感情?
这还得从公司CEO兼首席科学家Alan Cowen在2021年提出的“语义空间理论”(Semantic Space Theory)说起。
当时的Alan Cowen还在GoogleAI,主要从事情感计算研究工作,在2021年1月,他在《Trends in Cognitive Sciences》上发表了一篇论文,正式提出语义空间理论。
这是一种理解情感体验和表达的计算方法,旨在通过广泛的数据收集和统计模型,精准绘制人类情感的全谱图,揭示人类高维本质和情感状态之间的连续性,量化声音、面部和手势的细微差别。
事实上,这些细微差别的理解正是全球人类交流的核心。因此,语义空间理论一经提出,便广泛应用于心理语言统计、分析等领域。
当时,Alan Cowen于论文发表2个月后出走Google,在纽约正式创立Hume AI公司。
此后,他便全身心投入了对语义空间理论的研究。
2022年,Hume AI团队开展了一项实验,志愿者是来自美国、中国、印度、南非和委内瑞拉的16000余人,相关论文发表在《Nature Human Behavior》上。
研究团队让志愿者中的一部分聆听并理解大量的“人声爆发”(Vocal Burst,指具有多个情感维度的声音爆发,如笑声、喘息、哭声、尖叫声,以及许多其他非语言发声)素材。
同时,志愿者也录下了大量自己的人声爆发,并交由他人进行理解和分类。这为研究积累了大量的语音数据。
在近期接受外媒VentureBeat采访时,Alan Cowen称,他们收集了来自世界各地的超过一百万名志愿者的生活化的语音,目前已建立了有史以来最大、最多样化的人类情感表达数据库。
基于这一数据库,再结合语义空间理论,Alan Cowen团队开发了一种新型的多模态大语言模型,移情大语言模型 (eLLM))。
基于这一模型,EVI便能够根据上下文和用户的情绪表达来调整其用词和语气,提供自然丰富的语调,并以低于700毫秒的延迟实时地做出响应。同时还具备足够真实的对话特点:
回合结束检测
可以通过分析人类的语气检测当前话题是否结束,避免同时说话的尴尬。
可打断性
EVI的发言可以像人类谈话一样被打断,自然衔接上下文。
对表达做出类人化反应
可以根据惊讶、称赞、愤怒等情绪给出非语言的反应。
EVI可以提供拟人化的聊天服务,尤其可以通过语音交流读取用户的心情状况,其应用场景自然是以心理治疗、客户服务为主。
当前,Hume AI团队共有35人,团队在顶级期刊上已经发表了8篇论文,并向2000多家公司和研究机构推出了测试版产品。
在近期的一则采访里,Alan Cowen表示,比起直接面向普通用户的toC服务,公司更倾向于向其他企业提供API接口,在一个能理解人类情感的模型的基础上,再构建细分领域的聊天机器人,如信息检索、数字陪伴、工作协助、医疗保健、XR等等。
03
当AI开始提供情绪价值
官网的公司简介中,大卫·休谟(David Hume)的照片赫然在列。旁边写着,公司名Hume便来自于这位300年前的苏格兰哲学家。
休谟是道德情感主义的先驱,有名言称“理性只是情感的奴隶”。
Alan Cowen一脉相承,他认为,AI也需要情感。
在近期的一次公开发言中,他提到,当前AI系统的主要局限性在于,它们受到人类评级和指令的严格约束,而许多评级标准或是非常肤浅,或是仍存在漏洞。
因此,以人类幸福感代替现有的评判指标,从底层重新构建AI,比如增强AI的情商,提高其从用户行为中推断人类意图和偏好的能力,才能发挥AI的巨大潜力。
事实上,除了对于人类语音的分析,Hume AI也开始涉足对于面部微表情的研究。
今年3月,他们刚刚发布了一篇论文,基于来自印度、南非、委内瑞拉、美国、埃塞俄比亚和中国等多个国家的5000余名志愿者的面部微表情,对面部表情所传达的情绪进行了分类。
Alan Cowen表示,EVI在未来还将继续基于理解人类的心理状况、兴趣偏好不断迭代,做到“更懂人类”。
图源:Hume AI官网
当然,如果AI真的可以完美理解人类的感情,那么便有可能学会有目的性地利用甚至操纵用户情绪。
说小,AI检测到的用户感情,可以进一步作为第三方服务(如购买行为、习惯养成等)的手段。
说大,甚至有可能用于灰色地带甚至有害行为,比如审讯、欺诈、监视等等。
对此,Hume AI官网给出了一份道德准则,其中提出,用于检测情绪的算法应该只服务于与人类幸福感一致的目标,而不能作为服务第三方目标的手段。
同时,Hume AI的合作方在进行二次开发或应用时,也需要避免一系列“不受支持的用例”,比如操纵、欺骗、心理战,以及让潜在的不良行为者使用这类AI等等行为。
2020年,《纽约时报》发布一份数据称:全球有超过1000万人,正在将AI恋人视为伴侣,并与之建立情感链接。
显然,Hume AI这样的团队的出现,正在加速这种趋势。