本周二,Google在面向开发者的年度大会 I/O 上宣布更新其Gemini 系列人工智能模型。Google将推出一款名为 Gemini 1.5 Flash 的新模型,并称该模型在速度和效率方面进行了优化。
Google DeepMind 首席执行官德米斯-哈萨比斯(Demis Hassabis)在一篇博客文章中写道:"[Gemini] 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。"
Google之所以创建Gemini 1.5 Flash,是因为开发人员需要一个比Google今年2月发布的专业版更轻便、更便宜的型号。Gemini 1.5 Pro 比该公司去年底发布的 Gemini 原型更高效、更强大。
Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,是Google在本地设备上运行的最小型号。尽管重量比 Gemini Pro 轻,但功能却同样强大。Google表示,这是通过一个名为"蒸馏"的过程实现的,即把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的型号上。这意味着,Gemini 1.5 Flash 将获得与 Pro 相同的多模态功能,以及长语境窗口(人工智能模型可一次性摄取的数据量),即一百万个词元。根据Google的说法,这意味着 Gemini 1.5 Flash 将能够一次性分析 1500 页的文档或超过 30000 行的代码库。
Gemini 1.5 Flash(或这些型号中的任何一款)并非真正面向消费者。相反,它是开发人员利用Google设计的技术构建自己的人工智能产品和服务的一种更快、更便宜的方式。
除了推出 Gemini 1.5 Flash 之外,Google还对 Gemini 1.5 Pro 进行了升级。该公司表示,已经"增强"了该模型编写代码、推理和解析音频与图像的能力。但最大的更新还在后面--Google宣布将在今年晚些时候把该模型现有的上下文窗口增加一倍,达到 200 万个词元。这将使它能够同时处理两小时的视频、22 小时的音频、6 万多行代码或 140 多万字。
Gemini 1.5 Flash 和 Pro 现在都可以在Google的人工智能工作室和顶点人工智能中进行公开预览。该公司今天还发布了新版 Gemma 开放模型,名为 Gemma 2。不过,除非你是开发人员或喜欢捣鼓构建人工智能应用程序和服务的人,否则这些更新其实并不适合普通消费者。