Google推出全新人工智能模型Gemini 2.0 用途更为广泛

Google的下一个主要人工智能模型已经到来，以对抗来自 OpenAI 的新产品的夹击。本周三，Google 发布了 Gemini 2.0 Flash，该公司称其除文本外，还能原生生成图像和音频。 2.0 Flash 还可以调用第三方应用程序和服务，使其能够接入 Google 搜索、执行代码等。

Screenshot-2024-08-13-at-2.22.15-E2-80-AFPM.jpg

2.0 Flash 的实验版本将从今天开始通过 Gemini API 和 Google 的人工智能开发者平台AI Studio 和Vertex AI 提供。不过，音频和图像生成功能仅面向"早期访问合作伙伴"推出，并将于 1 月份全面推出。

Google表示，在未来几个月内，它将为Android Studio、Chrome DevTools、Firebase， Gemini Code Assist等产品带来各种版本的 2.0 Flash。

第一代 Flash（1.5 Flash）只能生成文本，并不是为要求特别高的工作负载而设计的。 Google 表示，这种新模式更具通用性，部分原因在于它可以调用搜索等工具并与外部 API 进行交互。

产品主管图尔西-多希（Tulsee Doshi）在周二的发布会上说："我们知道，Flash 在速度和性能之间取得了平衡，因此深受开发人员的欢迎。有了 2.0 版 Flash，它的速度一如既往，而且功能更加强大。"

Gemini2.0_1.original.png

Google声称，根据自己的测试，2.0 Flash 在某些基准测试中的速度是该公司 Gemini 1.5 Pro 模型的两倍，而且在编程和图像分析等方面有了"显著"改进。事实上，该公司表示，2.0 Flash 凭借其卓越的数学能力和"事实性"，取代 1.5 Pro 成为 Gemini 的旗舰模型。

如前所述，2.0 Flash 可以生成并修改文本和图像。该模型还能采集照片和视频以及录音，以回答相关问题（例如"他说了什么？）

音频生成是 2.0 Flash 的另一项主要功能，多希将其描述为"可操纵"和"可定制"。例如，该模型可以使用针对不同口音和语言"优化"的八种声音之一来叙述文本。

她补充说："你可以让它说得慢一点，也可以让它说得快一点，甚至可以让它说像海盗一样的话。"

目前Google没有提供 2.0 Flash 的图像或音频样本。至少在撰写本文时，我们无法得知其质量与其他模型的输出相比如何。

Google 表示将使用其SynthID技术对 2.0 Flash 生成的所有音频和图像进行水印处理。在支持 SynthID 的软件和平台上（即选定的 Google 产品），模型的输出将被标记为合成。

这是为了消除对滥用的担忧。事实上，深度伪造是一种日益严重的威胁。根据身份验证服务公司Sumsub的数据，从2023年到2024年，全球检测到的深度伪造增加了4倍。

2.0 Flash 的正式版本将于 1 月份发布。但与此同时，Google将发布一个应用程序接口（API）--多模态实时应用程序接口（Multimodal Live API），以帮助开发人员创建具有实时音频和视频流功能的应用程序。

Google表示，通过使用多模态实时 API，开发人员可以创建实时、多模态的应用程序，并通过摄像头或屏幕输入音频和视频。该 API 支持集成各种工具来完成任务，并且可以处理"自然对话模式"，例如中断，这与 OpenAI 的 Realtime API 大体一致。

多模态实时 API 已于今天上午全面推出。

对文章打分

Google推出全新人工智能模型Gemini 2.0 用途更为广泛

最新资讯

编辑精选

热门评论

相关文章

谷歌欲杀回智能眼镜市场 8亿元收购眼球追踪公司AdHawk

Google Pixel 9a正式亮相前网上出现营销材料图像

Google从人工智能团队网页上删除对“多样性”和“公平性”的提及

Google反垄断案新进展：美司法部放弃出售AI投资要求

Alphabet收到众议院共和党传票要求提供与前政府沟通有关的文件

Google在搜索结果中引入新的人工智能模式

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密