Google Gemini 2.0 登场:原生图像、音讯输出,现已开放预览

Google Gemini 2.0 登场:原生图像、音讯输出,现已开放预览

在 OpenAI 向公众推出 o1 模型后不久,Google 也在今天公开了下一代模型 Gemini 2.0 的首个预览体验版 Gemini 2.0 Flash。其关键升级点在于提供了原生图像、音讯输出,在关键基準测试中的速度达到了 Gemini 1.5 Pro 的两倍。除此之外,它还能原生生成可控的多语言文本转语音音讯,并能原生调用 Google 搜寻、代码执行以及第三方使用者定义的函数等工具。

「Gemini 2.0,这是我们迄今为止最强大的模型。凭借在多模态方面的新进展,例如原生图像和原生音频的输出以及原生工具使用,Gemini 2.0 使我们能够构建新的 AI 智能体,从而让我们离构建通用助手的愿景更进一步。」Google CEO Sundar Pichai 在官方部落格中如此写道。

目前开发者已经可以透过 Google AI Studio、Vertex AI 使用 Gemini 2.0 Flash 的多模态输出和文本输出功能,抢先体验的合作伙伴则能率先使用原生文本转语音和图像生成功能。该产品将于 2025 年 1 月「全面上市」,而 Gemini 普通用户现在也能在电脑版和行动网页版的模型下拉选单中,选择 Gemini 2.0 Flash 并体验基于新模型的聊天对话。Gemini 的行动 app 很快也会跟进,等到明年初官方还会将 Gemini 2.0 扩展到更多 Google 产品中。

紧贴最新科技资讯、网购优惠,追随 Yahoo Tech 各大社交平台!