此页面由 Cloud Translation API 翻译。

多模态回答

Gemini 2.0 Flash 支持多种模态的回答生成，包括文本、语音和图片。

文本生成

Gemini 2.0 Flash 支持使用 Google Cloud 控制台、REST API 和受支持的 SDK 生成文本。如需了解详情，请参阅我们的文本生成指南。

Gemini 2.0 支持一种新的多模态生成功能：文字转语音。使用文字转语音功能，您可以提示模型生成听起来像人声的优质音频输出 (say "hi everyone")，并且可以通过操纵语音进一步优化输出。

Gemini 2.0 支持输出带有内嵌图片的文本。这样一来，您就可以使用 Gemini 以对话方式修改图片或生成多模态输出（例如，在单个回合中包含文本和图片的博文）。以前，这需要将多个模型串联起来。

图片生成功能已作为私人实验版本提供。它支持以下模态和功能：

文本转图片
- 示例提示：“生成一张埃菲尔铁塔的图片，背景为烟花。”
文本转图片和文本（交织）
- 提示示例：“生成西班牙海鲜饭的图解食谱。在生成食谱时，创建与文字搭配的图片。”
图片和文本转图片和文本（交织）
- 提示示例：（包含配有家具的房间的图片）“什么颜色的沙发适合我的空间？您能更新图片吗？”
图片编辑（文字和图片转图片）
- 示例提示：“修改此图片，使其看起来像卡通”
- 示例提示：[猫的图片] + [枕头的图片] +“请制作一款绣有我家猫的十字绣枕头。”
多轮图片修改（聊天）
- 提示示例：[上传一张蓝色汽车的图片。]“将这辆车改装成敞篷车。”“现在将颜色更改为黄色。”
水印
- 所有生成的图片都包含 SynthID 水印。

限制：

不允许生成人物图片，也不允许修改上传的人物图片。
为获得最佳性能，请使用以下语言：EN、es-MX、ja-JP、zh-CN、hi-IN。
图片生成不支持音频或视频输入。
图片生成可能不会始终触发：
- 模型可能会仅输出文本。尝试明确要求输出图片（例如“生成图片”“随时提供图片”“更新图片”）。
- 模型可能会在中途停止生成。请重试或尝试其他提示。