Gemini 2.0 Flash 支持多种模态的回答生成,包括文本、语音和图片。
文本生成
Gemini 2.0 Flash 支持使用 Google Cloud 控制台、REST API 和受支持的 SDK 生成文本。如需了解详情,请参阅我们的文本生成指南。
语音生成(抢先体验/许可名单)
Gemini 2.0 支持一种新的多模态生成功能:文字转语音。使用文字转语音功能,您可以提示模型生成听起来像人声的优质音频输出 (say "hi everyone"
),并且可以通过操纵语音进一步优化输出。
图片生成(抢先体验/许可名单)
Gemini 2.0 支持输出带有内嵌图片的文本。这样一来,您就可以使用 Gemini 以对话方式修改图片或生成多模态输出(例如,在单个回合中包含文本和图片的博文)。以前,这需要将多个模型串联起来。
图片生成功能已作为私人实验版本提供。它支持以下模态和功能:
- 文本转图片
- 示例提示:“生成一张埃菲尔铁塔的图片,背景为烟花。”
- 文本转图片和文本(交织)
- 提示示例:“生成西班牙海鲜饭的图解食谱。在生成食谱时,创建与文字搭配的图片。”
- 图片和文本转图片和文本(交织)
- 提示示例:(包含配有家具的房间的图片)“什么颜色的沙发适合我的空间?您能更新图片吗?”
- 图片编辑(文字和图片转图片)
- 示例提示:“修改此图片,使其看起来像卡通”
- 示例提示:[猫的图片] + [枕头的图片] +“请制作一款绣有我家猫的十字绣枕头。”
- 多轮图片修改(聊天)
- 提示示例:[上传一张蓝色汽车的图片。]“将这辆车改装成敞篷车。”“现在将颜色更改为黄色。”
- 水印
- 所有生成的图片都包含 SynthID 水印。
限制:
- 不允许生成人物图片,也不允许修改上传的人物图片。
- 为获得最佳性能,请使用以下语言:EN、es-MX、ja-JP、zh-CN、hi-IN。
- 图片生成不支持音频或视频输入。
- 图片生成可能不会始终触发:
- 模型可能会仅输出文本。尝试明确要求输出图片(例如“生成图片”“随时提供图片”“更新图片”)。
- 模型可能会在中途停止生成。请重试或尝试其他提示。