English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

联系我们免费开始使用吧

试用 Gemini 1.5 模型，这是 Vertex AI 中最新的多模态模型，看看您可以运用多达 200 万词元的上下文窗口构建怎样的应用。 试用 Gemini 1.5 模型，这是 Vertex AI 中最新的多模态模型，看看您可以运用多达 200 万词元的上下文窗口构建怎样的应用。

Gemini 模型的优势和限制

Gemini 模型的优势

以下是 Gemini 1.0 模型的一些多模态优势：

使用场景	说明
信息挖掘	将世界知识与从图片和视频中提取的信息融合。
对象识别	回答与对图片和视频中的对象进行精细识别相关的问题。
数字内容理解	回答问题并从信息图、图表、图形、表格和网页等各种内容中提取信息。
结构化内容生成	根据提供的提示说明，以 HTML 和 JSON 等格式生成响应。
字幕/说明	生成具有不同细节级别的图片和视频说明。我们建议您从以下图片/视频提示开始，从此处迭代操作以获取更具体的说明。图片：“您能编写关于图片的说明吗？” 视频：“您能编写这个视频所发生情况的说明吗？”
推断结果	根据位置推荐其他可看到的内容，在图片或视频之后/之前/之间可能发生的情况，并实现创造性用途，例如根据视觉输入编写故事。

Gemini 的限制

Gemini 1.0 模型具有以下限制：

限制	说明
空间推理	难以对图片进行精确的对象/文本定位。它对理解旋转图片的准确率可能较低。
计数	只能提供对象数量的粗略近似值，尤其是对于模糊的对象。
理解较长的视频	可支持视频作为单独的模态（与仅处理单张图片不同）。但是，模型从一组非连续的图片帧中接收信息，而不是从连续视频本身（不接收音频）接收。Gemini 也不会提取超过视频 2 分钟之外的任何信息。如需提升包含密集内容的视频的性能，请缩短视频，以便模型捕获更多视频内容。
按照复杂的说明操作	难以处理需要多个推理步骤的任务。可以考虑分解说明或提供镜头较少的示例，以获得更好的指导。
医疗用途	不适合解读医学图片（例如 X 光片和 CT 扫描），或不适合提供医学建议。
多轮（多模态）聊天	未经训练，无法使用聊天机器人功能或以聊天语气回答问题，并且在多轮对话中表现不佳。

后续步骤

如需开始使用，请参阅测试多模态提示。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2024-03-26。