Gemini 模型的优势和限制
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Gemini 模型的优势
以下是 Gemini 1.0 模型的一些多模态优势:
使用场景 |
说明 |
信息挖掘 |
将世界知识与从图片和视频中提取的信息融合。 |
对象识别 |
回答与对图片和视频中的对象进行精细识别相关的问题。 |
数字内容理解 |
回答问题并从信息图、图表、图形、表格和网页等各种内容中提取信息。 |
结构化内容生成 |
根据提供的提示说明,以 HTML 和 JSON 等格式生成响应。 |
字幕/说明 |
生成具有不同细节级别的图片和视频说明。我们建议您从以下图片/视频提示开始,从此处迭代操作以获取更具体的说明。
图片:“您能编写关于图片的说明吗?”
视频:“您能编写这个视频所发生情况的说明吗?” |
推断结果 |
根据位置推荐其他可看到的内容,在图片或视频之后/之前/之间可能发生的情况,并实现创造性用途,例如根据视觉输入编写故事。 |
Gemini 的限制
Gemini 1.0 模型具有以下限制:
限制 |
说明 |
空间推理 |
难以对图片进行精确的对象/文本定位。它对理解旋转图片的准确率可能较低。 |
计数 |
只能提供对象数量的粗略近似值,尤其是对于模糊的对象。 |
理解较长的视频 |
可支持视频作为单独的模态(与仅处理单张图片不同)。但是,模型从一组非连续的图片帧中接收信息,而不是从连续视频本身(不接收音频)接收。Gemini 也不会提取超过视频 2 分钟之外的任何信息。如需提升包含密集内容的视频的性能,请缩短视频,以便模型捕获更多视频内容。 |
按照复杂的说明操作 |
难以处理需要多个推理步骤的任务。可以考虑分解说明或提供镜头较少的示例,以获得更好的指导。 |
医疗用途 |
不适合解读医学图片(例如 X 光片和 CT 扫描),或不适合提供医学建议。 |
多轮(多模态)聊天 |
未经训练,无法使用聊天机器人功能或以聊天语气回答问题,并且在多轮对话中表现不佳。 |
后续步骤
如需开始使用,请参阅测试多模态提示。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-03-26。
[{
"type": "thumb-down",
"id": "hardToUnderstand",
"label":"Hard to understand"
},{
"type": "thumb-down",
"id": "incorrectInformationOrSampleCode",
"label":"Incorrect information or sample code"
},{
"type": "thumb-down",
"id": "missingTheInformationSamplesINeed",
"label":"Missing the information/samples I need"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"翻译问题"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"其他"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"易于理解"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"解决了我的问题"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"其他"
}]