请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。 请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。

支持的图片

文件格式

Vision API 支持以下图片类型：

JPEG
PNG8
PNG24
GIF
动画 GIF（仅第一帧）
BMP
WEBP
RAW
ICO
PDF
TIFF

请注意，其中一些图片格式为“有损”格式（如 JPEG）。对于采用这种有损格式的文件，如果减小其大小，则可能会导致图片质量下降，进而降低 Vision API 的准确性。

调整图片大小

要在 Vision API 内进行准确的图片检测，图片通常最低应为 640 x 480 像素（约 30 万像素）。下面显示了不同类型的 Vision API 特征请求的全部详细信息：

Vision API 特征	推荐大小*	备注
FACE_DETECTION	1600 x 1200	两眼之间的距离最重要
LANDMARK_DETECTION	640 x 480
LOGO_DETECTION	640 x 480
LABEL_DETECTION	640 x 480
TEXT_DETECTION 和 DOCUMENT_TEXT_DETECTION	1024 x 768	OCR 需要更高的分辨率才能检测字符
SAFE_SEARCH_DETECTION	640 x 480

推荐大小因待检测的特征而异。例如，FACE_DETECTION 请求通常需要较高的图片分辨率，因为待检测的特征（人脸）小于图片本身。 LABEL_DETECTION 请求则通常会评估整张图片。

实际上，640 x 480 像素的标准大小在大多数情况下效果都很好；如果图片超过这一大小，准确性可能不会提高很多，但同时会大大减少吞吐量。如果可能的话，对您的图片进行预处理，将它们的分辨率减小到最低标准。

文件大小

发送到 Vision API 的图片文件大小不应超过 20MB。文件超过 20MB 将生成错误。Vision API 不会调整此大小的文件的大小。减小文件大小可显著增加吞吐量；不过，请注意不要在此过程中降低图片质量。请注意，Vision API 将 JSON 请求的大小限制为 10MB；如果文件较大，则应托管在 Cloud Storage 或网络中，而不是在 JSON 中作为 Base64 编码的内容传递。