偵測多個物件

Vision API 可透過物件定位功能,偵測及擷取圖片中的多個物件。

物件定位功能可辨識圖片中的多個物件,並為圖片中的每個物件提供 LocalizedObjectAnnotation。每個 LocalizedObjectAnnotation 都會識別物件的相關資訊、物件位置,以及包含物件的圖片區域矩形界線。

物件定位功能可識別圖片中的重要和次要物件。

物件資訊只會以英文傳回。Cloud Translation 可將英文標籤翻譯成各種其他語言

附有定界框的圖片
圖片來源: Unsplash 上的 Bogdan Dada (已新增註解)。

舉例來說,API 會傳回前一張圖片中物件的下列資訊和邊界位置資料:

名稱 mid 分數 範圍
自行車輪 /m/01bqk0 0.89648587 (0.32076266, 0.78941387), (0.43812272, 0.78941387), (0.43812272, 0.97331065), (0.32076266, 0.97331065)
單車 /m/0199g 0.886761 (0.312, 0.6616471)、(0.638353, 0.6616471)、(0.638353, 0.9705882)、(0.312, 0.9705882)
自行車輪 /m/01bqk0 0.6345275 (0.5125398, 0.760708)、(0.6256646, 0.760708)、(0.6256646, 0.94601655)、(0.5125398, 0.94601655)
相框 /m/06z37_ 0.6207608 (0.79177403, 0.16160682), (0.97047985, 0.16160682), (0.97047985, 0.31348917), (0.79177403, 0.31348917)
輪胎 /m/0h9mv 0.55886006 (0.32076266, 0.78941387)、(0.43812272, 0.78941387)、(0.43812272, 0.97331065)、(0.32076266, 0.97331065)
/m/02dgv 0.5160098 (0.77569866, 0.37104446)、(0.9412425, 0.37104446)、(0.9412425, 0.81507325)、(0.77569866, 0.81507325)

mid 包含對應於標籤 Google 知識圖譜項目的機器建立識別碼 (MID)。如要瞭解如何檢查 mid 值,請參閱 Google 知識圖譜搜尋 API 說明文件。

歡迎試用

如果您未曾使用過 Google Cloud,歡迎建立帳戶,親自體驗實際使用 Cloud Vision API 的成效。新客戶可以獲得價值 $300 美元的免費抵免額,可用於執行、測試及部署工作負載。

免費試用 Cloud Vision API

物件本地化要求

設定 Google Cloud 專案和驗證