本頁面由 Cloud Translation API 翻譯而成。

功能清單

Vision API 目前支援下列功能：

所有功能類型
文字偵測	圖片的光學字元辨識 (OCR)；文字辨識和轉換為機器編碼文字。辨識及擷取圖片中的 UTF-8 文字。圖片：針對大型圖片中稀疏的文字區域進行最佳化。回應：傳回以文字、周框和 `textAnnotations` 識別的字詞清單，以及 OCR 偵測到的文字結構階層 (`fullTextAnnotation`)。擷取文字結構的階層： TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol。 Page 上的每個結構化元件可能還會有自己的屬性，例如偵測到的語言、換行符等。支援的語言：適用於目前支援、對應及實驗性的語言。功能列舉值：`TEXT_DETECTION`。
偵測文件文字 (密集文字 / 手寫文字)	對檔案 (PDF/TIFF) 或含有密集文字的圖片執行光學字元辨識，辨識密集文字並轉換為機器編碼文字。檔案：專為文件檔案 (PDF/TIFF) 最佳化。圖片：針對圖片中密集的文字區域 (文件圖片) 和含有手寫文字的圖片進行最佳化。回應：傳回 OCR 偵測到的文字結構階層 (`fullTextAnnotation`)。擷取文字結構的階層： TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol。 Page 上的每個結構化元件可能還會有自己的屬性，例如偵測到的語言、換行符等。支援的語言：適用於目前支援、對應和實驗性的語言。功能列舉值：`DOCUMENT_TEXT_DETECTION`。如果同時要求 `DOCUMENT_TEXT_DETECTION` 和 `TEXT_DETECTION`，則優先採用。如要偵測掃描文件中的文字，請試用 Document AI，進行光學字元辨識、結構化表單剖析和實體擷取。您可以使用 Document AI Toolbox，將 Document AI 格式的輸出內容轉換為 Cloud Vision 格式。
地標偵測 ¹	提供地標名稱、信賴分數，以及地標在圖片中的定界框。提供偵測到實體的座標。
標誌偵測 ²	提供所識別實體的文字說明、信賴分數，以及檔案中標誌的周界多邊形。
標籤偵測 ³	提供圖片的通用標籤。每個標籤都會傳回文字說明、信賴分數和主題性評分。
圖片屬性 ⁴	傳回圖片中的主色。每種顏色都以 RGBA 色域表示，並具有信賴分數，以及顯示顏色所占的像素比例 [0, 1]。
物件本地化 ⁵	針對單一圖片中辨識的多個物件，提供一般標籤和定界框註解。系統會針對偵測到的每個物件傳回下列元素：文字說明、可信度分數，以及物件周圍定界多邊形的標準化頂點 [0,1]。需要自訂物件偵測功能嗎？您可以透過 AutoML Vision 物件偵測，為特定圖片物件偵測用途建立自訂機器學習模型。
裁剪提示偵測 ⁶	針對每項要求，提供裁剪圖片的定界多邊形、信賴分數，以及這個顯著區域相對於原始圖片的重要性分數。單一圖片最多可提供 16 個圖片比例值 (寬度：高度)。
網路實體和頁面 ⁷	提供與圖片相關的一系列網路內容。傳回下列資訊：網路實體：從網路上的類似圖片推斷出的實體 (標籤/說明)。完全相符的圖片：網路上任何大小的完全相符圖片網址清單。部分相符的圖片：圖片網址清單，這些圖片與原始圖片共用關鍵點特徵，例如原始圖片的裁剪版本。含有相符圖片的網頁：網頁清單 (由網頁網址、網頁標題、相符圖片網址識別)，其中的圖片符合上述條件。相似圖片：與原始圖片共用部分特徵的圖片網址清單。最佳猜測標籤：根據網路上類似的圖片，推測所要求圖片的主題。
煽情露骨內容偵測 (安全搜尋)	提供下列露骨內容類別的可能評分：`adult`、`spoof`、`medical`、`violence` 和 `racy`。可能性評分以 6 種不同的值表示：`UNKNOWN`、`VERY_UNLIKELY`、`UNLIKELY`、`POSSIBLE`、`LIKELY` 或 `VERY_LIKELY`。
臉部偵測	找出含有邊界多邊形的臉孔，並識別特定臉部「特徵」，例如眼睛、耳朵、鼻子、嘴巴等，以及對應的信賴度值。傳回情緒 (喜悅、悲傷、憤怒、驚訝) 和一般圖片屬性 (曝光不足、模糊、出現頭飾) 的可能性評分。可能性評估結果會以 6 種不同的值表示：`UNKNOWN`、`VERY_UNLIKELY`、`UNLIKELY`、`POSSIBLE`、`LIKELY` 或 `VERY_LIKELY`。特定個人臉部辨識不支援。