功能清單

Vision API 目前支援下列功能:

所有功能類型

文字偵測

路標圖片
  • 圖片的光學字元辨識 (OCR);文字辨識和轉換為機器編碼文字。辨識及擷取圖片中的 UTF-8 文字。
  • 圖片:針對大型圖片中稀疏的文字區域進行最佳化。
  • 回應:傳回以文字、周框和 textAnnotations 識別的字詞清單,以及 OCR 偵測到的文字結構階層 (fullTextAnnotation)。
    • 擷取文字結構的階層:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol。
      • Page 上的每個結構化元件可能還會有自己的屬性,例如偵測到的語言、換行符等。
  • 支援的語言:適用於目前支援、對應及實驗性的語言。
  • 功能列舉值:TEXT_DETECTION

偵測文件文字 (密集文字 / 手寫文字)

含有註解的密集圖片
手寫圖片
  • 對檔案 (PDF/TIFF) 或含有密集文字的圖片執行光學字元辨識,辨識密集文字並轉換為機器編碼文字。
  • 檔案:專為文件檔案 (PDF/TIFF) 最佳化。
  • 圖片:針對圖片中密集的文字區域 (文件圖片) 和含有手寫文字的圖片進行最佳化。
  • 回應:傳回 OCR 偵測到的文字結構階層 (fullTextAnnotation)。
    • 擷取文字結構的階層:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol。
      • Page 上的每個結構化元件可能還會有自己的屬性,例如偵測到的語言、換行符等。
  • 支援的語言:適用於目前支援、對應和實驗性的語言。
  • 功能列舉值:DOCUMENT_TEXT_DETECTION
    • 如果同時要求 DOCUMENT_TEXT_DETECTIONTEXT_DETECTION,則優先採用。

地標偵測 1

聖巴西爾大教堂圖片
  • 提供地標名稱、信賴分數,以及地標在圖片中的定界框。
  • 提供偵測到實體的座標。

標誌偵測 2

附註標誌
  • 提供所識別實體的文字說明、信賴分數,以及檔案中標誌的周界多邊形。

標籤偵測 3

上海街景圖片
  • 提供圖片的通用標籤。
  • 每個標籤都會傳回文字說明、信賴分數和主題性評分。

圖片屬性 4

峇里島圖片和屬性
  • 傳回圖片中的主色。
  • 每種顏色都以 RGBA 色域表示,並具有信賴分數,以及顯示顏色所占的像素比例 [0, 1]。

物件本地化 5

含有定界框的圖片
  • 針對單一圖片中辨識的多個物件,提供一般標籤和定界框註解。
  • 系統會針對偵測到的每個物件傳回下列元素:文字說明、可信度分數,以及物件周圍定界多邊形的標準化頂點 [0,1]。

裁剪提示偵測 6

裁剪後的圖片
  • 針對每項要求,提供裁剪圖片的定界多邊形、信賴分數,以及這個顯著區域相對於原始圖片的重要性分數。
  • 單一圖片最多可提供 16 個圖片比例值 (寬度:高度)。

網路實體和頁面 7

圖片,顯示網路實體表格
  • 提供與圖片相關的一系列網路內容。
  • 傳回下列資訊:
    • 網路實體:從網路上的類似圖片推斷出的實體 (標籤/說明)。
    • 完全相符的圖片:網路上任何大小的完全相符圖片網址清單。
    • 部分相符的圖片:圖片網址清單,這些圖片與原始圖片共用關鍵點特徵,例如原始圖片的裁剪版本。
    • 含有相符圖片的網頁:網頁清單 (由網頁網址、網頁標題、相符圖片網址識別),其中的圖片符合上述條件。
    • 相似圖片:與原始圖片共用部分特徵的圖片網址清單。
    • 最佳猜測標籤:根據網路上類似的圖片,推測所要求圖片的主題。

煽情露骨內容偵測 (安全搜尋)

  • 提供下列露骨內容類別的可能評分:adultspoofmedicalviolenceracy
  • 可能性評分以 6 種不同的值表示:UNKNOWNVERY_UNLIKELYUNLIKELYPOSSIBLELIKELYVERY_LIKELY

臉部偵測

臉部偵測範例圖片
  • 找出含有邊界多邊形的臉孔,並識別特定臉部「特徵」,例如眼睛、耳朵、鼻子、嘴巴等,以及對應的信賴度值。
  • 傳回情緒 (喜悅、悲傷、憤怒、驚訝) 和一般圖片屬性 (曝光不足、模糊、出現頭飾) 的可能性評分。
  • 可能性評估結果會以 6 種不同的值表示:UNKNOWNVERY_UNLIKELYUNLIKELYPOSSIBLELIKELYVERY_LIKELY
  • 特定個人 臉部辨識 不支援。

1. 圖片來源Nikolay Vorobyev 發表於 Unsplash (已新增註解)。

2. 圖片來源Robert Scoble (CC BY 2.0已新增註解)。

3. 圖片來源Alex Knight (Unsplash)。

4. 圖片來源Jeremy Bishop (Unsplash)。

5. 圖片出處: Bogdan Dada (Unsplash) (已新增註解)。

6. 圖片出處Unsplash 的 Yasmin Dangor (顯示原始和裁剪後的圖片)。

7. 圖片來源Quinten de GraafUnsplash