功能清單
  
      
    
  
  
  
  
  
    
  
  
    
    
    
    
  
  
Vision API 目前支援下列功能:
  
  
  
  
    
      | 所有功能類型 | 
    
  
  
    
    
      
        
         
        
       | 
      
        
          - 圖片的光學字元辨識 (OCR);文字辨識和轉換為機器編碼文字。辨識及擷取圖片中的 UTF-8 文字。
 
          - 圖片:針對大型圖片中稀疏的文字區域進行最佳化。
 
          - 回應:傳回以文字、周框和 
textAnnotations 識別的字詞清單,以及 OCR 偵測到的文字結構階層 (fullTextAnnotation)。 
            
              - 擷取文字結構的階層:
                
                  - TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol。
 
                  - Page 上的每個結構化元件可能還會有自己的屬性,例如偵測到的語言、換行符等。
 
                 
               
             
          - 支援的語言:適用於目前支援、對應及實驗性的語言。
 
          - 功能列舉值:
TEXT_DETECTION。 
         
       | 
    
    
    
      
        
         
        
        
         
        
       | 
      
        
          - 對檔案 (PDF/TIFF) 或含有密集文字的圖片執行光學字元辨識,辨識密集文字並轉換為機器編碼文字。
 
          - 檔案:專為文件檔案 (PDF/TIFF) 最佳化。
          
 
          - 圖片:針對圖片中密集的文字區域 (文件圖片) 和含有手寫文字的圖片進行最佳化。
            
 
          - 回應:傳回 OCR 偵測到的文字結構階層 (
fullTextAnnotation)。 
            
              - 擷取文字結構的階層:
                
                  - TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol。
 
                  - Page 上的每個結構化元件可能還會有自己的屬性,例如偵測到的語言、換行符等。
 
                 
               
             
          - 支援的語言:適用於目前支援、對應和實驗性的語言。
          
 
          - 功能列舉值:
DOCUMENT_TEXT_DETECTION。
           
            
              - 如果同時要求 
DOCUMENT_TEXT_DETECTION 和 TEXT_DETECTION,則優先採用。 
             
         
        
       | 
    
    
    
      
        
        
         
        
       | 
      
        
          - 提供地標名稱、信賴分數,以及地標在圖片中的定界框。
 
          - 提供偵測到實體的座標。
          
 
         
       | 
    
    
    
      
        
        
         
        
       | 
      
        
          - 提供所識別實體的文字說明、信賴分數,以及檔案中標誌的周界多邊形。
 
         
       | 
    
    
    
      
        
        
         
        
       | 
      
        
          - 提供圖片的通用標籤。
 
          - 每個標籤都會傳回文字說明、信賴分數和主題性評分。
 
         
       | 
    
    
    
      
        
        
         
        
       | 
      
        
          - 傳回圖片中的主色。
 
          - 每種顏色都以 RGBA 色域表示,並具有信賴分數,以及顯示顏色所占的像素比例 [0, 1]。
 
         
       | 
    
    
    
      
        
        
         
        
       | 
      
        
       | 
    
    
    
      
        
        
         
        
       | 
      
        
          - 針對每項要求,提供裁剪圖片的定界多邊形、信賴分數,以及這個顯著區域相對於原始圖片的重要性分數。
 
          - 單一圖片最多可提供 16 個圖片比例值 (寬度:高度)。
 
         
       | 
    
    
    
      
        
        
         
        
       | 
      
        
          - 提供與圖片相關的一系列網路內容。
 
          - 傳回下列資訊:
            
              - 網路實體:從網路上的類似圖片推斷出的實體 (標籤/說明)。
 
              - 完全相符的圖片:網路上任何大小的完全相符圖片網址清單。
 
              - 部分相符的圖片:圖片網址清單,這些圖片與原始圖片共用關鍵點特徵,例如原始圖片的裁剪版本。
 
              - 含有相符圖片的網頁:網頁清單 (由網頁網址、網頁標題、相符圖片網址識別),其中的圖片符合上述條件。
 
              - 相似圖片:與原始圖片共用部分特徵的圖片網址清單。
 
              - 最佳猜測標籤:根據網路上類似的圖片,推測所要求圖片的主題。
 
             
           
         
       | 
    
    
    
       | 
      
        
          - 提供下列露骨內容類別的可能評分:
adult、spoof、medical、violence 和 racy。 
          - 可能性評分以 6 種不同的值表示:
UNKNOWN、VERY_UNLIKELY、UNLIKELY、POSSIBLE、LIKELY 或 VERY_LIKELY。 
         
       | 
    
    
    
      
        
        
         
        
       | 
      
        
          - 找出含有邊界多邊形的臉孔,並識別特定臉部「特徵」,例如眼睛、耳朵、鼻子、嘴巴等,以及對應的信賴度值。
 
          - 傳回情緒 (喜悅、悲傷、憤怒、驚訝) 和一般圖片屬性 (曝光不足、模糊、出現頭飾) 的可能性評分。
 
          - 可能性評估結果會以 6 種不同的值表示:
UNKNOWN、VERY_UNLIKELY、UNLIKELY、POSSIBLE、LIKELY 或 VERY_LIKELY。 
          - 特定個人
            臉部辨識
            不支援。
 
         
       | 
    
  
1. 
圖片來源:
Nikolay Vorobyev 發表於
  Unsplash (已新增註解)。
↩
2. 
圖片來源:
Robert Scoble
(CC BY 2.0,已新增註解)。
↩
3. 
圖片來源:
Alex Knight (Unsplash)。
↩
4. 
圖片來源:
Jeremy Bishop (Unsplash)。
↩
5. 
圖片出處:
Bogdan Dada (Unsplash)
(已新增註解)。↩
6. 
圖片出處:
    Unsplash 的 Yasmin Dangor (顯示原始和裁剪後的圖片)。
↩
7. 
圖片來源:
Quinten de Graaf,
Unsplash。
↩
  
  
  
    
  
  
 
  
    
    
      
       
         
  
       
    
    
  
  
  除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
  上次更新時間:2025-10-19 (世界標準時間)。
  
  
    
    
    
      
  
    
  
  
    
      [[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["難以理解","hardToUnderstand","thumb-down"],["資訊或程式碼範例有誤","incorrectInformationOrSampleCode","thumb-down"],["缺少我需要的資訊/範例","missingTheInformationSamplesINeed","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2025-10-19 (世界標準時間)。"],[],[]]