Package google.cloud.vision.v1

索引

ImageAnnotator

這項服務會對用戶端圖片執行 Google Cloud Vision API 偵測工作,例如偵測臉部、地標、標誌、標籤和文字。ImageAnnotator 服務會從圖片傳回偵測到的實體。

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

這項服務可對批次檔案執行圖片偵測和註解作業。目前僅支援「application/pdf」、「image/tiff」和「image/gif」。

這項服務會從提供的每個檔案中,擷取最多 5 個影格 (GIF) 或頁面 (PDF 或 TIFF),並對擷取的每張圖片執行偵測和註解作業。客戶可以在 AnnotateFileRequest.pages 中指定要擷取的 5 個影格/頁面。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

對一批圖片執行圖片偵測和註解。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

要求為單一檔案 (例如 PDF、TIFF 或 GIF 檔案) 加註。

欄位
input_config

InputConfig

這是必要旗標,輸入檔案的相關資訊。

features[]

Feature

這是必要旗標,要求的功能。

image_context

ImageContext

檔案中可能隨附圖片的其他背景資訊。

pages[]

int32

要執行圖片註解的檔案頁面。

頁碼從 1 開始,我們假設檔案的第一頁是第 1 頁。每項要求最多支援 5 個網頁。頁數可為負數。

第 1 頁是指第一頁。第 2 頁是指第二個頁面。頁碼 -1 代表最後一頁。-2 頁表示倒數第二頁。

如果檔案是 GIF 而非 PDF 或 TIFF,則頁面是指 GIF 影格。

如果這個欄位留空,服務預設會對檔案的前 5 頁執行圖片註解。

註解檔案回應

單一檔案註解要求的相關回應。檔案可能包含一或多張圖片,每張圖片都有各自的回覆。

欄位
input_config

InputConfig

系統產生這則回覆時所參照的檔案相關資訊。

responses[]

AnnotateImageResponse

針對檔案中找到的圖片提供個別回應。如果已設定 error 欄位,這個欄位就會留空。

total_pages

int32

這個欄位會顯示檔案的總頁數。

error

Status

如果已設定,則代表要求失敗的錯誤訊息。在此情況下,系統不會設定 responses 欄位。

AnnotateImageRequest

要求對使用者提供的圖片執行 Google Cloud Vision API 工作,並提供使用者要求的功能和情境資訊。

欄位
image

Image

要處理的圖片。

features[]

Feature

要求的功能。

image_context

ImageContext

圖片可能附帶的額外背景資訊。

AnnotateImageResponse

圖片註解要求的回應。

欄位
text_annotations[]

EntityAnnotation

如果存在,表示文字 (OCR) 偵測已順利完成。

full_text_annotation

TextAnnotation

如果顯示文字 (OCR) 偵測或文件 (OCR) 文字偵測已成功完成,這項註解提供 OCR 偵測到的文字結構階層。

error

Status

如果已設定,則代表作業的錯誤訊息。請注意,即使已設定 error,填入的圖片註解也保證正確。

context

ImageAnnotationContext

如有這類資訊,請提供背景資訊,瞭解圖片來源。

批次註解檔案要求

使用 BatchAnnotateFiles API 為檔案加上註解的要求清單。

欄位
requests[]

AnnotateFileRequest

這是必要旗標,檔案註解要求清單。目前 BatchAnnotateFilesRequest 中僅支援一個 AnnotateFileRequest。

parent

string

(選用步驟) 要撥打電話的目標專案和位置。

格式:projects/{project-id}/locations/{location-id}

如未指定父項,系統會自動選擇區域。

支援的位置 ID:us:僅限美國,asia:東亞地區,例如日本、臺灣,eu:歐盟。

範例:projects/project-A/locations/eu

BatchAnnotateFilesResponse

檔案註解回應清單。

欄位
responses[]

AnnotateFileResponse

檔案註解回應清單,每個回應對應 BatchAnnotateFilesRequest 中的每個 AnnotateFileRequest。

批次註解圖片要求

多個圖片註解要求會批次處理,並納入單一服務呼叫。

欄位
requests[]

AnnotateImageRequest

這是必要旗標,這個批次的個別圖片註解要求。

parent

string

(選用步驟) 要撥打電話的目標專案和位置。

格式:projects/{project-id}/locations/{location-id}

如未指定父項,系統會自動選擇區域。

支援的位置 ID:us:僅限美國,asia:東亞地區,例如日本、臺灣,eu:歐盟。

範例:projects/project-A/locations/eu

BatchAnnotateImagesResponse

批次圖片註解要求的相關回應。

欄位
responses[]

AnnotateImageResponse

批次中圖片註解要求的個別回應。

封鎖

網頁上的邏輯元素。

欄位
property

TextProperty

系統偵測到該區塊的其他資訊。

bounding_box

BoundingPoly

區塊的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。例如:

  • 文字為水平時,可能看起來像這樣:
    0----1
    |    |
    3----2
  • 如果以左上角為中心旋轉 180 度,則會變成:
    2----3
    |    |
    1----0

頂點順序仍為 (0, 1, 2, 3)。

paragraphs[]

Paragraph

這個區塊中的段落清單 (如果這個區塊是文字類型)。

block_type

BlockType

這個區塊的偵測區塊類型 (文字、圖片等)。

confidence

float

OCR 結果對區塊的信心程度。範圍為 [0, 1]。

封鎖類型

OCR 識別的區塊類型 (文字、圖片等)。

列舉
UNKNOWN 不明的區塊類型。
TEXT 一般文字區塊。
TABLE 表格區塊。
PICTURE 圖片區塊。
RULER 水平/垂直線方塊。
BARCODE 條碼區塊。

BoundingPoly

偵測到的圖片註解定界多邊形。

欄位
vertices[]

Vertex

定界多邊形頂點。

normalized_vertices[]

NormalizedVertex

定界多邊形正規化頂點。

實體註解

偵測到的實體特徵集。

欄位
mid

string

不透明的實體 ID。部分 ID 可能會顯示在 Google Knowledge Graph Search API 中。

locale

string

實體文字 description 的語言代碼。

description

string

實體的文字說明,以locale語言表示。

score

float

結果的整體分數。範圍為 [0, 1]。

confidence
(deprecated)

float

已淘汰;請改用 score圖片中實體偵測的準確度。舉例來說,如果系統在圖片中偵測到「艾菲爾鐵塔」實體,這個欄位就會代表查詢圖片中存在鐵塔的信賴度。範圍為 [0, 1]。

topicality

float

ICA (圖片內容註解) 標籤與圖片的相關性。舉例來說,即使兩張圖片中都有高塔,但如果其中一張圖片偵測到「艾菲爾鐵塔」,「高塔」與這張圖片的關聯性可能就高於另一張圖片。範圍為 [0, 1]。

bounding_poly

BoundingPoly

這個實體所屬的圖片區域。未針對 LABEL_DETECTION 功能製作。

properties[]

Property

部分實體可能會有選用的使用者提供 Property (名稱/值) 欄位,例如實體的資格分數或字串。

功能

要執行的 Google Cloud Vision API 偵測類型,以及該類型要傳回的結果數上限。features 清單中可以指定多個 Feature 物件。

欄位
type

Type

功能類型。

model

string

這項功能使用的模型。支援的值:「builtin/stable」(如果未設定,則為預設值) 和「builtin/latest」。DOCUMENT_TEXT_DETECTIONTEXT_DETECTION 也支援「builtin/weekly」,適用於每週更新的搶先版。

類型

要擷取的 Google Cloud Vision API 功能類型。

列舉
TYPE_UNSPECIFIED 未指定功能類型。
TEXT_DETECTION 執行文字偵測 / 光學字元辨識 (OCR)。文字偵測已針對大型圖片中的文字區域進行最佳化;如果圖片是文件,請改用 DOCUMENT_TEXT_DETECTION
DOCUMENT_TEXT_DETECTION 執行密集文字文件 OCR。如果 DOCUMENT_TEXT_DETECTIONTEXT_DETECTION 同時存在,則優先採用。

圖片

用戶端圖片,用於執行 Google Cloud Vision API 工作。

欄位
content

bytes

圖片內容,以位元組串流表示。注意:與所有 bytes 欄位一樣,Protobuffer 使用純二進位表示法,而 JSON 表示法使用 Base64。

目前這個欄位僅適用於 BatchAnnotateImages 要求。

圖片註解內容

如果圖片是從檔案 (例如 PDF) 產生,這則訊息會提供圖片來源的相關資訊。

欄位
uri

string

用於產生圖片的檔案 URI。

page_number

int32

如果檔案是 PDF 或 TIFF,這個欄位會顯示用於產生圖片的檔案頁碼。

ImageContext

圖片內容和/或特定功能參數。

欄位
language_hints[]

string

用於 TEXT_DETECTION 的語言清單。在大多數情況下,空白值可啟用自動語言偵測功能,因此能產生最佳結果。如果語言使用拉丁字母,則不需要設定 language_hints。在極少數情況下,如果知道圖片中文字的語言,設定提示有助於獲得更準確的結果 (但如果提示錯誤,會造成重大阻礙)。如果一或多種指定語言不是支援的語言,文字偵測就會傳回錯誤。

text_detection_params

TextDetectionParams

文字偵測和文件文字偵測的參數。

InputConfig

所需輸入位置和中繼資料。

欄位
content

bytes

檔案內容,以位元組串流表示。注意:與所有 bytes 欄位一樣,Protobuffer 使用純二進位表示法,而 JSON 表示法使用 Base64。

目前這個欄位僅適用於 BatchAnnotateFiles 要求。

mime_type

string

檔案類型。目前僅支援「application/pdf」、「image/tiff」和「image/gif」。不支援萬用字元。

正規化 Vertex

頂點代表圖片中的 2D 點。注意:正規化後的頂點座標是相對於原始圖片,範圍介於 0 到 1 之間。

欄位
x

float

X 座標。

y

float

Y 座標。

頁面

OCR 偵測到的頁面。

欄位
property

TextProperty

網頁上偵測到其他資訊。

width

int32

頁面寬度。如果是 PDF,單位為點。如果是圖片 (包括 TIFF),單位是像素。

height

int32

頁面高度。如果是 PDF,單位為點。如果是圖片 (包括 TIFF),單位是像素。

blocks[]

Block

這個頁面上的文字區塊、圖片等清單。

confidence

float

網頁上 OCR 結果的信賴度。範圍為 [0, 1]。

段落

文字的結構單元,代表特定順序的字詞。

欄位
property

TextProperty

系統偵測到段落的其他資訊。

bounding_box

BoundingPoly

段落的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。舉例來說: * 文字水平時可能如下所示: 0----1 | | 3----2 * 如果文字繞左上角旋轉 180 度,會變成: 2----3 | | 1----0 頂點順序仍為 (0、1、2、3)。

words[]

Word

這個段落中的所有字詞清單。

confidence

float

段落 OCR 結果的信賴度。範圍為 [0, 1]。

屬性

Property 包含使用者提供的名稱/值組合。

欄位
name

string

房源名稱。

value

string

屬性的值。

uint64_value

uint64

數值屬性的值。

符號

單一符號表示法。

欄位
property

TextProperty

系統偵測到符號的其他資訊。

bounding_box

BoundingPoly

符號的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。舉例來說: * 文字水平時可能如下所示: 0----1 | | 3----2 * 如果文字繞左上角旋轉 180 度,會變成: 2----3 | | 1----0 頂點順序仍為 (0、1、2、3)。

text

string

符號的實際 UTF-8 表示法。

confidence

float

符號 OCR 結果的信賴度。範圍為 [0, 1]。

文字註解

TextAnnotation 包含以結構化形式表示的 OCR 擷取文字。OCR 擷取文字結構的階層如下:

TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol

每個結構化元件 (從「頁面」開始) 可能都有屬性,用於說明偵測到的語言、換行等。詳情請參閱下方的 TextAnnotation.TextProperty 訊息定義。

欄位
pages[]

Page

OCR 偵測到的頁面清單。

text

string

系統在網頁上偵測到 UTF-8 文字。

DetectedBreak

偵測到結構化元件的開頭或結尾。

欄位
type

BreakType

偵測到的中斷類型。

is_prefix

bool

如果換行符號會加在元素前面,則為 True。

分隔類型

以列舉方式表示找到的間斷類型。換行、空格等。

列舉
UNKNOWN 不明的休息標籤類型。
SPACE 一般空間。
SURE_SPACE 確定間距 (非常寬)。
EOL_SURE_SPACE 換行符號。
HYPHEN 文字中沒有行尾連字號,且不會與 SPACELEADER_SPACELINE_BREAK 同時出現。
LINE_BREAK 結束段落的換行符號。

DetectedLanguage

偵測到結構元件的語言。

欄位
language_code

string

BCP-47 語言代碼,例如「en-US」或「sr-Latn」。詳情請參閱 https://www.unicode.org/reports/tr35/#Unicode_locale_identifier

confidence

float

偵測到的語言的信賴度。範圍為 [0, 1]。

TextProperty

在結構性元件上偵測到其他資訊。

欄位
detected_languages[]

DetectedLanguage

偵測到的語言清單和信賴度。

detected_break

DetectedBreak

偵測到文字片段的開頭或結尾。

TextDetectionParams

文字偵測的參數。這項設定可用來控管 TEXT_DETECTION 和 DOCUMENT_TEXT_DETECTION 功能。

欄位
enable_text_detection_confidence_score

bool

根據預設,Cloud Vision API 只會納入 DOCUMENT_TEXT_DETECTION 結果的可信度分數。將標記設為 true,即可一併納入 TEXT_DETECTION 的信賴分數。

advanced_ocr_options[]

string

進階 OCR 選項清單,可微調 OCR 行為。

Vertex

頂點代表圖片中的 2D 點。注意:頂點座標的比例與原始圖片相同。

欄位
x

int32

X 座標。

y

int32

Y 座標。

Word

字詞表示法。

欄位
property

TextProperty

系統偵測到該字詞的其他資訊。

bounding_box

BoundingPoly

這個字的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。舉例來說: * 文字水平時可能如下所示: 0----1 | | 3----2 * 如果文字繞左上角旋轉 180 度,會變成: 2----3 | | 1----0 頂點順序仍為 (0、1、2、3)。

symbols[]

Symbol

字詞中的符號清單。符號順序會遵循自然閱讀順序。

confidence

float

這個字 OCR 結果的信賴度。範圍為 [0, 1]。