Package google.cloud.vision.v1

Indeks

ImageAnnotator

Layanan yang menjalankan tugas deteksi Google Cloud Vision API pada gambar klien, seperti deteksi wajah, tempat terkenal, logo, label, dan teks. Layanan ImageAnnotator menampilkan entity yang terdeteksi dari gambar.

BatchAnnotateFile

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Layanan yang menjalankan deteksi dan anotasi gambar untuk batch file. Sekarang hanya "aplikasi/pdf", "gambar/tiff" dan "gambar/gif" yang didukung.

Layanan ini akan mengekstrak maksimal 5 (pelanggan dapat menentukan 5 dalam AnnotateFileRequest.pages) frame (gif) atau halaman (pdf atau tiff) dari setiap file yang disediakan dan melakukan deteksi serta anotasi untuk setiap gambar yang diekstrak.

Cakupan Otorisasi

Memerlukan salah satu cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Menjalankan deteksi dan anotasi gambar untuk sekumpulan gambar.

Cakupan Otorisasi

Memerlukan salah satu cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Permintaan untuk menganotasi satu file, misalnya file PDF, TIFF, atau GIF.

Kolom
input_config

InputConfig

Wajib. Informasi tentang file input.

features[]

Feature

Wajib. Fitur yang diminta.

image_context

ImageContext

Konteks tambahan yang mungkin menyertai gambar dalam file.

pages[]

int32

Halaman file untuk menjalankan anotasi gambar.

Halaman dimulai dari 1, kami berasumsi bahwa halaman pertama file adalah halaman 1. Maksimal 5 halaman didukung per permintaan. Halaman bisa negatif.

Halaman 1 berarti halaman pertama. Halaman 2 berarti halaman kedua. Halaman -1 berarti halaman terakhir. Halaman -2 berarti halaman kedua dari halaman terakhir.

Jika file berupa GIF, bukan PDF atau TIFF, halaman akan merujuk ke frame GIF.

Jika kolom ini kosong, secara default layanan akan melakukan anotasi gambar untuk 5 halaman pertama file.

AnnotateFileResponse

Respons terhadap permintaan anotasi file tunggal. File dapat berisi satu atau beberapa gambar, yang masing-masing memiliki respons tersendiri.

Kolom
input_config

InputConfig

Informasi tentang file yang menghasilkan respons ini.

responses[]

AnnotateImageResponse

Respons individual terhadap gambar yang ditemukan dalam file. Kolom ini akan kosong jika kolom error ditetapkan.

total_pages

int32

Kolom ini menunjukkan jumlah total halaman dalam file,

error

Status

Jika ditetapkan, menunjukkan pesan error untuk permintaan yang gagal. Kolom responses tidak akan ditetapkan dalam kasus ini.

AnnotateImageRequest

Permintaan untuk menjalankan tugas Google Cloud Vision API pada gambar yang diberikan pengguna, dengan fitur yang diminta pengguna, dan dengan informasi konteks.

Kolom
image

Image

Gambar yang akan diproses.

features[]

Feature

Fitur yang diminta.

image_context

ImageContext

Konteks tambahan yang mungkin menyertai gambar.

AnnotateImageResponse

Respons terhadap permintaan anotasi gambar.

Kolom
text_annotations[]

EntityAnnotation

Jika ada, deteksi teks (OCR) telah berhasil diselesaikan.

full_text_annotation

TextAnnotation

Jika ada, deteksi teks (OCR) atau deteksi teks dokumen (OCR) telah berhasil diselesaikan. Anotasi ini memberikan hierarki struktural untuk teks yang terdeteksi OCR.

error

Status

Jika ditetapkan, mewakili pesan error untuk operasi. Perlu diketahui bahwa anotasi gambar yang terisi selalu benar, bahkan saat error disetel.

context

ImageAnnotationContext

Jika ada, informasi kontekstual diperlukan untuk memahami asal gambar ini.

BatchAnnotateFilesRequest

Daftar permintaan untuk memberi anotasi file menggunakan BatchAnnotateFiles API.

Kolom
requests[]

AnnotateFileRequest

Wajib. Daftar permintaan anotasi file. Saat ini kami hanya mendukung satu AnnotateFileRequest di BatchAnnotateFilesRequest.

parent

string

Opsional. Project target dan lokasi untuk melakukan panggilan.

Format projects/{project-id}/locations/{location-id}.

Jika tidak ada induk yang ditentukan, region akan dipilih secara otomatis.

ID lokasi yang didukung: us: Khusus negara AS, asia: Area Asia Timur, seperti Jepang, Taiwan, eu: Uni Eropa.

Contoh: projects/project-A/locations/eu.

BatchAnnotateFilesResponse

Daftar respons anotasi file.

Kolom
responses[]

AnnotateFileResponse

Daftar respons anotasi file, setiap respons sesuai dengan setiap AnnotateFileRequest di BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Beberapa permintaan anotasi gambar dikelompokkan menjadi satu panggilan layanan.

Kolom
requests[]

AnnotateImageRequest

Wajib. Permintaan anotasi gambar individu untuk batch ini.

parent

string

Opsional. Project target dan lokasi untuk melakukan panggilan.

Format projects/{project-id}/locations/{location-id}.

Jika tidak ada induk yang ditentukan, region akan dipilih secara otomatis.

ID lokasi yang didukung: us: Khusus negara AS, asia: Area Asia Timur, seperti Jepang, Taiwan, eu: Uni Eropa.

Contoh: projects/project-A/locations/eu.

BatchAnnotateImagesResponse

Respons terhadap permintaan anotasi gambar batch.

Kolom
responses[]

AnnotateImageResponse

Setiap respons terhadap permintaan anotasi gambar dalam batch.

Blokir

Elemen logika pada halaman.

Kolom
property

TextProperty

Informasi tambahan yang terdeteksi untuk blokir.

bounding_box

BoundingPoly

Kotak pembatas untuk blokir. Titik sudut berada dalam urutan dari sudut kiri-atas, kanan-atas, kanan-bawah, kiri-bawah. Jika rotasi kotak pembatas terdeteksi, rotasi akan ditampilkan di sekitar sudut kiri atas seperti yang didefinisikan saat teks dibaca dalam orientasi 'asli'. Contoh:

  • saat teks horizontal, bentuknya akan terlihat seperti ini:
    0----1
    |    |
    3----2
  • saat diputar 180 derajat di sudut kiri atas, menjadi:
    2----3
    |    |
    1----0

dan urutan vertexnya akan tetap (0, 1, 2, 3).

paragraphs[]

Paragraph

Daftar paragraf dalam blok ini (jika blok ini berupa teks jenis).

block_type

BlockType

Jenis blok yang terdeteksi (teks, gambar, dll.) untuk blok ini.

confidence

float

Keyakinan hasil OCR pada blok. Rentang [0, 1].

BlockType

Jenis blok (teks, gambar, dll.) seperti yang diidentifikasi oleh OCR.

Enum
UNKNOWN Jenis blok yang tidak diketahui.
TEXT Blok teks biasa.
TABLE Blok tabel.
PICTURE Pemblokiran gambar.
RULER Kotak garis horizontal/vertikal.
BARCODE Blok kode batang.

BoundingPoly

Poligon pembatas untuk anotasi gambar yang terdeteksi.

Kolom
vertices[]

Vertex

Puncak poligon pembatas.

normalized_vertices[]

NormalizedVertex

Verteks poligon pembatas yang dinormalisasi.

EntityAnnotation

Kumpulan fitur entitas yang terdeteksi.

Kolom
mid

string

ID entity tersembunyi. Beberapa ID mungkin tersedia di API Penelusuran Pustaka Pengetahuan Google.

locale

string

Kode bahasa untuk lokalitas tempat description tekstual entitas dinyatakan.

description

string

Deskripsi tekstual entitas, yang dinyatakan dalam bahasa locale.

score

float

Skor hasil secara keseluruhan. Rentang [0, 1].

confidence
(deprecated)

float

Tidak digunakan lagi. Sebagai gantinya, gunakan score. Keakuratan deteksi entity dalam gambar. Misalnya, untuk gambar yang mendeteksi entitas "Menara Eiffel", kolom ini merepresentasikan keyakinan bahwa ada menara dalam kueri gambar. Rentang [0, 1].

topicality

float

Relevansi label ICA (Image Content Annotation) terhadap gambar. Misalnya, relevansi "menara" cenderung lebih tinggi untuk gambar yang berisi "Menara Eiffel" yang terdeteksi daripada gambar yang berisi bangunan menjulang tinggi yang terdeteksi, meskipun keyakinan bahwa ada menara di setiap gambar mungkin sama. Rentang [0, 1].

bounding_poly

BoundingPoly

Region gambar entity ini berasal. Tidak diproduksi untuk fitur LABEL_DETECTION.

properties[]

Property

Beberapa entitas mungkin memiliki kolom Property (nama/nilai) opsional yang disediakan pengguna. Seperti, skor atau string yang memenuhi syarat untuk entity.

Fitur

Jenis deteksi Google Cloud Vision API yang akan dijalankan, dan jumlah hasil maksimum yang akan ditampilkan untuk jenis tersebut. Beberapa objek Feature dapat dispesifikasi dalam daftar features.

Kolom
type

Type

Jenis fitur.

model

string

Model yang akan digunakan untuk fitur. Nilai yang didukung: "builtin/stable" (default jika tidak disetel) dan "builtin/latest". DOCUMENT_TEXT_DETECTION dan TEXT_DETECTION juga mendukung "builtin/weekly" untuk rilis terbaru yang diupdate setiap minggu.

Jenis

Jenis fitur Google Cloud Vision API yang akan diekstrak.

Enum
TYPE_UNSPECIFIED Jenis fitur belum ditetapkan.
TEXT_DETECTION Menjalankan deteksi teks / pengenalan karakter optik (OCR). Deteksi teks dioptimalkan untuk area teks dalam gambar yang lebih besar; jika gambar berupa dokumen, gunakan DOCUMENT_TEXT_DETECTION.
DOCUMENT_TEXT_DETECTION Jalankan OCR dokumen teks padat. Gunakan prioritas saat DOCUMENT_TEXT_DETECTION dan TEXT_DETECTION keduanya ada

Gambar

Image klien untuk menjalankan tugas Google Cloud Vision API.

Kolom
content

bytes

Konten gambar, direpresentasikan sebagai aliran byte. Catatan: Seperti semua kolom bytes, protobuffer menggunakan representasi biner murni, sedangkan representasi JSON menggunakan base64.

Saat ini, kolom ini hanya berfungsi untuk permintaan BatchAnnotateImages. Kode ini tidak berfungsi untuk permintaan AsyncBatchAnnotateImages.

ImageAnnotationContext

Jika gambar dibuat dari file (misalnya PDF), pesan ini memberikan informasi tentang sumber gambar tersebut.

Kolom
uri

string

URI file yang digunakan untuk menghasilkan gambar.

page_number

int32

Jika filenya berupa PDF atau TIFF, kolom ini akan memberikan nomor halaman dalam file yang digunakan untuk menghasilkan gambar.

ImageContext

Konteks gambar dan/atau parameter khusus fitur.

Kolom
language_hints[]

string

Daftar bahasa yang akan digunakan untuk TEXT_DETECTION. Dalam kebanyakan, nilai kosong memberikan hasil terbaik karena memungkinkan deteksi bahasa secara otomatis. Untuk bahasa yang didasarkan pada alfabet Latin, setelan language_hints tidak diperlukan. Dalam kasus yang jarang terjadi, jika bahasa teks dalam gambar diketahui, menyetel petunjuk akan membantu dalam mendapatkan hasil yang lebih baik (meskipun itu akan menjadi penghalang yang signifikan jika petunjuk diberi salah). Deteksi teks menampilkan error jika satu atau beberapa bahasa yang ditentukan bukan salah satu dari bahasa yang didukung.

text_detection_params

TextDetectionParams

Parameter untuk deteksi teks dan deteksi teks dokumen.

InputConfig

Lokasi input dan metadata yang diinginkan.

Kolom
content

bytes

Konten file, direpresentasikan sebagai aliran byte. Catatan: Seperti semua kolom bytes, protobuffer menggunakan representasi biner murni, sedangkan representasi JSON menggunakan base64.

Saat ini, kolom ini hanya berfungsi untuk permintaan BatchAnnotateFiles saja. Kode ini tidak berfungsi untuk permintaan AsyncBatchAnnotateFiles.

mime_type

string

Jenis file. Saat ini, hanya "aplikasi/pdf", "gambar/tiff", dan "gambar/gif" yang didukung. Karakter pengganti tidak didukung.

NormalizedVertex

verteks mewakili titik 2D pada gambar. CATATAN: koordinat verteks yang dinormalisasi akan relatif terhadap gambar asli dan memiliki rentang dari 0 hingga 1.

Kolom
x

float

Koordinat x.

y

float

Koordinat y.

Halaman

Halaman yang terdeteksi dari OCR.

Kolom
property

TextProperty

Informasi tambahan terdeteksi di halaman.

width

int32

Lebar halaman. Untuk PDF, satuannya adalah poin. Untuk gambar (termasuk TIFF), satuannya adalah piksel.

height

int32

Tinggi halaman. Untuk PDF, satuannya adalah poin. Untuk gambar (termasuk TIFF), satuannya adalah piksel.

blocks[]

Block

Daftar blok teks, gambar, dll. pada halaman ini.

confidence

float

Keyakinan hasil OCR pada halaman. Rentang [0, 1].

Paragraf

Unit struktural teks yang mewakili sejumlah kata dalam urutan tertentu.

Kolom
property

TextProperty

Informasi tambahan terdeteksi untuk paragraf.

bounding_box

BoundingPoly

Kotak pembatas untuk paragraf. Titik sudut berada dalam urutan dari sudut kiri-atas, kanan-atas, kanan-bawah, kiri-bawah. Jika rotasi kotak pembatas terdeteksi, rotasi akan ditampilkan di sekitar sudut kiri atas seperti yang didefinisikan saat teks dibaca dalam orientasi 'asli'. Misalnya: * saat teks horizontal, tampilannya mungkin seperti ini: 0----1 | | 3----2 * saat diputar 180 derajat mengitari sudut kiri atas menjadi: 2----3 | | 1----0 dan urutan titik sudut akan tetap (0, 1, 2, 3).

words[]

Word

Daftar semua kata dalam paragraf ini.

confidence

float

Keyakinan hasil OCR untuk paragraf Rentang [0, 1].

Properti

Property terdiri dari pasangan nama/nilai yang diberikan pengguna.

Kolom
name

string

Nama properti.

value

string

Nilai properti.

uint64_value

uint64

Nilai properti numerik.

Simbol

Representasi simbol tunggal.

Kolom
property

TextProperty

Informasi tambahan terdeteksi untuk simbol.

bounding_box

BoundingPoly

Kotak pembatas untuk simbol. Titik sudut berada dalam urutan dari sudut kiri-atas, kanan-atas, kanan-bawah, kiri-bawah. Jika rotasi kotak pembatas terdeteksi, rotasi akan ditampilkan di sekitar sudut kiri atas seperti yang didefinisikan saat teks dibaca dalam orientasi 'asli'. Misalnya: * saat teks horizontal, tampilannya mungkin seperti ini: 0----1 | | 3----2 * saat diputar 180 derajat mengitari sudut kiri atas menjadi: 2----3 | | 1----0 dan urutan titik sudut akan tetap (0, 1, 2, 3).

text

string

Representasi aktual UTF-8 dari simbol.

confidence

float

Tingkat keyakinan hasil OCR untuk simbol tersebut. Rentang [0, 1].

TextAnnotation

TextAnnotation berisi representasi terstruktur dari teks yang diekstrak OCR. Hierarki struktur teks yang diekstrak OCR adalah seperti ini:

TextAnnotation -> Halaman -> Blok -> Paragraf -> Kata -> Simbol

Setiap komponen struktural, mulai dari Halaman, mungkin memiliki properti, yang menjelaskan bahasa yang terdeteksi, jeda, dll. Untuk mengetahui detail selengkapnya, lihat definisi pesan TextAnnotation.TextProperty berikut.

Kolom
pages[]

Page

Daftar halaman yang terdeteksi oleh OCR.

text

string

Teks UTF-8 terdeteksi di halaman.

DetectedBreak

Awal atau akhir yang terdeteksi dari sebuah komponen struktural.

Kolom
type

BreakType

Jenis jeda yang terdeteksi.

is_prefix

bool

True jika jeda menambahkan elemen.

BreakType

Enum untuk menunjukkan jenis jeda yang ditemukan. Baris baru, spasi, dll.

Enum
UNKNOWN Jenis label jeda yang tidak diketahui.
SPACE Spasi reguler.
SURE_SPACE Spasi pasti (sangat lebar).
EOL_SURE_SPACE Jeda penggabungan baris.
HYPHEN Tanda hubung baris akhir yang tidak ada dalam teks; tidak terjadi bersamaan dengan SPACE, LEADER_SPACE, atau LINE_BREAK.
LINE_BREAK Jeda baris yang mengakhiri paragraf.

DetectedLanguage

Bahasa yang terdeteksi untuk komponen struktural.

Kolom
language_code

string

Kode bahasa BCP-47, seperti "en-US" atau "sr-Latn". Untuk mengetahui informasi selengkapnya, lihat https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Keyakinan bahasa yang terdeteksi. Rentang [0, 1].

TextProperty

Informasi tambahan terdeteksi pada komponen struktural.

Kolom
detected_languages[]

DetectedLanguage

Daftar bahasa yang terdeteksi bersama dengan tingkat keyakinan.

detected_break

DetectedBreak

Mendeteksi awal atau akhir dari awal segmen teks.

TextDetectionParams

Parameter untuk deteksi teks. Ini digunakan untuk mengontrol fitur TEXT_DETECTION dan DOCUMENT_TEXT_DETECTION.

Kolom
enable_text_detection_confidence_score

bool

Secara default, Cloud Vision API hanya menyertakan skor keyakinan untuk hasil DOCUMENT_TEXT_DETECTION. Tetapkan tanda ke benar (true) untuk menyertakan skor keyakinan untuk TEXT_DETECTION juga.

advanced_ocr_options[]

string

Daftar opsi OCR lanjutan untuk menyempurnakan perilaku OCR.

Vertex

verteks mewakili titik 2D pada gambar. CATATAN: koordinat verteks memiliki skala yang sama dengan gambar asli.

Kolom
x

int32

Koordinat x.

y

int32

Koordinat y.

Word

Representasi kata.

Kolom
property

TextProperty

Informasi tambahan yang terdeteksi untuk kata tersebut.

bounding_box

BoundingPoly

Kotak pembatas untuk kata. Titik sudut berada dalam urutan dari sudut kiri-atas, kanan-atas, kanan-bawah, kiri-bawah. Jika rotasi kotak pembatas terdeteksi, rotasi akan ditampilkan di sekitar sudut kiri atas seperti yang didefinisikan saat teks dibaca dalam orientasi 'asli'. Misalnya: * saat teks horizontal, tampilannya mungkin seperti ini: 0----1 | | 3----2 * saat diputar 180 derajat mengitari sudut kiri atas menjadi: 2----3 | | 1----0 dan urutan titik sudut akan tetap (0, 1, 2, 3).

symbols[]

Symbol

Daftar simbol dalam kata. Urutan simbol mengikuti urutan pembacaan alamiahnya.

confidence

float

Tingkat keyakinan hasil OCR untuk kata tersebut. Rentang [0, 1].