Package google.cloud.vision.v1

Indice

ImageAnnotator

Servizio che esegue attività di rilevamento dell'API Google Cloud Vision sulle immagini del client, ad esempio rilevamento di volti, punti di riferimento, loghi, etichette e testo. Il servizio ImageAnnotator restituisce le entità rilevate dalle immagini.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Servizio che esegue il rilevamento e l'annotazione delle immagini per un batch di file. Ora sono supportati solo "application/pdf", "image/tiff" e "image/gif".

Questo servizio estrae al massimo 5 frame (GIF) o pagine (PDF o TIFF) da ogni file fornito ed esegue il rilevamento e l'annotazione per ogni immagine estratta.

Ambiti di autorizzazione

Richiede uno dei seguenti ambiti OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Esegui il rilevamento e l'annotazione delle immagini per un batch di immagini.

Ambiti di autorizzazione

Richiede uno dei seguenti ambiti OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Una richiesta di annotazione di un singolo file, ad esempio un file PDF, TIFF o GIF.

Campi
input_config

InputConfig

Obbligatorio. Informazioni sul file di input.

features[]

Feature

Obbligatorio. Funzionalità richieste.

image_context

ImageContext

Contesto aggiuntivo che potrebbe accompagnare le immagini nel file.

pages[]

int32

Pagine del file per eseguire l'annotazione delle immagini.

Le pagine iniziano da 1, quindi la prima pagina del file è la pagina 1. Per richiesta sono supportate al massimo 5 pagine. Le pagine possono essere negative.

Pagina 1 indica la prima pagina. Pagina 2 indica la seconda pagina. La pagina -1 indica l'ultima pagina. La pagina -2 indica la penultima pagina.

Se il file è GIF anziché PDF o TIFF, la pagina si riferisce ai frame GIF.

Se questo campo è vuoto, per impostazione predefinita il servizio esegue l'annotazione delle immagini per le prime 5 pagine del file.

AnnotateFileResponse

Risposta a una singola richiesta di annotazione del file. Un file può contenere una o più immagini, ognuna con le proprie risposte.

Campi
input_config

InputConfig

Informazioni sul file per cui viene generata questa risposta.

responses[]

AnnotateImageResponse

Singole risposte alle immagini trovate all'interno del file. Questo campo sarà vuoto se il campo error è impostato.

total_pages

int32

Questo campo indica il numero totale di pagine nel file.

error

Status

Se impostato, rappresenta il messaggio di errore per la richiesta non riuscita. In questo caso, il campo responses non verrà impostato.

AnnotateImageRequest

Richiesta di esecuzione di attività dell'API Google Cloud Vision su un'immagine fornita dall'utente, con le funzionalità richieste dall'utente e con informazioni contestuali.

Campi
image

Image

L'immagine da elaborare.

features[]

Feature

Funzionalità richieste.

image_context

ImageContext

Contesto aggiuntivo che può accompagnare l'immagine.

AnnotateImageResponse

Risposta a una richiesta di annotazione per l'immagine.

Campi
text_annotations[]

EntityAnnotation

Se presente, il rilevamento del testo (OCR) è stato completato correttamente.

full_text_annotation

TextAnnotation

Se presente, il rilevamento del testo (OCR) o del testo del documento (OCR) è stato completato correttamente. Questa annotazione fornisce la gerarchia strutturale per il testo rilevato tramite OCR.

error

Status

Se impostato, rappresenta il messaggio di errore per l'operazione. Tieni presente che le annotazioni delle immagini compilate sono garantite come corrette, anche quando è impostato error.

context

ImageAnnotationContext

Se presenti, le informazioni contestuali sono necessarie per capire da dove proviene l'immagine.

BatchAnnotateFilesRequest

Un elenco di richieste per annotare i file utilizzando l'API BatchAnnotateFiles.

Campi
requests[]

AnnotateFileRequest

Obbligatorio. L'elenco delle richieste di annotazione dei file. Al momento supportiamo solo una richiesta AnnotateFileRequest in BatchAnnotateFilesRequest.

parent

string

Facoltativo. Progetto e posizione di destinazione per effettuare una chiamata.

Formato: projects/{project-id}/locations/{location-id}.

Se non viene specificato un progetto genitore, verrà scelta automaticamente una regione.

ID località supportati: us: solo paese USA, asia: aree dell'Asia orientale, come Giappone e Taiwan, eu: l'Unione Europea.

Esempio: projects/project-A/locations/eu.

BatchAnnotateFilesResponse

Un elenco di risposte alle annotazioni dei file.

Campi
responses[]

AnnotateFileResponse

L'elenco delle risposte di annotazione dei file, ciascuna risposta corrispondente a ogni AnnotateFileRequest in BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Più richieste di annotazione di immagini vengono raggruppate in una singola chiamata di servizio.

Campi
requests[]

AnnotateImageRequest

Obbligatorio. Singole richieste di annotazione per le immagini di questo batch.

parent

string

Facoltativo. Progetto e posizione di destinazione per effettuare una chiamata.

Formato: projects/{project-id}/locations/{location-id}.

Se non viene specificato un progetto genitore, verrà scelta automaticamente una regione.

ID località supportati: us: solo paese USA, asia: aree dell'Asia orientale, come Giappone e Taiwan, eu: l'Unione Europea.

Esempio: projects/project-A/locations/eu.

BatchAnnotateImagesResponse

Risposta a una richiesta di annotazione di immagini batch.

Campi
responses[]

AnnotateImageResponse

Singole risposte alle richieste di annotazione delle immagini all'interno del batch.

Blocca

Elemento logico della pagina.

Campi
property

TextProperty

Sono state rilevate informazioni aggiuntive per il blocco.

bounding_box

BoundingPoly

Il riquadro di delimitazione del blocco. I vertici sono nell'ordine in alto a sinistra, in alto a destra, in basso a destra, in basso a sinistra. Quando viene rilevata una rotazione del riquadro di delimitazione, questa viene rappresentata attorno all'angolo in alto a sinistra, come definito quando il testo viene letto nell'orientamento "naturale". Ad esempio:

  • Quando il testo è orizzontale, potrebbe essere visualizzato nel seguente modo:
    0----1
    |    |
    3----2
  • quando viene ruotato di 180 gradi intorno all'angolo in alto a sinistra, diventa:
    2----3
    |    |
    1----0

e l'ordine dei vertici sarà ancora (0, 1, 2, 3).

paragraphs[]

Paragraph

Elenco dei paragrafi in questo blocco (se il blocco è di tipo testo).

block_type

BlockType

Il tipo di blocco rilevato (testo, immagine e così via) per questo blocco.

confidence

float

Affidabilità dei risultati dell'OCR sul blocco. Intervallo [0, 1].

BlockType

Tipo di blocco (testo, immagine e così via) identificato dall'OCR.

Enum
UNKNOWN Tipo di blocco sconosciuto.
TEXT Blocco di testo normale.
TABLE Blocco tabella.
PICTURE Blocco immagine.
RULER Casella per linee orizzontali/verticali.
BARCODE Blocco del codice a barre.

BoundingPoly

Un poligono di delimitazione per l'annotazione dell'immagine rilevata.

Campi
vertices[]

Vertex

I vertici del poligono di delimitazione.

normalized_vertices[]

NormalizedVertex

I vertici normalizzati del poligono di delimitazione.

EntityAnnotation

Insieme di funzionalità dell'entità rilevata.

Campi
mid

string

ID entità opaco. Alcuni ID potrebbero essere disponibili nell'API Google Knowledge Graph Search.

locale

string

Il codice lingua delle impostazioni internazionali in cui è espressa la description testuale dell'entità.

description

string

Descrizione testuale dell'entità, espressa nella lingua locale.

score

float

Punteggio complessivo del risultato. Intervallo [0, 1].

confidence
(deprecated)

float

Ritirato. Usa invece score. La precisione del rilevamento delle entità in un'immagine. Ad esempio, per un'immagine in cui viene rilevata l'entità "Torre Eiffel", questo campo rappresenta la certezza che nell'immagine della query sia presente una torre. Intervallo [0, 1].

topicality

float

La pertinenza dell'etichetta ICA (annotazione dei contenuti delle immagini) rispetto all'immagine. Ad esempio, la pertinenza di "torre" è probabilmente maggiore per un'immagine contenente la "Torre Eiffel" rilevata rispetto a un'immagine contenente un edificio torreggiante distante rilevato, anche se la confidenza che ci sia una torre in ogni immagine potrebbe essere la stessa. Intervallo [0, 1].

bounding_poly

BoundingPoly

La regione dell'immagine a cui appartiene questa entità. Non prodotto per le funzionalità di LABEL_DETECTION.

properties[]

Property

Alcune entità potrebbero avere campi Property (nome/valore) facoltativi forniti dall'utente, ad esempio un punteggio o una stringa che qualifica l'entità.

Funzionalità

Il tipo di rilevamento dell'API Google Cloud Vision da eseguire e il numero massimo di risultati da restituire per quel tipo. Nell'elenco features possono essere specificati più oggetti Feature.

Campi
type

Type

Il tipo di funzionalità.

model

string

Modello da utilizzare per la funzionalità. Valori supportati: "builtin/stable" (il valore predefinito se non impostato) e "builtin/latest". DOCUMENT_TEXT_DETECTION e TEXT_DETECTION supportano anche "builtin/weekly" per la versione bleeding edge aggiornata settimanalmente.

Tipo

Tipo di funzionalità dell'API Google Cloud Vision da estrarre.

Enum
TYPE_UNSPECIFIED Tipo di funzionalità non specificato.
TEXT_DETECTION Esegui il rilevamento del testo / il riconoscimento ottico dei caratteri (OCR). Il rilevamento del testo è ottimizzato per aree di testo all'interno di un'immagine più grande. Se l'immagine è un documento, utilizza invece DOCUMENT_TEXT_DETECTION.
DOCUMENT_TEXT_DETECTION Esegui l'OCR sui documenti di testo ad alta densità. Ha la precedenza quando sono presenti sia DOCUMENT_TEXT_DETECTION che TEXT_DETECTION.

Immagine

Immagine del client su cui eseguire le attività dell'API Google Cloud Vision.

Campi
content

bytes

Contenuti dell'immagine, rappresentati come un flusso di byte. Nota: come per tutti i campi bytes, i protobuffer utilizzano una rappresentazione binaria pura, mentre le rappresentazioni JSON utilizzano base64.

Al momento, questo campo funziona solo per le richieste BatchAnnotateImages. Non funziona per le richieste AsyncBatchAnnotateImages.

ImageAnnotationContext

Se un'immagine è stata prodotta da un file (ad es. un PDF), questo messaggio fornisce informazioni sull'origine dell'immagine.

Campi
uri

string

L'URI del file utilizzato per produrre l'immagine.

page_number

int32

Se il file era un PDF o un TIFF, questo campo indica il numero di pagina all'interno del file utilizzato per produrre l'immagine.

ImageContext

Contesto dell'immagine e/o parametri specifici della funzionalità.

Campi
language_hints[]

string

Elenco delle lingue da utilizzare per TEXT_DETECTION. Nella maggior parte dei casi, un valore vuoto produce i risultati migliori, in quanto consente il rilevamento automatico della lingua. Per le lingue basate sull'alfabeto latino, non è necessario impostare language_hints. In rari casi, quando la lingua del testo nell'immagine è nota, l'impostazione di un suggerimento aiuterà a ottenere risultati migliori (anche se sarà un ostacolo significativo se il suggerimento è errato). Il rilevamento del testo restituisce un errore se una o più delle lingue specificate non sono tra le lingue supportate.

text_detection_params

TextDetectionParams

Parametri per il rilevamento del testo e del testo del documento.

InputConfig

La posizione di input e i metadati desiderati.

Campi
content

bytes

Contenuti del file, rappresentati come un flusso di byte. Nota: come per tutti i campi bytes, i protobuffer utilizzano una rappresentazione binaria pura, mentre le rappresentazioni JSON utilizzano base64.

Al momento, questo campo funziona solo per le richieste BatchAnnotateFiles. Non funziona per le richieste AsyncBatchAnnotateFiles.

mime_type

string

Il tipo di file. Al momento sono supportati solo "application/pdf", "image/tiff" e "image/gif". I caratteri jolly non sono supportati.

NormalizedVertex

Un vertice rappresenta un punto 2D nell'immagine. NOTA: le coordinate normalizzate dei vertici sono relative all'immagine originale e vanno da 0 a 1.

Campi
x

float

Coordinata X.

y

float

Coordinata Y.

Pagina

Pagina rilevata tramite OCR.

Campi
property

TextProperty

Sono state rilevate informazioni aggiuntive sulla pagina.

width

int32

Larghezza della pagina. Per i PDF, l'unità è punti. Per le immagini (inclusi i TIFF), l'unità è pixel.

height

int32

Altezza della pagina. Per i PDF, l'unità è punti. Per le immagini (inclusi i TIFF), l'unità è pixel.

blocks[]

Block

Elenco di blocchi di testo, immagini e così via in questa pagina.

confidence

float

Affidabilità dei risultati dell'OCR nella pagina. Intervallo [0, 1].

Paragrafo

Unità strutturale di testo che rappresenta un numero di parole in un determinato ordine.

Campi
property

TextProperty

Sono state rilevate informazioni aggiuntive per il paragrafo.

bounding_box

BoundingPoly

Il riquadro di delimitazione del paragrafo. I vertici sono nell'ordine in alto a sinistra, in alto a destra, in basso a destra, in basso a sinistra. Quando viene rilevata una rotazione del riquadro di delimitazione, questa viene rappresentata attorno all'angolo in alto a sinistra, come definito quando il testo viene letto nell'orientamento "naturale". Ad esempio: * quando il testo è orizzontale, potrebbe essere simile a: 0----1 | | 3----2 * quando viene ruotato di 180 gradi intorno all'angolo in alto a sinistra, diventa: 2----3 | | 1----0 e l'ordine dei vertici sarà comunque (0, 1, 2, 3).

words[]

Word

Elenco di tutte le parole in questo paragrafo.

confidence

float

Affidabilità dei risultati dell'OCR per il paragrafo. Intervallo [0, 1].

Proprietà

Un Property è costituito da una coppia nome/valore fornita dall'utente.

Campi
name

string

Il nome della proprietà.

value

string

Valore della proprietà.

uint64_value

uint64

Valore delle proprietà numeriche.

Simbolo

Una singola rappresentazione simbolica.

Campi
property

TextProperty

Sono state rilevate informazioni aggiuntive per il simbolo.

bounding_box

BoundingPoly

Il riquadro di delimitazione del simbolo. I vertici sono nell'ordine in alto a sinistra, in alto a destra, in basso a destra, in basso a sinistra. Quando viene rilevata una rotazione del riquadro di delimitazione, questa viene rappresentata attorno all'angolo in alto a sinistra, come definito quando il testo viene letto nell'orientamento "naturale". Ad esempio: * quando il testo è orizzontale, potrebbe essere simile a: 0----1 | | 3----2 * quando viene ruotato di 180 gradi intorno all'angolo in alto a sinistra, diventa: 2----3 | | 1----0 e l'ordine dei vertici sarà comunque (0, 1, 2, 3).

text

string

La rappresentazione UTF-8 effettiva del simbolo.

confidence

float

Affidabilità dei risultati dell'OCR per il simbolo. Intervallo [0, 1].

TextAnnotation

TextAnnotation contiene una rappresentazione strutturata del testo estratto tramite OCR. La gerarchia di una struttura di testo estratta con l'OCR è la seguente:

TextAnnotation -> Pagina -> Blocco -> Paragrafo -> Parola -> Simbolo

Ogni componente strutturale, a partire dalla pagina, può avere proprietà che descrivono le lingue rilevate, le interruzioni e così via. Per maggiori dettagli, consulta la definizione del messaggio TextAnnotation.TextProperty riportata di seguito.

Campi
pages[]

Page

Elenco delle pagine rilevate dall'OCR.

text

string

Testo UTF-8 rilevato nelle pagine.

DetectedBreak

Rilevato l'inizio o la fine di un componente strutturale.

Campi
type

BreakType

Tipo di interruzione rilevato.

is_prefix

bool

True se l'interruzione precede l'elemento.

BreakType

Enumerazione per indicare il tipo di pausa trovato. Nuova riga, spazio e così via.

Enum
UNKNOWN Tipo di etichetta di interruzione sconosciuto.
SPACE Spazio normale.
SURE_SPACE Spazio sicuro (molto ampio).
EOL_SURE_SPACE Interruzione del ritorno a capo automatico.
HYPHEN Trattino di fine riga non presente nel testo; non si verifica contemporaneamente a SPACE, LEADER_SPACE o LINE_BREAK.
LINE_BREAK Interruzione di riga che termina un paragrafo.

DetectedLanguage

Lingua rilevata per un componente strutturale.

Campi
language_code

string

Il codice lingua BCP-47, ad esempio "en-US" o "sr-Latn". Per ulteriori informazioni, visita la pagina https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Affidabilità della lingua rilevata. Intervallo [0, 1].

TextProperty

Informazioni aggiuntive rilevate sul componente strutturale.

Campi
detected_languages[]

DetectedLanguage

Un elenco delle lingue rilevate insieme al livello di confidenza.

detected_break

DetectedBreak

Rilevato l'inizio o la fine di un segmento di testo.

TextDetectionParams

Parametri per i rilevamenti di testo. Viene utilizzato per controllare le funzionalità TEXT_DETECTION e DOCUMENT_TEXT_DETECTION.

Campi
enable_text_detection_confidence_score

bool

Per impostazione predefinita, l'API Cloud Vision include solo il punteggio di confidenza per il risultato DOCUMENT_TEXT_DETECTION. Imposta il flag su true per includere anche il punteggio di confidenza per TEXT_DETECTION.

advanced_ocr_options[]

string

Un elenco di opzioni OCR avanzate per perfezionare il comportamento dell'OCR.

Vertex

Un vertice rappresenta un punto 2D nell'immagine. NOTA: le coordinate dei vertici sono nella stessa scala dell'immagine originale.

Campi
x

int32

Coordinata X.

y

int32

Coordinata Y.

Word

Una rappresentazione di una parola.

Campi
property

TextProperty

Sono state rilevate informazioni aggiuntive per la parola.

bounding_box

BoundingPoly

Il riquadro di delimitazione della parola. I vertici sono nell'ordine in alto a sinistra, in alto a destra, in basso a destra, in basso a sinistra. Quando viene rilevata una rotazione del riquadro di delimitazione, questa viene rappresentata attorno all'angolo in alto a sinistra, come definito quando il testo viene letto nell'orientamento "naturale". Ad esempio: * quando il testo è orizzontale, potrebbe essere simile a: 0----1 | | 3----2 * quando viene ruotato di 180 gradi intorno all'angolo in alto a sinistra, diventa: 2----3 | | 1----0 e l'ordine dei vertici sarà comunque (0, 1, 2, 3).

symbols[]

Symbol

Elenco dei simboli nella parola. L'ordine dei simboli segue l'ordine di lettura naturale.

confidence

float

Affidabilità dei risultati dell'OCR per la parola. Intervallo [0, 1].