Package google.cloud.vision.v1

Index

ImageAnnotator

Service effectuant des tâches de détection de l'API Google Cloud Vision sur les images client, telles que la détection de visages, de points de repère, de logos, de thèmes et de texte. Le service ImageAnnotator renvoie les entités détectées dans les images.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Service qui détecte et annote les images d'un lot de fichiers. Actuellement, seuls les fichiers "application/pdf", "image/tiff" et "image/gif" sont acceptés.

Ce service extrait au maximum cinq frames GIF (les clients peuvent les spécifier dans les requêtes AnnotateFileRequest.pages) ou pages (PDF ou TIFF) de chaque fichier fourni, et détecte et annote chaque image extraite.

Niveaux d'accès des autorisations

Nécessite l'un des champs d'application OAuth suivants :

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Détecte et annote un lot d'images.

Niveaux d'accès des autorisations

Nécessite l'un des champs d'application OAuth suivants :

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Requête permettant d'annoter un seul fichier, par exemple un fichier PDF, TIFF ou GIF.

Champs
input_config

InputConfig

Obligatoire. Informations sur le fichier d'entrée.

features[]

Feature

Obligatoire. Fonctionnalités demandées.

image_context

ImageContext

Contexte supplémentaire pouvant accompagner les images du fichier.

pages[]

int32

Pages du fichier sur lesquelles effectuer une annotation d'images.

La numérotation des pages commence par 1. Nous partons du principe que la première page du fichier est la page 1. Vous pouvez ajouter jusqu'à cinq pages par requête. Les pages peuvent être négatives.

La page 1 correspond à la première page. La page 2 correspond à la deuxième page. La page -1 correspond à la dernière page. La page -2 correspond à l'avant-dernière page.

Si le fichier est au format GIF, et non PDF ou TIFF, la page fait référence à des frames GIF.

Si ce champ est vide, le service annote les images des cinq premières pages du fichier par défaut.

AnnotateFileResponse

Réponse à une requête d'annotation sur un seul fichier. Un fichier peut contenir une ou plusieurs images, disposant chacune de leurs propres réponses.

Champs
input_config

InputConfig

Informations sur le fichier pour lequel la réponse est générée.

responses[]

AnnotateImageResponse

Réponses individuelles pour les images trouvées dans le fichier. Ce champ est vide si le champ error est défini.

total_pages

int32

Ce champ indique le nombre total de pages du fichier.

error

Status

Si ce champ est défini, il présente le message d'erreur de la requête ayant échoué. Dans ce cas, le champ responses n'est pas défini.

AnnotateImageRequest

Requête permettant d'effectuer des tâches de l'API Google Cloud Vision sur une image fournie par l'utilisateur, avec des fonctionnalités demandées par l'utilisateur et des informations contextuelles.

Champs
image

Image

Image à traiter.

features[]

Feature

Fonctionnalités demandées.

image_context

ImageContext

Contexte supplémentaire pouvant accompagner l'image.

AnnotateImageResponse

Réponse à une requête d'annotation d'images.

Champs
text_annotations[]

EntityAnnotation

Si ce champ est présent, la détection de texte (OCR) a bien été effectuée.

full_text_annotation

TextAnnotation

Si ce champ est présent, la détection de texte (OCR) ou de document (OCR) a bien été effectuée. Cette annotation fournit la hiérarchie structurelle du texte détecté par l'OCR.

error

Status

Si ce champ est défini, il présente le message d'erreur de l'opération. Notez que les annotations d'images préremplies sont assurément correctes, même lorsque error est défini.

context

ImageAnnotationContext

Si ce champ est présent, des informations contextuelles sont nécessaires pour comprendre d'où provient cette image.

BatchAnnotateFilesRequest

Liste des requêtes permettant d'annoter des fichiers à l'aide de l'API BatchAnnotateFiles.

Champs
requests[]

AnnotateFileRequest

Obligatoire. Liste des requêtes d'annotation de fichiers. À l'heure actuelle, nous n'acceptons qu'une seule requête AnnotateFileRequest dans la liste BatchAnnotateFilesRequest.

parent

string

Facultatif. Projet et emplacement cibles pour passer un appel.

Format : projects/{project-id}/locations/{location-id}.

Si aucun parent n'est spécifié, une région est automatiquement sélectionnée.

ID de zone géographique acceptés : us : États-Unis uniquement, asia : régions d'Asie de l'Est, comme le Japon et Taïwan, eu : Union européenne.

Exemple : projects/project-A/locations/eu

BatchAnnotateFilesResponse

Liste des résultats de l'annotation de fichiers.

Champs
responses[]

AnnotateFileResponse

Liste des résultats de l'annotation de fichiers, chacun d'eux correspondant à une requête AnnotateFileRequest de la liste BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Plusieurs requêtes d'annotation d'images asynchrones sont regroupées dans un seul appel de service.

Champs
requests[]

AnnotateImageRequest

Obligatoire. Requêtes d'annotation d'images individuelles du lot.

parent

string

Facultatif. Projet et emplacement cibles pour passer un appel.

Format : projects/{project-id}/locations/{location-id}.

Si aucun parent n'est spécifié, une région est automatiquement sélectionnée.

ID de zone géographique acceptés : us : États-Unis uniquement, asia : régions d'Asie de l'Est, comme le Japon et Taïwan, eu : Union européenne.

Exemple : projects/project-A/locations/eu

BatchAnnotateImagesResponse

Réponse à une requête d'annotation d'image par lot.

Champs
responses[]

AnnotateImageResponse

Réponses individuelles pour les requêtes d'annotation d'images du lot.

Bloquer

Élément logique sur la page.

Champs
property

TextProperty

Informations supplémentaires détectées pour le bloc.

bounding_box

BoundingPoly

Cadre de délimitation du bloc. Les sommets sont présentés dans l'ordre suivant : en haut à gauche, en haut à droite, en bas à droite et en bas à gauche. Lorsqu'une rotation du cadre de délimitation est détectée, elle est représentée autour de l'angle supérieur gauche en suivant l'ordre naturel de lecture du texte. Exemple :

  • Lorsque le texte est horizontal, il peut se présenter sous la forme suivante :
    0----1
    |    |
    3----2
  • Lors d'une rotation à 180 degrés autour de l'angle supérieur gauche, il se présente sous la forme suivante :
    2----3
    |    |
    1----0

L'ordre des sommets est toujours (0, 1, 2, 3).

paragraphs[]

Paragraph

Liste des paragraphes du bloc (s'il est de type texte).

block_type

BlockType

Type de bloc détecté (texte, image, etc.) pour le bloc.

confidence

float

Niveau de confiance des résultats de l'OCR dans le bloc. Plage [0, 1].

BlockType

Type de bloc (texte, image, etc.) tel qu'identifié par l'OCR.

Enums
UNKNOWN Type de bloc inconnu.
TEXT Bloc de texte standard.
TABLE Bloc de table.
PICTURE Bloc d'image.
RULER Zone de ligne horizontale/verticale.
BARCODE Bloc de code-barres.

BoundingPoly

Polygone de délimitation pour l'annotation d'image détectée.

Champs
vertices[]

Vertex

Sommets du polygone de délimitation.

normalized_vertices[]

NormalizedVertex

Sommets normalisés du polygone de sélection.

EntityAnnotation

Ensemble des caractéristiques d'entités détectées.

Champs
mid

string

ID d'entité opaque. Certains identifiants sont disponibles dans l'API Google Knowledge Graph Search.

locale

string

Code de langue des paramètres régionaux dans lequel la description textuelle de l'entité est exprimée.

description

string

Description textuelle de l'entité, exprimée dans sa langue locale.

score

float

Score global du résultat. Plage [0, 1].

confidence
(deprecated)

float

Obsolète. Utilisez plutôt score. Précision de la détection d'entités dans une image. Prenons l'exemple d'une image dans laquelle l'entité "Tour Eiffel" est détectée. Ce champ représente le niveau de confiance pour qu'une tour figure dans l'image de la requête. Plage [0, 1].

topicality

float

Pertinence du libellé ICA (Image Content Annotation) par rapport à l'image. Par exemple, la pertinence de l'entité "tour" est probablement plus élevée pour une image sur laquelle la "Tour Eiffel" a été détectée que pour une image contenant un imposant bâtiment à distance, même si la probabilité pour qu'une tour soit présente sur chaque image puisse être identique. Plage [0, 1].

bounding_poly

BoundingPoly

Zone de l'image à laquelle appartient cette entité. Champ non généré pour les fonctionnalités LABEL_DETECTION.

properties[]

Property

Certaines entités peuvent inclure des champs Property (nom/valeur) facultatifs fournis par l'utilisateur, tels qu'un score ou une chaîne qualifiant l'entité.

Fonctionnalité

Type de détection de l'API Google Cloud Vision à effectuer, et nombre maximal de résultats à renvoyer pour ce type. Vous pouvez définir plusieurs objets Feature dans la liste features.

Champs
type

Type

Type de fonctionnalité.

model

string

Modèle à utiliser pour la fonctionnalité. Valeurs acceptées : "builtin/stable" (valeur par défaut si non défini) et "builtin/latest". DOCUMENT_TEXT_DETECTION et TEXT_DETECTION sont également compatibles avec "builtin/weekly" pour la version expérimentale mise à jour chaque semaine.

Type

Type de fonctionnalité de l'API Google Cloud Vision à extraire.

Enums
TYPE_UNSPECIFIED Type de fonctionnalité non spécifié.
TEXT_DETECTION Exécute la détection de texte et la reconnaissance optique des caractères (OCR). La détection de texte est optimisée pour les zones de texte au sein d'une grande image. Si l'image est un document, utilisez plutôt DOCUMENT_TEXT_DETECTION.
DOCUMENT_TEXT_DETECTION Exécute l'OCR dans un document texte dense. Prioritaire lorsque DOCUMENT_TEXT_DETECTION et TEXT_DETECTION sont présents.

Image

Image client sur laquelle effectuer les tâches de l'API Google Cloud Vision.

Champs
content

bytes

Contenu de l'image représenté sous forme de flux d'octets. Remarque : comme pour tous les champs bytes, les protobuffers utilisent une représentation binaire pure, tandis que les représentations JSON sont encodées en base64.

Actuellement, ce champ n'est compatible qu'avec les requêtes BatchAnnotateImages.

ImageAnnotationContext

Si une image a été générée à partir d'un fichier (PDF, par exemple), ce message fournit des informations sur la source de cette image.

Champs
uri

string

URI du fichier permettant de générer l'image.

page_number

int32

Si le fichier est au format PDF ou TIFF, ce champ indique le numéro de page dans le fichier utilisé pour générer l'image.

ImageContext

Contexte de l'image et/ou paramètres spécifiques à une fonctionnalité.

Champs
language_hints[]

string

Liste des langues à utiliser pour TEXT_DETECTION. Dans la plupart des cas, une valeur vide donne de meilleurs résultats, car elle active la détection automatique de la langue. Pour les langues basées sur l'alphabet latin, le paramètre language_hints n'est pas nécessaire. Dans de rares cas, lorsque la langue du texte de l'image est connue, le réglage de ce paramètre aide à obtenir de meilleurs résultats (bien que cela nuise fortement au fonctionnement du service si sa valeur est erronée). La détection de texte renvoie une erreur si une ou plusieurs des langues spécifiées ne font pas partie des langues compatibles.

text_detection_params

TextDetectionParams

Paramètres de la détection de texte et de la détection de texte dans des documents.

InputConfig

Emplacement d'entrée et métadonnées souhaités.

Champs
content

bytes

Contenu de l'image représenté sous forme de flux d'octets. Remarque : comme pour tous les champs bytes, les protobuffers utilisent une représentation binaire pure, tandis que les représentations JSON sont encodées en base64.

Actuellement, ce champ n'est pas compatible avec les requêtes BatchAnnotateFiles

mime_type

string

Type de fichier. Actuellement, seuls les fichiers "application/pdf", "image/tiff" et "image/gif" sont acceptés. Les caractères génériques ne peuvent pas être utilisés.

NormalizedVertex

Un sommet représente un point 2D dans l'image. REMARQUE : les coordonnées des sommets normalisés sont comparées aux valeurs de l'image d'origine, et sont comprises entre 0 et 1.

Champs
x

float

Coordonnée X.

y

float

Coordonnée Y.

Page

Page détectée par l'OCR.

Champs
property

TextProperty

Informations supplémentaires détectées sur la page.

width

int32

Largeur de la page. Pour les PDF, l'unité est exprimée en points. Pour les images (y compris au format TIFF), l'unité est exprimée en pixels.

height

int32

Hauteur de la page. Pour les PDF, l'unité est exprimée en points. Pour les images (y compris au format TIFF), l'unité est exprimée en pixels.

blocks[]

Block

Liste de blocs de texte, d'images, etc. sur la page.

confidence

float

Niveau de confiance des résultats de l'OCR sur la page. Plage [0, 1].

Paragraph

Unité structurelle de texte représentant un certain nombre de mots dans un ordre particulier.

Champs
property

TextProperty

Informations supplémentaires détectées pour le paragraphe.

bounding_box

BoundingPoly

Cadre de délimitation du paragraphe. Les sommets sont présentés dans l'ordre suivant : en haut à gauche, en haut à droite, en bas à droite et en bas à gauche. Lorsqu'une rotation du cadre de délimitation est détectée, elle est représentée autour de l'angle supérieur gauche en suivant l'ordre naturel de lecture du texte. Par exemple : * lorsque le texte est horizontal, il peut se présenter sous la forme suivante : 0----1 | | 3----2 * lorsqu'il a été pivoté de 180 degrés autour de l'angle supérieur gauche, il se présente sous la forme suivante : 2----3 | | 1----0 et l'ordre des sommets sera toujours (0, 1, 2, 3).

words[]

Word

Liste de tous les mots du paragraphe.

confidence

float

Niveau de confiance des résultats de l'OCR pour le paragraphe. Plage [0, 1].

Propriété

Une propriété (Property) est constituée d'une paire nom/valeur fournie par l'utilisateur.

Champs
name

string

Nom de la propriété.

value

string

Valeur de la propriété.

uint64_value

uint64

Valeur des propriétés numériques.

Symbole

Représentation d'un seul symbole.

Champs
property

TextProperty

Informations supplémentaires détectées pour le symbole.

bounding_box

BoundingPoly

Cadre de délimitation du symbole. Les sommets sont présentés dans l'ordre suivant : en haut à gauche, en haut à droite, en bas à droite et en bas à gauche. Lorsqu'une rotation du cadre de délimitation est détectée, elle est représentée autour de l'angle supérieur gauche en suivant l'ordre naturel de lecture du texte. Par exemple : * lorsque le texte est horizontal, il peut se présenter sous la forme suivante : 0----1 | | 3----2 * lorsqu'il a été pivoté de 180 degrés autour de l'angle supérieur gauche, il se présente sous la forme suivante : 2----3 | | 1----0 et l'ordre des sommets sera toujours (0, 1, 2, 3).

text

string

Représentation actuelle du symbole en UTF-8.

confidence

float

Niveau de confiance des résultats de l'OCR pour le symbole. Plage [0, 1].

TextAnnotation

TextAnnotation contient une représentation structurée du texte extrait par l'OCR. La hiérarchie d'une structure de texte extraite par l'OCR se présente comme suit :

TextAnnotation -> Page -> Bloc -> Paragraphe -> Mot -> Symbole

Chaque composant structurel, à partir de la page, peut avoir des propriétés qui décrivent les langues détectées, les sauts, etc. Pour en savoir plus, consultez la définition du message TextAnnotation.TextProperty ci-dessous.

Champs
pages[]

Page

Liste des pages détectées par l'OCR.

text

string

Texte UTF-8 détecté sur les pages.

DetectedBreak

Début ou fin d'un composant structurel détecté.

Champs
type

BreakType

Type de saut détecté.

is_prefix

bool

La valeur est "true" si le saut est ajouté au début de l'élément.

BreakType

Énumération indiquant le type de saut détecté. Nouvelle ligne, espace, etc.

Enums
UNKNOWN Type de libellé de saut inconnu.
SPACE Espace standard.
SURE_SPACE Espace sûre (très large).
EOL_SURE_SPACE Saut de ligne.
HYPHEN Césure qui n'est pas présente dans le texte. Ce champ ne peut pas être utilisé avec SPACE, LEADER_SPACE ou LINE_BREAK.
LINE_BREAK Saut de ligne qui termine un paragraphe.

DetectedLanguage

Langue détectée d'un composant structurel.

Champs
language_code

string

Le code de langue BCP-47, tel que "en-US" ou "sr-Latn". Pour en savoir plus, consultez la page https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Niveau de confiance de la langue détectée. Plage [0, 1].

TextProperty

Informations supplémentaires détectées dans le composant structurel.

Champs
detected_languages[]

DetectedLanguage

Liste des langues détectées en toute confiance.

detected_break

DetectedBreak

Début ou fin d'un segment de texte détecté.

TextDetectionParams

Paramètres des détections de texte. Permet de contrôler les fonctionnalités TEXT_DETECTION et DOCUMENT_TEXT_DETECTION.

Champs
enable_text_detection_confidence_score

bool

Par défaut, l'API Cloud Vision n'inclut que le score de confiance pour le résultat DOCUMENT_TEXT_DETECTION. Définissez l'indicateur sur "true" pour inclure également le score de confiance pour TEXT_DETECTION.

advanced_ocr_options[]

string

Liste des options OCR avancées permettant d'affiner le comportement de l'OCR.

Vertex

Un sommet représente un point 2D dans l'image. REMARQUE : les coordonnées du sommet sont à la même échelle que l'image d'origine.

Champs
x

int32

Coordonnée X.

y

int32

Coordonnée Y.

Word

Représentation d'un mot.

Champs
property

TextProperty

Informations supplémentaires détectées pour le mot.

bounding_box

BoundingPoly

Cadre de délimitation du mot. Les sommets sont présentés dans l'ordre suivant : en haut à gauche, en haut à droite, en bas à droite et en bas à gauche. Lorsqu'une rotation du cadre de délimitation est détectée, elle est représentée autour de l'angle supérieur gauche en suivant l'ordre naturel de lecture du texte. Par exemple : * lorsque le texte est horizontal, il peut se présenter sous la forme suivante : 0----1 | | 3----2 * lorsqu'il a été pivoté de 180 degrés autour de l'angle supérieur gauche, il se présente sous la forme suivante : 2----3 | | 1----0 et l'ordre des sommets sera toujours (0, 1, 2, 3).

symbols[]

Symbol

Liste de symboles dans le mot. L'ordre des symboles suit l'ordre naturel de lecture.

confidence

float

Niveau de confiance des résultats de l'OCR pour le mot. Plage [0, 1].