Reconnaissance optique des caractères (OCR)
L'API Vision peut détecter et extraire du texte à partir d'images. Deux fonctionnalités d'annotation sont compatibles avec la reconnaissance optique des caractères :
TEXT_DETECTION
détecte et extrait le texte de toute image, par exemple, d'une photographie contenant un panneau indicateur. Le fichier JSON comprend la chaîne extraite complète, ainsi que les mots individuels et leurs cadres de sélection.DOCUMENT_TEXT_DETECTION
extrait également le texte d'une image, mais la réponse est optimisée pour les textes et les documents denses. Le JSON comprend des informations sur les pages, les blocs, les paragraphes, les mots et les blancs.Apprenez-en plus sur l'extraction d'écriture manuscrite et l'extraction de texte à partir de fichiers PDF ou TIFF à l'aide de la fonction
DOCUMENT_TEXT_DETECTION
.
Faites l'essai
Si vous débutez avec Google Cloud, créez un compte pour évaluer les performances de Cloud Vision dans des scénarios réels. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
Profiter d'un essai gratuit de Cloud VisionRequêtes de détection de texte
Configurer votre authentification et votre projet GCP
Détecter du texte dans une image locale
L'API Vision peut détecter des caractéristiques sur un fichier image local en envoyant le contenu de ce fichier sous la forme d'une chaîne encodée en base64 dans le corps de la requête.
API REST et ligne de commande
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- base64-encoded-image : représentation en base64 (chaîne ASCII) de vos données d'image binaires. Cette chaîne doit ressembler à la chaîne suivante :
/9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==
Méthode HTTP et URL :
POST https://vision.googleapis.com/v1/images:annotate
Corps JSON de la requête :
{ "requests": [ { "image": { "content": "base64-encoded-image" }, "features": [ { "type": "TEXT_DETECTION" } ] } ] }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
.Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
https://vision.googleapis.com/v1/images:annotate
PowerShell
.Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/images:annotate" | Select-Object -Expand Content
Si la requête aboutit, le serveur affiche un code d'état HTTP 200 OK
et la réponse au format JSON.
Une réponse TEXT_DETECTION
inclut l'expression détectée et son cadre de délimitation, ainsi que les mots individuels et leur cadre de délimitation.
C#
Avant d'essayer cet exemple, suivez les instructions de configuration pour C# dans le guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour plus d'informations, consultez la documentation de référence de l'API Cloud Vision en langage C#.
Go
Avant d'essayer cet exemple, suivez les instructions de configuration pour Go du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour plus d'informations, consultez la documentation de référence de l'API Cloud Vision en langage Go.
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Java.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Node.js.
PHP
Avant d'essayer cet exemple, suivez les instructions de configuration pour PHP du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage PHP.
Python
Avant d'essayer cet exemple, suivez les instructions de configuration pour Python du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Python.
Ruby
Avant d'essayer cet exemple, suivez les instructions de configuration pour Ruby du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Ruby.
Détecter du texte dans une image distante
Pour votre commodité, l APIAPI Vision peut exécuter la détection de caractéristiques directement sur un fichier image situé dans Google Cloud Storage ou sur le Web, sans qu'il soit nécessaire d'envoyer le contenu de ce fichier dans le corps de la requête.
API REST et ligne de commande
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- cloud-storage-image-uri : chemin d'accès à un fichier image valide dans un bucket Cloud Storage. Il faut au minimum disposer des droits en lecture sur le fichier.
Exemple :
gs://cloud-samples-data/vision/ocr/sign.jpg
Méthode HTTP et URL :
POST https://vision.googleapis.com/v1/images:annotate
Corps JSON de la requête :
{ "requests": [ { "image": { "source": { "imageUri": "cloud-storage-image-uri" } }, "features": [ { "type": "TEXT_DETECTION" } ] } ] }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
.Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
https://vision.googleapis.com/v1/images:annotate
PowerShell
.Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/images:annotate" | Select-Object -Expand Content
Si la requête aboutit, le serveur affiche un code d'état HTTP 200 OK
et la réponse au format JSON.
Une réponse TEXT_DETECTION
inclut l'expression détectée et son cadre de délimitation, ainsi que les mots individuels et leur cadre de délimitation.
C#
Avant d'essayer cet exemple, suivez les instructions de configuration pour C# dans le guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour plus d'informations, consultez la documentation de référence de l'API Cloud Vision en langage C#.
Go
Avant d'essayer cet exemple, suivez les instructions de configuration pour Go du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour plus d'informations, consultez la documentation de référence de l'API Cloud Vision en langage Go.
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Java.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Node.js.
PHP
Avant d'essayer cet exemple, suivez les instructions de configuration pour PHP du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage PHP.
Python
Avant d'essayer cet exemple, suivez les instructions de configuration pour Python du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Python.
Ruby
Avant d'essayer cet exemple, suivez les instructions de configuration pour Ruby du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Ruby.
gcloud
Pour effectuer une détection de texte, utilisez la commande gcloud ml vision detect-text
comme indiqué dans l'exemple suivant :
gcloud ml vision detect-text gs://cloud-samples-data/vision/ocr/sign.jpg
Spécifier la langue (facultatif)
Les deux types de requêtes OCR sont compatibles avec un ou plusieurs paramètreslanguageHints
qui spécifient la langue du texte de l'image.
Cependant, dans la plupart des cas, une valeur vide donne de meilleurs résultats, car elle active la détection automatique de la langue. Pour les langues basées sur l'alphabet latin, le paramètre languageHints
n'est pas nécessaire.
Dans de rares cas, lorsque la langue du texte de l'image est connue, le réglage de ce paramètre aide à obtenir de meilleurs résultats (bien que cela nuise fortement au fonctionnement du service si sa valeur est erronée). La détection de texte renvoie une erreur si une ou plusieurs des langues spécifiées ne font pas partie des langues compatibles.
Si vous choisissez de fournir un indicateur de langue, modifiez le corps de votre requête (fichier request.json
) pour fournir la chaîne de l'une des langues compatibles dans le champ imageContext.languageHints
, comme indiqué ci-dessous :
{ "requests": [ { "image": { "source": { "imageUri": "image-url" } }, "features": [ { "type": "DOCUMENT_TEXT_DETECTION" } ], "imageContext": { "languageHints": ["en-t-i0-handwrit"] } } ] }
Le format languageHint
respecte les consignes de mise en forme du code de langue BCP47.
Le format BCP47 spécifié est le suivant :
language
["-" script
] ["-" region
] *("-" variant
) *("-" extension
) ["-" privateuse
.
Par exemple, l'indicateur de langue "en
-t
-i0
-handwrit
" spécifie la langue anglaise (en
), transform extension singleton (t
), code de transformation du moteur de saisie (i0
) et écriture manuscrite
code de transformation (handwrit
).
Cela indique approximativement que la langue est "l'anglais transformé à partir de l'écriture manuscrite". Vous n'avez pas besoin de spécifier un code de script, car Latn
est implicite par le langage "en
".
Compatibilité multirégionale
Vous pouvez désormais spécifier le stockage de données et le traitement OCR au niveau du continent. Les régions actuellement compatibles sont les suivantes :
us
: pays des États-Unis uniquementeu
: Union européenne
Zones
Cloud Vision vous permet de contrôler où les ressources de votre projet sont stockées et traitées. Vous pouvez notamment configurer Cloud Vision pour stocker vos données et ne procéder à leur traitement que dans l'Union européenne.
Dans Cloud Vision, les ressources sont stockées et traitées par défaut dans un emplacement global. Le maintien de vos ressources dans un emplacement ou une région spécifique n'est donc pas garanti. Pour que Google ne stocke et traite vos données que dans l'Union européenne, vous devez sélectionner la région Union européenne. Vous et vos utilisateurs pouvez accéder aux données depuis n'importe quel emplacement.
Définir l'emplacement à l'aide de l'API
L'API Vision accepte un point de terminaison global d'API (vision.googleapis.com
), ainsi que deux points de terminaison régionaux : un point de terminaison en Union européenne (eu-vision.googleapis.com
) et un point de terminaison aux États-Unis (us-vision.googleapis.com
). Utilisez ces points de terminaison pour un traitement spécifique à la région. Par exemple, pour stocker et traiter vos données en Union européenne uniquement, utilisez l'URI eu-vision.googleapis.com
à la place de vision.googleapis.com
pour vos appels d'API REST :
https://eu-vision.googleapis.com/v1/images:annotate
https://eu-vision.googleapis.com/v1/images:asyncBatchAnnotate
https://eu-vision.googleapis.com/v1/files:annotate
https://eu-vision.googleapis.com/v1/files:asyncBatchAnnotate
Pour stocker et traiter vos données aux États-Unis uniquement, utilisez le point de terminaison américain (us-vision.googleapis.com
) avec les méthodes répertoriées ci-dessus.
Définir l'emplacement à l'aide des bibliothèques clientes
Par défaut, les bibliothèques clientes de l'API Vision accèdent au point de terminaison global de l'API (vision.googleapis.com
). Pour ne stocker et traiter vos données qu'en Union européenne, vous devez définir explicitement le point de terminaison (eu-vision.googleapis.com
). Les exemples de code ci-dessous indiquent comment configurer ce paramètre.
API REST et ligne de commande
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- cloud-storage-image-uri : chemin d'accès à un fichier image valide dans un bucket Cloud Storage. Il faut au minimum disposer des droits en lecture sur le fichier.
Exemple :
gs://cloud-samples-data/vision/ocr/sign.jpg
Méthode HTTP et URL :
POST https://eu-vision.googleapis.com/v1/images:annotate
Corps JSON de la requête :
{ "requests": [ { "image": { "source": { "imageUri": "cloud-storage-image-uri" } }, "features": [ { "type": "TEXT_DETECTION" } ] } ] }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
.Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
https://eu-vision.googleapis.com/v1/images:annotate
PowerShell
.Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://eu-vision.googleapis.com/v1/images:annotate" | Select-Object -Expand Content
Si la requête aboutit, le serveur affiche un code d'état HTTP 200 OK
et la réponse au format JSON.
Une réponse TEXT_DETECTION
inclut l'expression détectée et son cadre de délimitation, ainsi que les mots individuels et leur cadre de délimitation.
C#
Go
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java du guide de démarrage rapide de Vision à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Cloud Vision en langage Java.
Node.js
PHP
Python
Ruby
Essayer
Essayez la détection de texte et la détection de document texte. Vous pouvez utiliser l'image déjà spécifiée (gs://cloud-samples-data/vision/ocr/sign.jpg
) en cliquant sur Exécuter, ou spécifier votre propre image à la place.
Pour essayer la détection de texte de document, définissez la valeur type
sur DOCUMENT_TEXT_DETECTION
.