En savoir plus sur les fonctionnalités de reconnaissance de caractères
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
La reconnaissance optique des caractères (OCR) est l'une des trois API Vertex AI pré-entraînées sur Google Distributed Cloud (GDC) air-gapped. Le service OCR détecte le texte dans différents types de fichiers, tels que les images, les fichiers de documents et le texte manuscrit.
L'OCR propose les méthodes suivantes disponibles dans Distributed Cloud pour reconnaître le texte :
Détectez du texte à partir d'un lot de fichiers PDF ou TIFF dans un bucket de stockage pour les requêtes hors connexion.
En savoir plus sur les langues acceptées par la fonctionnalité de reconnaissance de texte
Fonctionnalités de reconnaissance optique des caractères
L'API OCR peut détecter et extraire du texte à partir d'images. Les deux fonctionnalités d'annotation suivantes sont compatibles avec la reconnaissance optique des caractères :
TEXT_DETECTION détecte et extrait le texte de toute image. par exemple, d'une photographie contenant un panneau indicateur. Le service OCR renvoie un fichier JSON contenant la chaîne extraite, les mots individuels et leurs cadres de délimitation.
Figure 1 : Photo d'un panneau de signalisation sur laquelle l'API OCR détecte des mots et leurs cadres de délimitation.
DOCUMENT_TEXT_DETECTION extrait également le texte d'une image, mais le service optimise la réponse pour les textes et les documents denses. Par exemple, une image numérisée de texte dactylographié peut contenir plusieurs paragraphes et titres. Le service OCR renvoie un fichier JSON contenant des informations sur les pages, les blocs, les paragraphes, les mots et les retours à la ligne.
Figure 2. Image numérisée de texte dactylographié dans laquelle l'API OCR détecte des informations telles que des mots, des pages et des paragraphes.
Texte manuscrit
La figure 3 est une image de texte manuscrit. L'API OCR détecte et extrait le texte de ces images. Pour obtenir la liste des scripts d'écriture manuscrite compatibles avec la reconnaissance de l'écriture manuscrite, consultez Scripts d'écriture manuscrite.
Figure 3. Image d'écriture manuscrite dans laquelle l'API OCR détecte du texte.
Limites de la reconnaissance optique des caractères
Les méthodes d'API BatchAnnotateImages et BatchAnnotateFiles n'acceptent qu'une seule requête par appel par lot.
Le tableau suivant répertorie les limites actuelles du service OCR dans Distributed Cloud.
Limite de fichiers pour l'OCR
Valeur
Nombre maximal de pages
Cinq
Taille maximale du fichier
20 Mo
Taille maximale de l'image
20 millions de pixels (longueur x largeur)
Les fichiers envoyés pour l'API OCR qui dépassent le nombre maximal de pages ou la taille maximale des fichiers renvoient une erreur. Les fichiers envoyés qui dépassent la taille maximale d'image sont redimensionnés à 20 millions de pixels.
Types de fichiers acceptés pour l'OCR
L'API pré-entraînée OCR détecte et transcrit le texte des types de fichiers suivants :
PDF
TIFF
JPG
PNG
Vous devez stocker les fichiers localement dans votre environnement Distributed Cloud. Vous ne pouvez pas accéder aux fichiers hébergés dans Cloud Storage ni aux fichiers publics pour la détection de texte.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eOptical Character Recognition (OCR) is a pre-trained Vertex AI API on Google Distributed Cloud (GDC) air-gapped that can detect text in images, document files, and handwritten text.\u003c/p\u003e\n"],["\u003cp\u003eThe OCR service offers three methods: \u003ccode\u003eBatchAnnotateImages\u003c/code\u003e for detecting text from JPEG or PNG images, \u003ccode\u003eBatchAnnotateFiles\u003c/code\u003e for PDF or TIFF files in inline requests, and \u003ccode\u003eAsyncBatchAnnotateFiles\u003c/code\u003e for offline text detection from PDF or TIFF files in storage buckets.\u003c/p\u003e\n"],["\u003cp\u003eThe OCR API supports two main features: \u003ccode\u003eTEXT_DETECTION\u003c/code\u003e to extract text from any image and \u003ccode\u003eDOCUMENT_TEXT_DETECTION\u003c/code\u003e optimized for dense text and documents.\u003c/p\u003e\n"],["\u003cp\u003eThe OCR API also supports handwritten text detection and extraction, with specific supported handwriting scripts available for recognition.\u003c/p\u003e\n"],["\u003cp\u003eOCR has limitations such as a maximum of five pages, a 20 MB file size limit, and a maximum image size of 20 million pixels, and it supports file types like PDF, TIFF, JPG, and PNG, stored locally in the Distributed Cloud environment.\u003c/p\u003e\n"]]],[],null,["# Learn about character recognition features\n\nOptical Character Recognition (OCR) is one of the three Vertex AI\npre-trained APIs on Google Distributed Cloud (GDC) air-gapped. The OCR\nservice detects text in [various file types](#supported-file-types), such as\nimages, document files, and handwritten text.\n\nOCR offers the following methods available in\nDistributed Cloud to recognize text:\n\n| **Note:** The `BatchAnnotateImages` and `BatchAnnotateFiles` API methods only support a single request per batch call.\n\nLearn more about the [supported languages](/distributed-cloud/hosted/docs/latest/gdch/application/ao-user/vertex-ai-ocr-supported-langs)\ndetected by the text recognition feature.\n\nOptical character recognition features\n--------------------------------------\n\nThe OCR API can detect and extract text from images. The\nfollowing two annotation features support optical character recognition:\n\n- `TEXT_DETECTION` detects and extracts text from any image. For example, a\n photograph might contain a street or traffic sign. The OCR\n service returns a JSON file with the extracted string, individual words, and\n their bounding boxes.\n\n **Figure 1.** Road sign photograph where the OCR API detects\n words and their bounding boxes.\n- `DOCUMENT_TEXT_DETECTION` also extracts text from an image, but the service\n optimizes the response for dense text and documents. For example, a scanned\n image of typed text might contain several paragraphs and headings. The\n OCR service returns a JSON file with page, block, paragraph,\n word, and break information.\n\n **Figure 2.** Scanned image of typed text where the OCR API detects information such as words, pages, and paragraphs.\n\nHandwritten text\n----------------\n\nFigure 3 is an image of handwritten text. The OCR API detects and\nextracts text from these images. For a list of handwriting scripts that\nsupport handwriting recognition, see\n[Handwriting scripts](/distributed-cloud/hosted/docs/latest/gdch/application/ao-user/vertex-ai-ocr-supported-langs#handwriting-scripts).\n\n**Figure 3.** Handwriting image where the OCR API detects text.\n\nOptical character recognition limits\n------------------------------------\n\nThe `BatchAnnotateImages` and `BatchAnnotateFiles` API methods only support a\nsingle request per batch call.\n\nThe following table lists the current limits of the OCR service\nin Distributed Cloud.\n\nSubmitted files for the OCR API that exceed the maximum number of\npages or the maximum file size return an error. Submitted files that exceed the\nmaximum image size are downsized to 20 million pixels.\n\nSupported file types for OCR\n----------------------------\n\nThe OCR pre-trained API detects and transcribes\ntext from the following file types:\n\n- PDF\n- TIFF\n- JPG\n- PNG\n\nYou must store the files locally in your Distributed Cloud environment. You\ncan't access files hosted in Cloud Storage or publicly available files for\ntext detection."]]