Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Liste des outils de traitement
Cette page contient des informations détaillées sur tous les processeurs proposés par Document AI. Vous pouvez afficher la liste de tous les processeurs par type de solution.
Enterprise Document OCR (reconnaissance optique des caractères dans les documents)
Description
Identifiez et extrayez du texte dans différents types de documents.
Ce processeur vous permet d'identifier et d'extraire le texte, y compris le texte manuscrit, des documents dans plus de 200 langues. Le processeur utilise également le machine learning pour évaluer la qualité d'un document en fonction de la lisibilité de son contenu.
L'utilisation de cette fonctionnalité n'est pas recommandée. Elle sera abandonnée aux États-Unis (États-Unis) et dans l'Union européenne (UE) à partir du 30 avril 2025.
pretrained-ocr-v1.1-2022-09-12
Stable
Aucun
Aucun
L'utilisation de cette fonctionnalité n'est pas recommandée. Elle sera abandonnée aux États-Unis (États-Unis) et dans l'Union européenne (UE) à partir du 30 avril 2025.
pretrained-ocr-v1.2-2022-11-10
Stable
Aucun
Aucun
Version de modèle figée de la version 1.0: fichiers de modèle, configurations et binaires d'un instantané de version figés dans une image de conteneur pendant un maximum de 18 mois.
pretrained-ocr-v2.0-2023-06-02
Stable
Aucun
Aucun
Modèle prêt à la production spécialisé pour les cas d'utilisation des documents. Inclut l'accès à tous les modules complémentaires OCR.
pretrained-ocr-v2.1-2024-08-07
Version candidate
Aucun
Aucun
Les principaux axes d'amélioration de la version 2.1 sont les suivants: une meilleure reconnaissance du texte imprimé, une détection plus précise des cases à cocher et un ordre de lecture plus précis.
Consultez la section Exemples d'ensembles de données pour obtenir des exemples d'ensembles de données étiquetés et non étiquetés à utiliser pour l'entraînement.
Extracteur personnalisé
Description
Extrayez des champs de documents à l'aide de l'IA générative ou de modèles personnalisés. Ajustez les modèles pour extraire précisément les données de vos documents.
Si vous utilisez l'IA générative pour l'extraction:
Seule l'anglais est officiellement pris en charge.
La disponibilité par région est indiquée dans les US, EU, northamerica-northeast1 et asia-southeast1.
Langues acceptées
Liste complète des langues
Langue
Balise BCP 47
Script
Compatible avec l'écriture manuscrite
Afrikaans
af
Latn
Arabe
ar
Arab
Azéri
az
Latn
Azéri (cyrillique)
az-Cyrl
Cyrl
Biélorusse
be
Cyrl
Bulgare
bg
Cyrl
Bosniaque
bs
Latn
Catalan
ca
Latn
Cebuano
ceb
Latn
Tchèque
cs
Latn
Gallois
cy
Latn
Danois
da
Latn
Allemand
de
Latn
Grec
el
Grek
Anglais
en
Latn
Espéranto
eo
Latn
Espagnol
es
Latn
Estonien
et
Latn
Basque
eu
Latn
Persan
fa
Arab
Finnois
fi
Latn
Philippin
fil
Latn
Français
fr
Latn
Irlandais
ga
Latn
Galicien
gl
Latn
Hindi
hi
Deva
Croate
hr
Latn
Créole haïtien
ht
Latn
Hongrois
hu
Latn
Indonésien
id
Latn
Islandais
is
Latn
Italien
it
Latn
Hébreu
iw
Hebr
Japonais
ja
Jpan
Javanais
jv
Latn
Kazakh
kk
Cyrl
Coréen
ko
Kore
Kirghyz
ky
Cyrl
Latin
la
Latn
Lituanien
lt
Latn
Letton
lv
Latn
Macédonien
mk
Cyrl
Mongol
mn
Cyrl
Marathi
mr
Deva
Malaisien
ms
Latn
Maltais
mt
Latn
Népalais
ne
Deva
Néerlandais
nl
Latn
Norvégien
no
Latn
Polonais
pl
Latn
Pachtô
ps
Arab
Portugais (Portugal et Brésil)
pt
Latn
Roumain
ro
Latn
Russe
ru
Cyrl
Russe (orthographe pétrine)
ru-PETR1708
Cyrl
Sanskrit
sa
Deva
Slovaque
sk
Latn
Slovène
sl
Latn
Albanais
sq
Latn
Serbe
sr
Cyrl
Suédois
sv
Latn
Swahili
sw
Latn
Tagalog
tl
Latn
Turc
tr
Latn
Ukrainien
uk
Cyrl
Urdu
ur
Arab
Ouzbek
uz
Latn
Ouzbek (cyrillique)
uz-Cyrl
Cyrl
Vietnamien
vi
Latn
Yiddish
yi
Hebr
Chinois simplifié
zh-Hans
Hani
Chinois traditionnel
zh-Hant
Hani
Zoulou
zu
Latn
Versions du processeur
ID de version
Version disponible
Champs supplémentaires détectés
Langues supplémentaires compatibles
Description
pretrained-foundation-model-v1.0-2023-08-22
Stable
Aucun
Aucun
Candidat prêt à la production spécialisé pour les cas d'utilisation des documents, basé sur des modèles de vision et des modèles de base spécialisés.
pretrained-foundation-model-v1.1-2024-03-12
Version candidate
Aucun
Aucun
Version candidate basée sur le LLM Gemini 1.0 Pro et sur de nouvelles technologies, y compris des modèles de langage et de vision spécialisés. Inclut également des fonctionnalités avancées d'OCR, comme la détection de cases à cocher.
pretrained-foundation-model-v1.2-2024-05-10
Stable
Aucun
Aucun
Version candidate prête à la production basée sur le LLM Gemini 1.5 Pro et sur de nouvelles technologies, y compris des modèles de langage et de vision spécialisés. Inclut également des fonctionnalités avancées d'OCR, comme la détection de cases à cocher. Recommandé pour les utilisateurs qui souhaitent utiliser les limites de jetons les plus élevées ou tester de nouveaux modèles.
pretrained-foundation-model-v1.3-2024-08-31
Stable
Aucun
Aucun
Version candidate prête pour la production, basée sur le LLM Gemini 1.5 Flash. Inclut également des fonctionnalités avancées d'OCR, comme la détection de cases à cocher. Recommandé pour ceux qui souhaitent obtenir la latence la plus faible possible.
Extrayez des paires clé-valeur générales (entité et case à cocher), des tables et des entités génériques des documents en plus du texte OCR.
Ce processeur applique des technologies de machine learning avancées pour extraire des paires clé-valeur, des cases à cocher et des tableaux à partir de documents dans plus de 200 langues. Ce processeur s'appuie également sur des modèles de deep learning pour extraire 11 entités génériques communes à différents types de documents.
Ancienne version. Pour une qualité optimale et un ensemble de fonctionnalités complet, utilisez l'analyseur de formulaires 2.0.
pretrained-form-parser-v2.0-2022-11-10
Stable
Afficher les champs
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Aucun
Version recommandée. Compatible avec les entités génériques, inclut un modèle de tableau, de KVP et de case à cocher mis à niveau, ainsi que plus de 200 langues.
pretrained-form-parser-v2.1-2023-06-26
Version candidate
Aucun
Aucun
Version Preview publique. Même modèle que la version 2.0, avec l'extraction de texte natif à partir de fichiers PDF numériques activée.
Extraction d'éléments de contenu de documents (texte, tableaux et listes) et création de segments contextuels.
L'analyseur de mise en page extrait des éléments de contenu de documents tels que du texte, des tableaux et des listes, et crée des segments contextuels qui facilitent la récupération d'informations dans les applications d'IA générative et de découverte.
Catégorie
Extraction
Fonctions
Analyse de la mise en page, fragmentation de documents
Si une page d'un fichier d'entrée multipage correspond au type de document et à l'une des versions acceptées, le processeur effectue l'extraction d'entités sur le premier document compatible. Si le processeur ne trouve aucun document applicable dans le fichier d'entrée, il renvoie un message d'erreur.
Langues acceptées
Langue
Balise BCP 47
Script
Compatible avec l'écriture manuscrite
Anglais
en
Latn
Versions du processeur
ID de version
Version disponible
Champs supplémentaires détectés
Langues supplémentaires compatibles
Description
pretrained-bankstatement-v1.0-2021-08-08
Stable
Aucun
Aucun
pretrained-bankstatement-v1.1-2021-08-13
Stable
Aucun
Aucun
pretrained-bankstatement-v2.0-2021-12-10
Stable
Aucun
Aucun
pretrained-bankstatement-v3.0-2022-05-16
Stable
Aucun
Aucun
Cette version suppose que le fichier d'entrée ne contient qu'un seul relevé bancaire. Contrairement à la version par défaut, cette version ne vérifie pas la présence de relevés bancaires dans le fichier d'entrée et ne renvoie aucune erreur si aucun relevé bancaire n'est trouvé.
Si une page d'un fichier d'entrée multipage correspond au type de document et à l'une des versions acceptées, le processeur effectue l'extraction d'entités sur le premier document compatible. Si le processeur ne trouve aucun document applicable dans le fichier d'entrée, il renvoie un message d'erreur.
Langues acceptées
Langue
Balise BCP 47
Script
Compatible avec l'écriture manuscrite
Anglais
en
Latn
Formulaire/Versions compatibles
2020 (versions standard et personnalisées)
2019 (versions standards et personnalisées)
2018 (versions standard et personnalisées)
Versions du processeur
ID de version
Version disponible
Champs supplémentaires détectés
Langues supplémentaires compatibles
Description
pretrained-w2-v1.0-2020-10-01
Stable
Aucun
Aucun
pretrained-w2-v1.1-2022-01-27
Stable
Aucun
Aucun
pretrained-w2-v1.2-2022-01-28
Stable
Afficher les champs
AllocatedTips
ControlNumber
DependentCareBenefits
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
EmployerStateIdNumber_Line1
FederalIncomeTaxWithheld
FormYear
LocalIncomeTax_Line1
LocalityName_Line1
LocalWagesTipsEtc_Line1
MedicareTaxWithheld
MedicareWagesAndTips
NonqualifiedPlans
SocialSecurityTaxWithheld
SocialSecurityTips
SocialSecurityWages
SSN
State_Line1
StateIncomeTax_Line1
StateWagesTipsEtc_Line1
WagesTipsOtherCompensation
Aucun
Améliorations de la qualité et prise en charge de nouveaux champs. Ne comprend pas le séparateur.
Améliorations de la qualité et prise en charge des champs de la zone 12 et des prédictions précises de EmployeeName, EmployeeAddress et EmployerNameAndAddress, qui ne font plus partie de la sortie et sont remplacés par des champs supplémentaires.
Semblable à la version pretrained-w2-v2.0-2022-03-30, avec des améliorations de qualité supplémentaires et l'introduction d'une autre entité EmployeeName_Suffix.
Prédisez la validité des pièces d'identité en fonction de plusieurs signaux.
Le processeur de validation des pièces d'identité est conçu pour aider à prédire la validité des pièces d'identité à l'aide de quatre signaux différents.
Le processeur renvoie actuellement des informations à partir des signaux suivants:
Détection fraud_signals_is_identity_document: prédit si une image contient une pièce d'identité reconnue.
Détection de fraud_signals_suspicious_words: prédit si des mots inhabituels sont présents dans les ID.
Détection de fraud_signals_image_manipulation: prédit si l'image a été modifiée ou altérée à l'aide d'un outil de retouche d'image.
Détection fraud_signals_online_duplicate: prédit si l'image peut être trouvée en ligne (États-Unis uniquement).
La fonctionnalité de détection des doublons en ligne est actuellement traitée dans les centres de données situés aux États-Unis. La compatibilité régionale et multirégionale n'est pas disponible pour cette fonctionnalité en dehors des États-Unis.
Ce processeur est compatible avec des algorithmes mis à jour plus fréquemment que les nouvelles versions de processeur. C'est pourquoi le processeur peut renvoyer des sorties différentes au fil du temps, même si vous utilisez la même version de processeur. Par exemple, le système de détection des doublons en ligne surveille les images présentes sur le Web. Le comportement du système peut alors changer plus rapidement que ce qui peut être suivi dans les versions de processeur.
Consultez les notes sur l'IA responsable[†] et l'examen humain[‡].
Langues acceptées
Langue
Balise BCP 47
Script
Compatible avec l'écriture manuscrite
Anglais
en
Latn
Formulaire/Versions compatibles
Prise en charge des passeports, cartes et permis de conduire américains.
Si le document d'entrée multipage contient plusieurs fiches de paie valides, le processeur n'extrait des entités que de la première fiche de paie valide. Si aucun bulletin de paie n'est trouvé dans le fichier d'entrée, le processeur renvoie un message d'erreur.
Langues acceptées
Langue
Balise BCP 47
Script
Compatible avec l'écriture manuscrite
Anglais
en
Latn
Versions du processeur
ID de version
Version disponible
Champs supplémentaires détectés
Langues supplémentaires compatibles
Description
pretrained-paystub-v1.0-2021-03-19
Stable
Aucun
Aucun
pretrained-paystub-v1.1-2021-08-13
Stable
Afficher les champs
net_pay
net_pay_ytd
employee_account_number
Aucun
Amélioration de la qualité et prise en charge de nouveaux champs
pretrained-paystub-v1.2-2021-12-10
Stable
Aucun
Aucun
pretrained-paystub-v2.0-2022-05-17
Version candidate
Afficher les champs
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
Aucun
Cette version suppose que le fichier d'entrée ne contient qu'un seul bulletin de paie. Contrairement à la version par défaut, cette version ne vérifie pas la présence de bulletins de paie dans le fichier d'entrée et ne renvoie aucune erreur si aucun bulletin de paie n'est trouvé.
Amélioration de la qualité, prise en charge de nouveaux champs et nouveau schéma Les bonus, les commissions, les jours fériés, les heures supplémentaires, le salaire régulier et les vacances font désormais partie de earning_item/earning_this_period, et leurs versions cumulées depuis le début de l'année se trouvent dans earning_item/earning_ytd. Le virement direct et le numéro de compte de l'employé sont désormais imbriqués sous "direct_deposit_item".
Lancé en avril 2021. Son abandon est prévu prochainement.
pretrained-expense-v1.2-2022-02-18
Stable
Aucun
Aucun
pretrained-expense-v1.3-2022-07-15
Stable
Afficher les champs
credit_card_last_four_digits
line_item/quantity
payment_type
ja : Japonais
Prise en charge des folios d'hôtel et de location de voiture.
pretrained-expense-v1.3.2-2024-09-11
Version candidate
Afficher les champs
credit_card_last_four_digits
line_item/quantity
payment_type
ja : Japonais
Mise à niveau vers la version 1.3 avec un modèle de vision sous-jacent amélioré.
pretrained-expense-v1.4-2022-11-18
Version candidate
Afficher les champs
traveler_name
reservation_id
line_item/transaction_date
ja : Japonais
it: italien
pt: portugais (Portugal et Brésil)
Amélioration des performances et prise en charge de l'entraînement avancé. La limite maximale de pages (requêtes en ligne/synchrones) a été portée à 15.
pretrained-expense-v1.4.2-2024-09-12
Version candidate
Afficher les champs
traveler_name
reservation_id
line_item/transaction_date
ja : Japonais
it: italien
pt: portugais (Portugal et Brésil)
Mise à niveau vers la version 1.4 avec un modèle de vision sous-jacent amélioré.
Extrayez le texte et les valeurs des factures, comme le numéro de facture, le nom du fournisseur, le montant facturé, le montant des taxes, la date de facturation et la date d'échéance.
L'analyseur de factures extrait les champs d'en-tête et de ligne, tels que le numéro de facture, le nom du fournisseur, le montant de la facture, le montant des taxes, la date de facturation, la date d'échéance et les montants des lignes.
[*] Ce processeur est réservé aux clients disposant d'un accès limité.
Pour demander l'accès à l'API, remplissez et envoyez le formulaire de demande client pour l'accès limité à Document AI.
Ce formulaire demande des informations sur vous, votre entreprise et votre cas d'utilisation.
Notez qu'un ID de projet Google Cloud est nécessaire pour obtenir l'accès.
Pour créer un projet Google Cloud ou identifier l'identifiant de votre projet existant, consultez les instructions suivantes.
Une fois le formulaire envoyé, l'équipe Document AI examinera votre demande pour s'assurer que vous répondez aux critères d'accès.
Si la demande est approuvée, vous recevrez un e-mail expliquant comment accéder à cette fonctionnalité et l'utiliser.
[†] La validation de documents d'identité consiste à extraire et à évaluer les informations des documents d'identité qui permettent de déterminer si l'image d'entrée représente une pièce d'identité authentique.
Chez Google Cloud, nous aidons les clients à développer et à mettre en œuvre des solutions d'IA en toute sécurité. La validation de l'identité a été développée conformément aux principes d'IA de Google.
Compte tenu des principes d'IA de Google et de la conception actuelle du produit, nous vous recommandons vivement de faire preuve de prudence et d'évaluer attentivement les avantages et les risques potentiels de l'utilisation de la validation des pièces d'identité pour les cas suivants:
Prise de décision sans intervention humaine pour des prédictions pouvant avoir un impact sur les droits de l'homme
Dans des domaines sensibles, y compris, mais sans s'y limiter, l'emploi, l'accès aux services publics, les soins de santé et les contextes critiques en termes de sécurité.
[‡] Utilisez toujours la preuve d'identité dans le cadre de votre processus et de votre workflow de détection d'identité plus larges.
Il est important d'inclure un examinateur humain dans votre workflow pour vérifier si les signaux prédits sont exacts. L'outil de traitement de l'authentification de l'identité n'est pas destiné à remplacer l'examen manuel des pièces d'identité dans un workflow, mais plutôt à aider les examinateurs humains à valider les pièces d'identité. Le processeur d'authentification de l'identité ne doit pas être utilisé comme outil de prise de décision automatisée pour déterminer si une pièce d'identité est valide. Grâce à l'examen manuel, les clients peuvent améliorer la précision du traitement des documents et aider les entreprises à évaluer les prédictions à l'aide d'outils conçus spécifiquement pour ces examens.
Assurez-vous de consulter la réglementation en vigueur dans la région où vous implémentez cette technologie, et recherchez les consignes du secteur pour connaître les règles applicables et les problèmes d'équité courants. Découvrez l'équité dans le machine learning, y compris comment limiter les biais dans les ensembles de données d'entraînement, évaluer les disparités de performances dans vos modèles personnalisés et d'autres considérations à prendre en compte lorsque vous utilisez votre modèle personnalisé.
Nous encourageons les clients à garder à l'esprit les principes d'équité, d'interprétabilité, ainsi que les bonnes pratiques en matière de confidentialité et de sécurité lorsqu'ils implémentent la validation de l'identité. Pour en savoir plus sur l'implémentation de l'IA responsable, consultez les recommandations de Google concernant les pratiques d'IA responsable.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/01/29 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/01/29 (UTC)."],[],[]]