Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Elenco dei processori
Questa pagina contiene informazioni dettagliate su tutti i processori offerti da Document AI. Puoi visualizzare un elenco di tutti i processori per tipo di soluzione.
OCR (riconoscimento ottico dei caratteri) dei documenti aziendali
Descrizione
Identifica ed estrai il testo in diversi tipi di documenti.
Questo processore ti consente di identificare ed estrarre testo, incluso quello scritto a mano, dai documenti in più di 200 lingue. Il responsabile del trattamento utilizza anche il machine learning per eseguire una valutazione della qualità di un documento in base alla leggibilità dei suoi contenuti.
Non è consigliato per l'uso e non sarà più disponibile negli Stati Uniti (US) e nell'Unione Europea (UE) a partire dal 30 aprile 2025.
pretrained-ocr-v1.1-2022-09-12
Stabile
Nessuno
Nessuno
Non è consigliato per l'uso e non sarà più disponibile negli Stati Uniti (US) e nell'Unione Europea (UE) a partire dal 30 aprile 2025.
pretrained-ocr-v1.2-2022-11-10
Stabile
Nessuno
Nessuno
Versione del modello bloccata della versione 1.0: file del modello, configurazioni e file binari di un'istantanea della versione bloccati in un'immagine container per un massimo di 18 mesi.
pretrained-ocr-v2.0-2023-06-02
Stabile
Nessuno
Nessuno
Modello pronto per la produzione specializzato per i casi d'uso dei documenti. Include l'accesso a tutti i componenti aggiuntivi OCR.
pretrained-ocr-v2.1-2024-08-07
Candidato per la release
Nessuno
Nessuno
Le principali aree di miglioramento della versione 2.1 sono: un migliore riconoscimento del testo stampato, un rilevamento più preciso delle caselle di controllo e un ordine di lettura più accurato.
Consulta la sezione Set di dati di esempio per trovare set di dati etichettati e non etichettati di esempio da utilizzare per l'addestramento.
Estrattore personalizzato
Descrizione
Estrai i campi dai documenti utilizzando l'AI generativa o i modelli personalizzati; ottimizza i modelli per estrarre con precisione i dati dai documenti.
È supportata ufficialmente solo la lingua inglese.
La disponibilità per regione è nelle regioni US, EU, northamerica-northeast1 e asia-southeast1.
Lingue supportate
Elenco completo delle lingue
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Afrikaans
af
Latn
Arabo
ar
Arab
Azero
az
Latn
Azero (cirillico)
az-Cyrl
Cyrl
Bielorusso
be
Cyrl
Bulgaro
bg
Cyrl
Bosniaco
bs
Latn
Catalano
ca
Latn
Cebuano
ceb
Latn
Ceco
cs
Latn
Gallese
cy
Latn
Danese
da
Latn
Tedesco
de
Latn
Greco
el
Grek
Inglese
en
Latn
Esperanto
eo
Latn
Spagnolo
es
Latn
Estone
et
Latn
Basco
eu
Latn
Persiano
fa
Arab
Finlandese
fi
Latn
Filippino
fil
Latn
Francese
fr
Latn
Irlandese
ga
Latn
Galiziano
gl
Latn
Hindi
hi
Deva
Croato
hr
Latn
Creolo haitiano
ht
Latn
Ungherese
hu
Latn
Indonesiano
id
Latn
Islandese
is
Latn
Italiano
it
Latn
Ebraico
iw
Hebr
Giapponese
ja
Jpan
Giavanese
jv
Latn
Kazako
kk
Cyrl
Coreano
ko
Kore
Kirgizo
ky
Cyrl
Latino
la
Latn
Lituano
lt
Latn
Lettone
lv
Latn
Macedone
mk
Cyrl
Mongolo
mn
Cyrl
Marathi
mr
Deva
Malese
ms
Latn
Maltese
mt
Latn
Nepalese
ne
Deva
Olandese
nl
Latn
Norvegese
no
Latn
Polacco
pl
Latn
Pashto
ps
Arab
Portoghese (Portogallo e Brasile)
pt
Latn
Rumeno
ro
Latn
Russo
ru
Cyrl
Russo (ortografia petrina)
ru-PETR1708
Cyrl
Sanscrito
sa
Deva
Slovacco
sk
Latn
Sloveno
sl
Latn
Albanese
sq
Latn
Serbo
sr
Cyrl
Svedese
sv
Latn
Swahili
sw
Latn
Tagalog
tl
Latn
Turco
tr
Latn
Ucraino
uk
Cyrl
Urdu
ur
Arab
Uzbeco
uz
Latn
Uzbeko (cirillico)
uz-Cyrl
Cyrl
Vietnamita
vi
Latn
Yiddish
yi
Hebr
Cinese semplificato
zh-Hans
Hani
Cinese tradizionale
zh-Hant
Hani
Zulu
zu
Latn
Versioni del processore
ID versione
Canale di rilascio
Campi aggiuntivi rilevati
Altre lingue supportate
Descrizione
pretrained-foundation-model-v1.0-2023-08-22
Stabile
Nessuno
Nessuno
Candidato pronto per la produzione specializzato per casi d'uso relativi ai documenti basati su modelli di visione e modelli di base specializzati.
pretrained-foundation-model-v1.1-2024-03-12
Candidato per la release
Nessuno
Nessuno
Release candidate basata su LLM Gemini 1.0 Pro e tecnologie di nuova concezione, inclusi modelli linguistici e di visione specializzati. Sono incluse anche funzionalità OCR avanzate come il rilevamento delle caselle di controllo.
pretrained-foundation-model-v1.2-2024-05-10
Stabile
Nessuno
Nessuno
Candidato pronto per la produzione basato su Gemini 1.5 Pro LLM e tecnologie di nuova concezione, inclusi modelli di lingua e visione specializzati. Sono incluse anche funzionalità OCR avanzate come il rilevamento delle caselle di controllo. Consigliato per gli utenti che vogliono utilizzare i limiti di token più elevati supportati o fare esperimenti con modelli più recenti.
pretrained-foundation-model-v1.3-2024-08-31
Stabile
Nessuno
Nessuno
Candidato pronto per la produzione basato sull'LLM Gemini 1.5 Flash. Sono incluse anche funzionalità OCR avanzate come il rilevamento delle caselle di controllo. Consigliato per chi vuole la latenza più bassa.
Estrai coppie chiave/valore generali (entità e casella di controllo), tabelle ed entità generiche dai documenti, oltre al testo OCR.
Questo processore applica tecnologie di machine learning avanzate per estrarre coppie chiave-valore, caselle di controllo e tabelle da documenti in più di 200 lingue. Questo processore sfrutta anche i modelli di deep learning per estrarre 11 entità generiche comuni in vari tipi di documenti.
Versione precedente. Per la massima qualità e un set completo di funzionalità, utilizza la versione 2.0 di Form Parser.
pretrained-form-parser-v2.0-2022-11-10
Stabile
Mostra campi
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Nessuno
Versione consigliata. Supporta entità generiche e include il modello di tabella, KVP e casella di controllo di cui è stato eseguito l'upgrade, nonché più di 200 lingue.
pretrained-form-parser-v2.1-2023-06-26
Candidato per la release
Nessuno
Nessuno
Versione Anteprima pubblica. Stesso modello della versione 2.0 con estrazione di testo nativa dai file PDF digitali abilitata.
Estrae elementi dei contenuti dei documenti (testo, tabelle ed elenchi) e crea blocchi sensibili al contesto.
Lo strumento di analisi del layout estrae elementi dei contenuti dei documenti come testo, tabelle ed elenchi e crea blocchi sensibili al contesto che facilitano il recupero di informazioni nell'AI generativa e nelle applicazioni di rilevamento.
Se una pagina di un file di input di più pagine è del tipo di documento corretto e di una delle versioni supportate, l'elaboratore esegue l'estrazione delle entità sul primo documento supportato. Se il gestore non trova documenti applicabili nel file di input, restituisce un messaggio di errore.
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Versioni del processore
ID versione
Canale di rilascio
Campi aggiuntivi rilevati
Altre lingue supportate
Descrizione
pretrained-bankstatement-v1.0-2021-08-08
Stabile
Nessuno
Nessuno
pretrained-bankstatement-v1.1-2021-08-13
Stabile
Nessuno
Nessuno
pretrained-bankstatement-v2.0-2021-12-10
Stabile
Nessuno
Nessuno
pretrained-bankstatement-v3.0-2022-05-16
Stabile
Nessuno
Nessuno
Questa versione presuppone che il file di input contenga un singolo estratto conto bancario. A differenza della versione predefinita, questa versione non controlla la presenza di estratti conto bancari nel file di input e non restituisce un errore se non vengono trovati estratti conto bancari.
Se una pagina di un file di input di più pagine è del tipo di documento corretto e di una delle versioni supportate, l'elaboratore esegue l'estrazione delle entità sul primo documento supportato. Se il gestore non trova documenti applicabili nel file di input, restituisce un messaggio di errore.
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Forme/versioni supportate
2020 (versioni standard e personalizzate)
2019 (versioni standard e personalizzate)
2018 (versioni standard e personalizzate)
Versioni del processore
ID versione
Canale di rilascio
Campi aggiuntivi rilevati
Altre lingue supportate
Descrizione
pretrained-w2-v1.0-2020-10-01
Stabile
Nessuno
Nessuno
pretrained-w2-v1.1-2022-01-27
Stabile
Nessuno
Nessuno
pretrained-w2-v1.2-2022-01-28
Stabile
Mostra campi
AllocatedTips
ControlNumber
DependentCareBenefits
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
EmployerStateIdNumber_Line1
FederalIncomeTaxWithheld
FormYear
LocalIncomeTax_Line1
LocalityName_Line1
LocalWagesTipsEtc_Line1
MedicareTaxWithheld
MedicareWagesAndTips
NonqualifiedPlans
SocialSecurityTaxWithheld
SocialSecurityTips
SocialSecurityWages
SSN
State_Line1
StateIncomeTax_Line1
StateWagesTipsEtc_Line1
WagesTipsOtherCompensation
Nessuno
Miglioramenti alla qualità e supporto di nuovi campi; non include lo splitter.
Miglioramenti alla qualità e supporto per i campi della casella 12 e le previsioni granulari di EmployeeName, EmployeeAddress e EmployerNameAndAddress, che non fanno più parte dell'output e vengono sostituite da campi aggiuntivi.
Prevede la validità dei documenti di identità utilizzando più indicatori.
Il processore di verifica dei documenti di identità è progettato per aiutare a prevedere la validità dei documenti di identità con quattro diversi indicatori.
Attualmente, il responsabile del trattamento restituisce informazioni dai seguenti indicatori:
Rilevamento di fraud_signals_is_identity_document: prevede se un'immagine contiene un documento di identità riconosciuto.
Rilevamento di fraud_signals_suspicious_words: prevede se sono presenti parole non tipiche negli ID.
Rilevamento di fraud_signals_image_manipulation: prevede se l'immagine è stata alterata o manomessa con uno strumento di modifica delle immagini.
fraud_signals_online_duplicate detection: prevede se l'immagine può essere trovata online (solo Stati Uniti).
La funzionalità di rilevamento dei duplicati online è attualmente elaborata nei data center degli Stati Uniti. Il supporto per una o più regioni non è disponibile per questa funzionalità al di fuori degli Stati Uniti.
Questo elaboratore è supportato da algoritmi che vengono aggiornati più di frequente rispetto al rilascio di nuove versioni dell'elaboratore. Per questo motivo, il processore potrebbe restituire output diversi nel tempo anche se utilizzi la stessa versione del processore. Ad esempio, il sistema di rilevamento dei duplicati online monitora le immagini presenti sul web. Il comportamento del sistema può quindi cambiare più rapidamente di quanto sia possibile monitorare nelle versioni del processore.
Consulta le note sull'IA responsabile[†] e sulla revisione da parte di persone fisiche.[‡]
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Forme/versioni supportate
Supporto per passaporti, tessere e patenti di guida statunitensi.
Se il documento di input multipagina contiene più di una distinta di pagamento valida, l'elaboratore estrae le entità solo dalla prima distinta di pagamento valida. Se nel file di input non vengono trovati assegni, l'elaboratore restituisce un messaggio di errore.
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Versioni del processore
ID versione
Canale di rilascio
Campi aggiuntivi rilevati
Altre lingue supportate
Descrizione
pretrained-paystub-v1.0-2021-03-19
Stabile
Nessuno
Nessuno
pretrained-paystub-v1.1-2021-08-13
Stabile
Mostra campi
net_pay
net_pay_ytd
employee_account_number
Nessuno
Miglioramento della qualità e supporto di nuovi campi.
pretrained-paystub-v1.2-2021-12-10
Stabile
Nessuno
Nessuno
pretrained-paystub-v2.0-2022-05-17
Candidato per la release
Mostra campi
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
Nessuno
Questa versione presuppone che il file di input contenga una singola distinta. A differenza della versione predefinita, questa versione non controlla la presenza di buste paga nel file di input e non restituisce un errore se non vengono trovate buste paga.
Miglioramento della qualità, supporto di nuovi campi e nuovo schema. Bonus, Commissioni, Festività, Ore straordinarie, Stipendio regolare e Vacanza ora fanno parte di earning_item/earning_this_period e le relative versioni da inizio anno a oggi si trovano in earning_item/earning_ytd. L'accreditamento diretto e il numero di conto dell'impiegato ora sono nidificati in direct_deposit_item.
Il limite di pagine asincrone è 10.
pretrained-paystub-v2.0-2022-07-22
Stabile
Nessuno
Nessuno
Miglioramento della qualità e potenziamento della formazione.
Estrai testo e valori dalle fatture, tra cui numero di fattura, nome del fornitore, importo della fattura, importo dell'IVA, data della fattura e data di scadenza.
Il parser delle fatture estrae sia i campi di intestazione che quelli delle voci, ad esempio numero di fattura, nome del fornitore, importo della fattura, importo dell'IVA, data della fattura, data di scadenza e importi delle voci.
[*] Questo processore è disponibile solo per i clienti con accesso limitato.
Per richiedere l'accesso API, compila e invia il modulo di richiesta di accesso ai processori Document AI.
Nel modulo devi inserire informazioni su di te, sulla tua azienda e sul tuo caso d'uso.
Tieni presente che per l'accesso è necessario un ID progetto Google Cloud.
Per creare un nuovo progetto Google Cloud o identificare l'ID del progetto esistente, consulta le seguenti istruzioni.
Una volta inviato il modulo, il team di Document AI esaminerà la tua richiesta per verificare che soddisfi i criteri per l'accesso.
In caso di approvazione, riceverai un'email con le istruzioni su come accedere e utilizzare questa funzionalità.
[†]
La verifica dei documenti di identità consente di estrarre e valutare le informazioni dai documenti di identità che contribuiscono a identificare se l'immagine di input rappresenta un documento di identità autentico.
In Google Cloud, diamo la priorità ad aiutare i clienti a sviluppare e implementare in modo sicuro soluzioni di IA e la verifica dell'identità è stata sviluppata in conformità ai principi di IA di Google.
In base ai principi dell'IA di Google e al design attuale del prodotto, ti consigliamo vivamente di procedere con cautela e di valutare attentamente i potenziali vantaggi e rischi dell'utilizzo della verifica dell'identità per quanto segue:
Decisioni prese senza l'human-in-the-loop per le previsioni che possono influire sui diritti umani.
In domini sensibili, inclusi, a titolo esemplificativo, occupazione, accesso ai servizi pubblici, assistenza sanitaria e contesti critici per la sicurezza.
[‡] Utilizza sempre la verifica dell'identità nell'ambito della procedura e del flusso di lavoro di rilevamento dell'identità più ampio.
È importante che il flusso di lavoro preveda un revisore umano per verificare l'accuratezza degli indicatori previsti. Il processore di verifica dell'identità non è progettato per sostituire la revisione da parte di persone fisiche degli ID in un flusso di lavoro, ma piuttosto per aiutare i revisori umani a convalidare i documenti di identità. Il gestore dell'accertamento dell'identità non deve essere utilizzato come strumento di decisione automatizzato per stabilire se un documento di identità è valido. Con la revisione umana, i clienti possono ottenere una maggiore precisione nell'elaborazione dei documenti e aiutare le aziende a valutare le previsioni utilizzando strumenti appositamente progettati per consentire queste revisioni.
Assicurati di esaminare le normative della regione in cui implementi questa tecnologia e di consultare le linee guida del settore esistenti per conoscere le linee guida delle norme e i problemi di equità più comuni. Scopri di più sull'equità nel machine learning, inclusi i modi per mitigare i bias nei set di dati di addestramento, valutare i modelli personalizzati per le disparità di prestazioni e altri aspetti da considerare quando utilizzi un modello personalizzato.
Consigliamo ai clienti di tenere presente equità, interpretabilità e best practice in materia di privacy e sicurezza durante l'implementazione della verifica dell'identità. Per scoprire di più su come implementare l'IA responsabile, leggi i consigli di Google per le pratiche di IA responsabile.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-01-29 UTC."],[],[]]