Integrazione BigQuery
BigQuery si integra con Document AI per contribuire a creare casi d'uso di analisi dei documenti e IA generativa. Con l'accelerazione della trasformazione digitale, le organizzazioni generano grandi quantità di testo e altri dati dei documenti, che offrono un potenziale immenso per approfondimenti e nuovi casi d'uso dell'AI generativa. Per aiutarti a sfruttare questi dati, siamo lieti di annunciare un'integrazione tra BigQuery e Document AI, che ti consente di estrarre informazioni dai dati dei documenti e di creare nuove applicazioni di modelli linguistici di grandi dimensioni (LLM).
Panoramica
Ora i clienti di BigQuery possono creare estrattori personalizzati di Document AI, basati sui modelli di base all'avanguardia di Google, che possono personalizzare in base ai propri documenti e metadati. Questi modelli personalizzati possono quindi essere richiamati da BigQuery per estrarre dati strutturati dai documenti in modo sicuro e regolamentato, utilizzando la semplicità e la potenza di SQL. Prima di questa integrazione, alcuni clienti hanno provato a creare pipeline di Document AI indipendente, che prevedevano la cura manuale della logica di estrazione e dello schema. La mancanza di funzionalità di integrazione integrate ha costretto l'azienda a sviluppare un'infrastruttura personalizzata per sincronizzare e mantenere la coerenza dei dati. Ciò ha trasformato ogni progetto di analisi dei documenti in un'impresa sostanziale che ha richiesto un investimento significativo. Ora, con questa integrazione, i clienti possono creare modelli remoti in BigQuery per i propri estrattori personalizzati in Document AI e utilizzarli per eseguire analisi dei documenti e AI generativa su larga scala, aprendo una nuova era di insight e innovazione basati sui dati.
Un'esperienza unificata e regolamentata dai dati all&#AI
Puoi creare un estrattore personalizzato in Document AI in tre passaggi:
- Definisci i dati che devi estrarre dai documenti. Si chiama
document schema
, viene archiviato con ogni versione dell'estrattore personalizzato ed è accessibile da BigQuery. - Se vuoi, fornisci documenti aggiuntivi con annotazioni come esempi di estrazione.
- Addestra il modello per l'estrattore personalizzato in base ai modelli di base forniti in Document AI.
Oltre agli estrattori personalizzati che richiedono l'addestramento manuale, Document AI fornisce anche estrattori pronti all'uso per spese, ricevute, fatture, moduli fiscali, documenti di identità governativi e una moltitudine di altri scenari nella galleria dei processori.
Una volta pronto l'estrattore personalizzato, puoi passare a BigQuery Studio per analizzare i documenti utilizzando SQL nei seguenti quattro passaggi:
- Registra un modello BigQuery remoto per l'estrattore utilizzando SQL. Il modello può comprendere lo schema del documento (creato sopra), richiamare l'estrattore personalizzato e analizzare i risultati.
- Crea tabelle di oggetti utilizzando SQL per i documenti archiviati in Cloud Storage. Puoi gestire i dati non strutturati nelle tabelle impostando criteri di accesso a livello di riga, che limitano l'accesso degli utenti a determinati documenti e, di conseguenza, la potenza dell'AI per la privacy e la sicurezza.
- Utilizza la funzione
ML.PROCESS_DOCUMENT
nella tabella degli oggetti per estrarre i campi pertinenti effettuando chiamate di inferenza all'endpoint dell'API. Puoi anche filtrare i documenti per le estrazioni con una clausolaWHERE
all'esterno della funzione. La funzione restituisce una tabella strutturata, in cui ogni colonna è un campo estratto. - Unisci i dati estratti con altre tabelle BigQuery per combinare i dati strutturati e non strutturati, generando valori aziendali.
Il seguente esempio illustra l'esperienza utente:
# Create an object table in BigQuery that maps to the document files stored in Cloud Storage.
CREATE OR REPLACE EXTERNAL TABLE `my_dataset.document`
WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
object_metadata = 'SIMPLE',
uris = ['gs://my_bucket/path/*'],
metadata_cache_mode= 'AUTOMATIC',
max_staleness= INTERVAL 1 HOUR
);
# Create a remote model to register your Doc AI processor in BigQuery.
CREATE OR REPLACE MODEL `my_dataset.layout_parser`
REMOTE WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
remote_service_type = 'CLOUD_AI_DOCUMENT_V1',
document_processor='PROCESSOR_ID'
);
# Invoke the registered model over the object table to parse PDF document
SELECT uri, total_amount, invoice_date
FROM ML.PROCESS_DOCUMENT(
MODEL `my_dataset.layout_parser`,
TABLE `my_dataset.document`,
PROCESS_OPTIONS => (
JSON '{"layout_config": {"chunking_config": {"chunk_size": 250}}}')
)
WHERE content_type = 'application/pdf';
Tabella dei risultati
Casi d'uso di analisi del testo, sintesi e altre analisi dei documenti
Dopo aver estratto il testo dai documenti, puoi eseguire analisi dei documenti in diversi modi:
- Utilizza BigQuery ML per eseguire analisi del testo: BigQuery ML supporta l'addestramento e il deployment di modelli di embedding in vari modi. Ad esempio, puoi utilizzare BigQuery ML per identificare il sentiment dei clienti nelle chiamate di assistenza o per classificare i feedback sul prodotto in diverse categorie. Se sei un utente di Python, puoi anche utilizzare BigQuery DataFrames per Pandas e API simili a scikit-learn per l'analisi del testo sui tuoi dati.
- Utilizza un LLM
text-embedding-004
per generare embedding dai documenti suddivisi in blocchi: BigQuery ha una funzioneML.GENERATE_EMBEDDING
che chiama il modellotext-embedding-004
per generare embedding. Ad esempio, puoi utilizzare Document AI per estrarre i feedback dei clienti e riepilogarli utilizzando PaLM 2, il tutto con BigQuery SQL. - Unisci i metadati dei documenti ad altri dati strutturati archiviati nelle tabelle BigQuery:
Ad esempio, puoi generare embedding utilizzando i documenti suddivisi in blocchi e utilizzarli per la ricerca vettoriale.
# Example 1: Parse the chunked data
CREATE OR REPLACE TABLE docai_demo.demo_result_parsed AS (SELECT
uri,
JSON_EXTRACT_SCALAR(json , '$.chunkId') AS id,
JSON_EXTRACT_SCALAR(json , '$.content') AS content,
JSON_EXTRACT_SCALAR(json , '$.pageFooters[0].text') AS page_footers_text,
JSON_EXTRACT_SCALAR(json , '$.pageSpan.pageStart') AS page_span_start,
JSON_EXTRACT_SCALAR(json , '$.pageSpan.pageEnd') AS page_span_end
FROM docai_demo.demo_result, UNNEST(JSON_EXTRACT_ARRAY(ml_process_document_result.chunkedDocument.chunks, '$')) json)
# Example 2: Generate embedding
CREATE OR REPLACE TABLE `docai_demo.embeddings` AS
SELECT * FROM ML.GENERATE_EMBEDDING(
MODEL `docai_demo.embedding_model`,
TABLE `docai_demo.demo_result_parsed`
);
Implementare casi d'uso di ricerca e AI generativa
Dopo aver estratto il testo strutturato dai documenti, puoi creare indici ottimizzati per le query che cercano l'ago nel pagliaio, grazie alle funzionalità di ricerca e indicizzazione di BigQuery, sbloccando una potente funzionalità di ricerca. Questa integrazione consente inoltre di sbloccare nuove applicazioni LLM generative, come l'esecuzione dell'elaborazione di file di testo per il filtro della privacy, i controlli di sicurezza dei contenuti e lo smembramento dei token utilizzando SQL e modelli Document AI personalizzati. Il testo estratto, combinato con altri metadati, simplifica la cura del corpus di addestramento necessario per perfezionare i modelli linguistici di grandi dimensioni. Inoltre, stai creando casi d'uso di LLM su dati aziendali governati che sono stati basati sulle funzionalità di gestione dell'indice di vettore e di generazione di embedding di BigQuery. Sincronizzando questo indice con Vertex AI, puoi implementare casi d'uso di generazione basata su ricerca, per un'esperienza AI più regolamentata e semplificata.
Applicazione di esempio
Per un esempio di applicazione end-to-end con il connettore Document AI:
- Guarda la demo relativa al report sulle spese su GitHub.
- Leggi il post del blog complementare.
- Guarda un video di approfondimento di Google Cloud Next 2021.