Scegli una funzione di elaborazione dei documenti

Questo documento fornisce un confronto delle funzioni di elaborazione dei documenti disponibili in BigQuery ML, ovvero ML.GENERATE_TEXT e ML.PROCESS_DOCUMENT.

Puoi utilizzare le informazioni contenute in questo documento per decidere quale funzione utilizzare nei casi in cui le funzioni abbiano funzionalità sovrapposte.

A livello generale, la differenza tra queste funzioni è la seguente:

  • ML.GENERATE_TEXT è una buona scelta per eseguire attività di elaborazione del linguaggio naturale (NLP) in cui alcuni contenuti si trovano in documenti. Questa funzione offre i seguenti vantaggi:

    • Riduci i costi
    • Supporto di più lingue
    • Maggiore velocità in uscita
    • Funzionalità di ottimizzazione del modello
    • Disponibilità dei modelli multimodali

    Per esempi di attività di elaborazione dei documenti che funzionano meglio con questo approccio, consulta Esplora le funzionalità di elaborazione dei documenti con l'API Gemini.

  • ML.PROCESS_DOCUMENT è una buona scelta per eseguire attività di elaborazione dei documenti che richiedono l'analisi del documento e una risposta strutturata predefinita.

Modelli supportati

I modelli supportati sono i seguenti:

  • ML.GENERATE_TEXT: puoi utilizzare un sottoinsieme dei modelli Vertex AI Gemini per generare testo. Per ulteriori informazioni sui modelli supportati, consulta la sintassi ML.GENERATE_TEXT.
  • ML.PROCESS_DOCUMENT: utilizzi il modello predefinito dell'API Document AI. L'utilizzo dell'API Document AI consente di accedere a molti diversi elaboratori di documenti, come l'analizzatore sintattico delle fatture, l'analizzatore sintattico del layout e l'analizzatore sintattico dei moduli. Puoi utilizzare questi elaboratori di documenti per lavorare con file PDF con strutture molto diverse.

Attività supportate

Le attività supportate sono le seguenti:

  • ML.GENERATE_TEXT: puoi eseguire qualsiasi attività di NLP in cui l'input è un documento. Ad esempio, dato un documento finanziario di un'azienda, puoi recuperare le informazioni del documento fornendo un prompt come What is the quarterly revenue for each division?.
  • ML.PROCESS_DOCUMENT: puoi eseguire l'elaborazione di documenti specializzati per diversi tipi di documenti, come fatture, moduli fiscali e bilanci finanziari. Puoi anche eseguire il chunking dei documenti. Per ulteriori informazioni su come utilizzare la funzione ML.PROCESS_DOCUMENT per questa attività, consulta Eseguire l'analisi dei PDF in una pipeline di generazione basata sul recupero.

Prezzi

I prezzi sono i seguenti:

Ottimizzazione supervisionata

L'ottimizzazione supervisionata è supportata come segue:

  • ML.GENERATE_TEXT: l'ottimizzazione supervisionata è supportata per alcuni modelli.
  • ML.PROCESS_DOCUMENT: l'ottimizzazione supervisionata non è supportata.

Limite di query al minuto (QPM)

I limiti QPM sono i seguenti:

  • ML.GENERATE_TEXT: 60 QPM nella regione us-central1 predefinita per i modelli gemini-1.5-pro e 200 QPM nella regione us-central1 predefinita per i modelli gemini-1.5-flash. Per ulteriori informazioni, consulta Quota di IA generativa su Vertex AI.
  • ML.PROCESS_DOCUMENT: 120 QPM per tipo di processore, con un limite complessivo di 600 QPM per progetto. Per ulteriori informazioni, consulta Elenco delle quote.

Per aumentare la quota, consulta Richiedere una quota superiore.

Limite di token

I limiti per i token sono i seguenti:

  • ML.GENERATE_TEXT: 700 token di input e 8196 token di output.
  • ML.PROCESS_DOCUMENT: nessun limite di token. Tuttavia, questa funzione ha limiti di pagine diversi a seconda del processore utilizzato. Per ulteriori informazioni, consulta Limiti.

Lingue supportate

Le lingue supportate sono:

  • ML.GENERATE_TEXT: supporta le stesse lingue di Gemini.
  • ML.PROCESS_DOCUMENT: il supporto delle lingue dipende dal tipo di elaboratore di documenti. La maggior parte supporta solo l'inglese. Per ulteriori informazioni, consulta Elenco dei processori.

Disponibilità per regione

La disponibilità per regione è la seguente:

  • ML.GENERATE_TEXT: disponibile in tutte le regioni di Generative AI per Vertex AI.
  • ML.PROCESS_DOCUMENT: disponibile nelle regioni multiple EU e US per tutti i processori. Alcuni processori sono disponibili anche in determinate regioni. Per ulteriori informazioni, consulta Supporto per una o più regioni.