Introduzione ai trasferimenti dei report di Cloud Storage

BigQuery Data Transfer Service per Cloud Storage consente di pianificare i caricamenti di dati ricorrenti dai bucket Cloud Storage in BigQuery. Sia il percorso dei dati archiviati in Cloud Storage sia la tabella di destinazione possono essere parametrizzati, consentendo di caricare i dati dai bucket Cloud Storage organizzati per data.

Formati di file supportati

BigQuery Data Transfer Service attualmente supporta il caricamento di dati da Cloud Storage in uno dei seguenti formati:

  • Valori separati da virgola (CSV)
  • JSON (delimitato da nuova riga)
  • Avro
  • Parquet
  • ORC

Tipi di compressione supportati

BigQuery Data Transfer Service per Cloud Storage supporta il caricamento di dati compressi. I tipi di compressione supportati da BigQuery Data Transfer Service sono gli stessi supportati dai job di caricamento BigQuery. Per maggiori informazioni, consulta Caricare dati compressi e non compressi.

Importazione dei dati per i trasferimenti di Cloud Storage

Puoi specificare come vengono caricati i dati in BigQuery selezionando una preferenza di scrittura nella configurazione del trasferimento quando configuri un trasferimento da Cloud Storage.

Sono disponibili due tipi di preferenze di scrittura: trasferimenti incrementali e trasferimenti troncati.

Trasferimenti incrementali

Una configurazione di trasferimento con una preferenza di scrittura APPEND o WRITE_APPEND, chiamata anche trasferimento incrementale, aggiunge in modo incrementale i nuovi dati dal trasferimento riuscito precedente a una tabella di destinazione BigQuery. Quando una configurazione di trasferimento viene eseguita con una preferenza di scrittura APPEND, BigQuery Data Transfer Service filtra i file che sono stati modificati dall'ultima esecuzione di trasferimento riuscita. Per determinare quando un file viene modificato, BigQuery Data Transfer Service esamina i metadati del file per una proprietà "data di ultima modifica". Ad esempio, BigQuery Data Transfer Service esamina la proprietà timestamp updated in un file Cloud Storage. Se BigQuery Data Transfer Service rileva file con una "data di ultima modifica" successiva al timestamp dell'ultimo trasferimento riuscito, li trasferisce in un trasferimento incrementale.

Per dimostrare come funzionano i trasferimenti incrementali, prendi in considerazione il seguente esempio di trasferimento di Cloud Storage. Un utente crea un file in un bucket Cloud Storage alle ore 01-07-2023T00:00Z denominato file_1. Il timestamp updated per file_1 è l'ora in cui è stato creato il file. L'utente quindi crea un trasferimento incrementale dal bucket Cloud Storage, programmato per essere eseguito una volta al giorno alle ore 03:00Z, a partire dal giorno 01-07-2023T03:00Z.

  • Il 1° luglio 2023 alle ore 03:00Z inizia la prima esecuzione del trasferimento. Poiché si tratta della prima esecuzione del trasferimento per questa configurazione, BigQuery Data Transfer Service tenta di caricare tutti i file corrispondenti all'URI di origine nella tabella BigQuery di destinazione. L'esecuzione del trasferimento va a buon fine e BigQuery Data Transfer Service carica correttamente file_1 nella tabella BigQuery di destinazione.
  • L'esecuzione di trasferimento successiva, il 02-07-2023T03:00Z, non rileva file in cui la proprietà del timestamp updated è maggiore rispetto all'ultima esecuzione di trasferimento riuscita (01-07-2023T03:00Z). L'esecuzione del trasferimento avviene correttamente senza caricare altri dati nella tabella BigQuery di destinazione.

L'esempio precedente mostra in che modo BigQuery Data Transfer Service esamina la proprietà timestamp updated del file di origine per determinare se sono state apportate modifiche ai file di origine e per trasferirle, se rilevate.

Seguendo lo stesso esempio, supponiamo che l'utente crei quindi un altro file nel bucket Cloud Storage alle ore 2023-07-03T00:00Z, denominato file_2. Il timestamp updated per file_2 è l'ora in cui è stato creato il file.

  • L'esecuzione di trasferimento successiva, il 03-07-2023 alle ore 03:00:00 UTC, rileva che file_2 ha un updated timestamp maggiore dell'ultimo trasferimento eseguito correttamente (01-07-2023 alle ore 03:00:00 UTC). Supponiamo che all'avvio l'esecuzione del trasferimento non vada a buon fine a causa di un errore temporaneo. In questo scenario, file_2 non viene caricato nella tabella BigQuery di destinazione. Il timestamp dell'ultima esecuzione di trasferimento riuscita rimane 01-07-2023T03:00Z.
  • L'esecuzione di trasferimento successiva, il 04-07-2023 alle ore 03:00Z, rileva che file_2 ha un updated timestamp maggiore dell'ultima esecuzione di trasferimento riuscita (01-07-2023 alle ore 03:00Z). Questa volta l'esecuzione del trasferimento viene completata senza problemi, quindi carica file_2 nella tabella BigQuery di destinazione.
  • L'esecuzione di trasferimento successiva, il 05-07-2023 alle 03:00 UTC, non rileva file in cui il timestamp updated è maggiore dell'ultima esecuzione di trasferimento riuscita (04-07-2023 alle 03:00 UTC). L'esecuzione del trasferimento riesce senza caricare dati aggiuntivi nella tabella BigQuery di destinazione.

L'esempio precedente mostra che quando un trasferimento non va a buon fine, nessun file viene trasferito alla tabella di destinazione BigQuery. Eventuali modifiche ai file vengono trasferite alla successiva esecuzione del trasferimento riuscita. Eventuali trasferimenti riusciti successivi a un trasferimento non riuscito non causano dati duplicati. In caso di trasferimento non riuscito, puoi anche scegliere di attivare manualmente un trasferimento al di fuori dell'orario programmato regolarmente.

Trasferimenti troncati

Una configurazione di trasferimento con una preferenza di scrittura MIRROR o WRITE_TRUNCATE, chiamata anche trasferimento troncato, sovrascrive i dati nella tabella di destinazione BigQuery durante ogni esecuzione del trasferimento con i dati di tutti i file corrispondenti all'URI di origine. MIRROR sovrascrive una copia aggiornata dei dati nella tabella di destinazione. Se la tabella di destinazione utilizza un decoratore partizione, l'esecuzione del trasferimento sovrascrive solo i dati nella partizione specificata. Una tabella di destinazione con un decoratore di partizione ha il formato my_table${run_date}, ad esempio my_table$20230809.

La ripetizione degli stessi trasferimenti incrementali o troncati in un giorno non causa dati duplicati. Tuttavia, se esegui più configurazioni di trasferimento diverse che interessano la stessa tabella di destinazione BigQuery, BigQuery Data Transfer Service potrebbe duplicare i dati.

Percorso della risorsa Cloud Storage

Per caricare i dati da un'origine dati Cloud Storage, devi fornire il percorso per i dati.

Il percorso della risorsa Cloud Storage contiene il nome del bucket e dell'oggetto (nome file). Ad esempio, se il bucket Cloud Storage si chiama mybucket e il file di dati si chiama myfile.csv, il percorso della risorsa sarà gs://mybucket/myfile.csv.

BigQuery non supporta i percorsi delle risorse Cloud Storage che includono più barre consecutive dopo la barra doppia iniziale. I nomi degli oggetti Cloud Storage possono contenere più barre consecutive ("/"). Tuttavia, BigQuery converte più barre consecutive in una singola barra. Ad esempio, il seguente percorso della risorsa, sebbene valido in Cloud Storage, non funziona in BigQuery: gs://bucket/my//object//name.

Per recuperare il percorso della risorsa Cloud Storage:

  1. Apri la console Cloud Storage.

    Console Cloud Storage

  2. Vai alla posizione dell'oggetto (file) che contiene i dati di origine.

  3. Fai clic sul nome dell'oggetto.

    Viene visualizzata la pagina Dettagli oggetto.

  4. Copia il valore fornito nel campo URI gsutil, che inizia congs://.

Supporto dei caratteri jolly per i percorsi delle risorse Cloud Storage

Se i dati di Cloud Storage sono suddivisi in più file che condividono un nome base comune, puoi utilizzare un carattere jolly nel percorso della risorsa quando carichi i dati.

Per aggiungere un carattere jolly al percorso della risorsa Cloud Storage, aggiungi un asterisco (*) al nome base. Ad esempio, se hai due file denominati fed-sample000001.csv e fed-sample000002.csv, il percorso della risorsa sarà gs://mybucket/fed-sample*. Questo carattere jolly può essere utilizzato nella console Google Cloud o in Google Cloud CLI.

Puoi utilizzare più caratteri jolly per gli oggetti (nomi file) all'interno dei bucket. Il carattere jolly può apparire ovunque all'interno del nome dell'oggetto.

I caratteri jolly non espandono una directory in un gs://bucket/. Ad esempio, gs://bucket/dir/* trova i file nella directory dir, ma non trova file nella sottodirectory gs://bucket/dir/subdir/.

Non puoi nemmeno eseguire corrispondenze sui prefissi senza caratteri jolly. Ad esempio, gs://bucket/dir non corrisponde a gs://bucket/dir/file.csv né a gs://bucket/file.csv

Tuttavia, puoi utilizzare più caratteri jolly per i nomi dei file all'interno dei bucket. Ad esempio, gs://bucket/dir/*/*.csv corrisponde gs://bucket/dir/subdir/file.csv.

Per esempi di supporto dei caratteri jolly in combinazione con i nomi delle tabelle con parametri, consulta Parametri di runtime nei trasferimenti.

Considerazioni sulla località

Il bucket Cloud Storage deve trovarsi in una regione o in una regione multipla compatibile con la regione o la regione multipla del set di dati di destinazione in BigQuery.

  • Se il set di dati BigQuery si trova in una regione multipla, il bucket Cloud Storage contenente i dati che stai trasferendo deve trovarsi nella stessa regione multipla o in una posizione contenuta al suo interno. Ad esempio, se il set di dati BigQuery si trova nella regione multiregionale "UE", il bucket Cloud Storage può trovarsi nella regione Belgio "europe-west1", che fa parte dell'UE.
  • Se il set di dati si trova in una regione, il bucket Cloud Storage deve trovarsi nella stessa regione. Ad esempio, se il tuo set di dati si trova nella regione Tokyo "asia-northeast1", il bucket Cloud Storage non può trovarsi nella regione multipla "ASIA".

Per informazioni dettagliate su trasferimenti e regioni, consulta Località e trasferimenti dei set di dati.

Per ulteriori informazioni sulle località di Cloud Storage, consulta Località dei bucket nella documentazione di Cloud Storage.

Prezzi

  • Si applicano le quote e i limiti di BigQuery standard ai job di caricamento.

  • Quando i dati vengono trasferiti su BigQuery, vengono applicati i prezzi standard di BigQuery per l'archiviazione e le query.

  • I dati non verranno eliminati automaticamente dal bucket Cloud Storage dopo essere stati caricati in BigQuery, a meno che non indichi l'eliminazione durante la configurazione del trasferimento. Vedi Configurare un trasferimento di Cloud Storage.

  • Per maggiori dettagli, consulta la pagina dei prezzi relativa ai trasferimenti.

Quote e limiti

BigQuery Data Transfer Service utilizza i job di caricamento per caricare i dati di Cloud Storage in BigQuery.

Tutte le quote e i limiti di BigQuery per i job di caricamento si applicano ai job di caricamento ricorrenti di Cloud Storage, con le seguenti considerazioni aggiuntive:

Valore Limite
Dimensioni massime per esecuzione di trasferimento del job di caricamento 15 TB
Numero massimo di file per esecuzione del trasferimento 10.000 file

Passaggi successivi