Introduzione al caricamento dei dati

Questo documento spiega come caricare i dati in BigQuery. I due approcci comuni all'integrazione dei dati sono estrazione, caricamento e trasformazione (ELT) o estrazione, trasformazione e caricamento (ETL).

Per una panoramica degli approcci ELT ed ETL, consulta Introduzione al caricamento, alla trasformazione e all'esportazione dei dati.

Metodi per caricare o accedere a dati esterni

Puoi utilizzare i seguenti metodi per caricare dati in BigQuery o accedere ai dati da BigQuery. Scegli una delle seguenti opzioni in base al tuo caso d'uso e alle origini dati:

Metodo di caricamento Descrizione
Caricamento in batch Questo metodo è adatto per il caricamento collettivo di grandi volumi di dati da varie fonti.

Per il caricamento batch o incrementale dei dati da Cloud Storage e altre origini dati supportate, consigliamo di utilizzare BigQuery Data Transfer Service.

Con BigQuery Data Transfer Service, per automatizzare i flussi di lavoro di caricamento dei dati in BigQuery, puoi pianificare i job di caricamento. Puoi pianificare trasferimenti di dati una tantum o collettivi a intervalli regolari (ad esempio giornalieri o mensili). Per assicurarti che i dati di BigQuery siano sempre aggiornati, puoi monitorare e registrare i trasferimenti.

Per un elenco delle origini dati supportate da BigQuery Data Transfer Service, consulta Origini dati supportate.
Carico di streaming Questo metodo consente di caricare i dati quasi in tempo reale dai sistemi di messaggistica.

Per trasmettere dati in BigQuery, puoi utilizzare una sottoscrizione BigQuery in Pub/Sub. Pub/Sub può gestire un elevato throughput dei caricamenti di dati in BigQuery. Supporta lo streaming di dati in tempo reale, caricando i dati man mano che vengono generati. Per maggiori informazioni, consulta Abbonamenti BigQuery.
Change Data Capture (CDC) Questo metodo consente di replicare i dati dai database a BigQuery quasi in tempo reale.

Datastream può trasmettere i dati dai database ai dati di BigQuery con la replica quasi in tempo reale. Datastream sfrutta le funzionalità CDC per monitorare e replicare le modifiche a livello di riga dalle origini dati.

Per un elenco delle origini dati supportate da Datastream, consulta Origini.
Federazione con origini dati esterne Questo metodo consente di accedere ai dati esterni senza doverli caricare in BigQuery.

BigQuery supporta l'accesso a determinate origini dati esterne tramite Cloud Storage e query federate. Il vantaggio di questo metodo è che non è necessario caricare i dati prima di trasformarli per un utilizzo successivo. Puoi eseguire la trasformazione eseguendo statement SELECT sui dati esterni.

Per caricare i dati, puoi anche utilizzare i seguenti metodi programmatici:

Metodo di caricamento Descrizione
Caricamento in batch Puoi caricare i dati da Cloud Storage o da un file locale creando un job di caricamento.

Se i dati di origine cambiano di rado o non hai bisogno di risultati aggiornati continuamente, i job di caricamento possono essere un modo meno costoso e meno dispendioso in termini di risorse per caricare i dati in BigQuery.

I dati caricati possono essere in formato Avro, CSV, JSON, ORC o Parquet. Per creare il job di caricamento, puoi anche utilizzare l'istruzione SQL LOAD DATA.

I sistemi open source più diffusi, come Spark e vari partner ETL, supportano anche il caricamento batch dei dati in BigQuery.
Carico di streaming Se devi supportare origini dati in streaming personalizzate o pre-elaborare i dati prima di trasmetterli in streaming con un elevato throughput in BigQuery, utilizza Dataflow o BigQuery Engine per Apache Flink.

Per ulteriori informazioni sul caricamento da Dataflow a BigQuery, consulta Scrivere da Dataflow a BigQuery.

Puoi anche utilizzare direttamente l'API BigQuery Storage Write.

Cloud Data Fusion può aiutarti a semplificare il processo ETL. BigQuery funziona anche con partner di terze parti che trasformano e caricano i dati in BigQuery.

Altri modi per acquisire dati

Puoi eseguire query sui dati senza doverli caricare personalmente in BigQuery. Le sezioni seguenti descrivono alcune alternative.

L'elenco seguente descrive alcune delle alternative:

Eseguire query sui dati pubblici

I set di dati pubblici sono set di dati archiviati in BigQuery e condivisi con il pubblico. Per ulteriori informazioni, consulta Set di dati pubblici di BigQuery.

Eseguire query sui dati condivisi

Per eseguire query su un set di dati BigQuery che qualcuno ha condiviso con te, consulta Introduzione ad Analytics Hub. Analytics Hub è una piattaforma di scambio di dati che consente la condivisione dei dati.

Esegui query con i dati dei log

Puoi eseguire query sui log senza creare job di caricamento aggiuntivi:

Passaggi successivi