Questa pagina è stata tradotta dall'API Cloud Translation.

Caricamento di dati in batch

Puoi caricare i dati in BigQuery da Cloud Storage o da un file locale come operazione batch. I dati di origine possono essere in uno dei seguenti formati:

Avro
Valori separati da virgola (CSV)
JSON (delimitato da nuova riga)
ORC
Parquet
Esportazioni di Datastore archiviate in Cloud Storage
Esportazioni Firestore archiviate in Cloud Storage

Puoi anche utilizzare BigQuery Data Transfer Service per configurare caricamenti ricorrenti da Cloud Storage in BigQuery.

Provalo

Se non conosci Google Cloud, crea un account per valutare le prestazioni di BigQuery in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti per l'esecuzione, il test e il deployment di workload senza costi aggiuntivi.

Prova BigQuery gratuitamente

Prima di iniziare

Concedi ruoli Identity and Access Management (IAM) che forniscono agli utenti le autorizzazioni necessarie per eseguire ogni attività descritta in questo documento e crea un set di dati per archiviare i tuoi dati.

Autorizzazioni obbligatorie

Per caricare i dati in BigQuery, devi disporre delle autorizzazioni IAM per eseguire un job di caricamento e caricare i dati in tabelle e partizioni BigQuery. Se carichi i dati da Cloud Storage, devi disporre anche delle autorizzazioni IAM per accedere al bucket che contiene i tuoi dati.

Autorizzazioni per caricare dati in BigQuery

Per caricare i dati in una nuova tabella o partizione BigQuery oppure per aggiungere o sovrascrivere una tabella o partizione esistente, devi disporre delle seguenti autorizzazioni IAM:

bigquery.tables.create
bigquery.tables.updateData
bigquery.tables.update
bigquery.jobs.create

Ciascuno dei seguenti ruoli IAM predefiniti include le autorizzazioni necessarie per caricare i dati in una tabella o partizione BigQuery:

roles/bigquery.dataEditor
roles/bigquery.dataOwner
roles/bigquery.admin (include l'autorizzazione bigquery.jobs.create)
bigquery.user (include l'autorizzazione bigquery.jobs.create)
bigquery.jobUser (include l'autorizzazione bigquery.jobs.create)

Inoltre, se disponi dell'autorizzazione bigquery.datasets.create, puoi creare e aggiornare tabelle utilizzando un job di caricamento nei set di dati che crei.

Per saperne di più sui ruoli e sulle autorizzazioni IAM in BigQuery, consulta Ruoli e autorizzazioni predefiniti.

Autorizzazioni per caricare i dati da Cloud Storage

Per ottenere le autorizzazioni necessarie per caricare i dati da un bucket Cloud Storage, chiedi all'amministratore di concederti il ruolo IAM Amministratore Storage (roles/storage.admin) nel bucket. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene le autorizzazioni necessarie per caricare i dati da un bucket Cloud Storage. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per caricare i dati da un bucket Cloud Storage sono necessarie le seguenti autorizzazioni:

storage.buckets.get
storage.objects.get
storage.objects.list (required if you are using a URI wildcard)

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Crea un set di dati

Crea un set di dati BigQuery per archiviare i tuoi dati.

Caricamento dei dati da Cloud Storage

BigQuery supporta il caricamento dei dati da una delle seguenti classi di archiviazione di Cloud Storage:

Standard
Nearline
Coldline
Archivia

Per scoprire come caricare dati in BigQuery, consulta la pagina relativa al tuo formato di dati:

Per scoprire come configurare un caricamento ricorrente da Cloud Storage in BigQuery, consulta Trasferimenti Cloud Storage.

Considerazioni sulla posizione

Non puoi modificare la posizione di un set di dati dopo la creazione, ma puoi farne una copia o spostarlo manualmente. Per ulteriori informazioni, vedi:

Recuperare l'URI Cloud Storage

Per caricare i dati da un'origine dati Cloud Storage, devi fornire l'URI Cloud Storage.

Il percorso della risorsa Cloud Storage contiene il nome del bucket e l'oggetto (nome file). Ad esempio, se il bucket Cloud Storage si chiama mybucket e il file di dati si chiama myfile.csv, il percorso della risorsa sarà gs://mybucket/myfile.csv.

BigQuery non supporta i percorsi delle risorse Cloud Storage che includono più barre consecutive dopo la doppia barra iniziale. I nomi degli oggetti Cloud Storage possono contenere più caratteri barra ("/") consecutivi. Tuttavia, BigQuery converte più barre consecutive in una singola barra. Ad esempio, il seguente percorso della risorsa, sebbene valido in Cloud Storage, non funziona in BigQuery: gs://bucket/my//object//name.

Per recuperare il percorso della risorsa Cloud Storage:

Apri la console Cloud Storage.

Console Cloud Storage
Sfoglia fino alla posizione dell'oggetto (file) che contiene i dati di origine.
Fai clic sul nome dell'oggetto.

Viene visualizzata la pagina Dettagli oggetto.
Copia il valore fornito nel campo URI gsutil, che inizia con gs://.

Per le esportazioni di Google Datastore, è possibile specificare un solo URI e deve terminare con .backup_info o .export_metadata.

Supporto dei caratteri jolly per gli URI Cloud Storage

Se i dati sono suddivisi in più file, puoi utilizzare un carattere jolly asterisco (*) per selezionare più file. L'utilizzo del carattere jolly asterisco deve rispettare le seguenti regole:

L'asterisco può essere visualizzato all'interno del nome dell'oggetto o alla fine del nome dell'oggetto.
L'utilizzo di più asterischi non è supportato. Ad esempio, il percorso gs://mybucket/fed-*/temp/*.csv non è valido.
L'utilizzo di un asterisco con il nome del bucket non è supportato.

Esempi:

L'esempio seguente mostra come selezionare tutti i file in tutte le cartelle che iniziano con il prefisso gs://mybucket/fed-samples/fed-sample:
```
gs://mybucket/fed-samples/fed-sample*
```
L'esempio seguente mostra come selezionare solo i file con estensione .csv nella cartella denominata fed-samples e in qualsiasi sottocartella di fed-samples:
```
gs://mybucket/fed-samples/*.csv
```
L'esempio seguente mostra come selezionare i file con un pattern di denominazione fed-sample*.csv nella cartella denominata fed-samples. Questo esempio non seleziona i file nelle sottocartelle di fed-samples.
```
gs://mybucket/fed-samples/fed-sample*.csv
```

Quando utilizzi lo strumento a riga di comando bq, potresti dover eseguire l'escape dell'asterisco su alcune piattaforme.

Non puoi utilizzare un carattere jolly asterisco quando carichi i dati di esportazione di Datastore o Firestore da Cloud Storage.

Limitazioni

Quando carichi i dati in BigQuery da un bucket Cloud Storage, sono previste le seguenti limitazioni:

BigQuery non garantisce la coerenza dei dati per le origini dati esterne. Le modifiche ai dati sottostanti durante l'esecuzione di una query possono comportare un comportamento imprevisto.
BigQuery non supporta il controllo delle versioni degli oggetti Cloud Storage. Se includi un numero di generazione nell'URI Cloud Storage, il job di caricamento non va a buon fine.

A seconda del formato dei dati di origine di Cloud Storage, potrebbero essere presenti limitazioni aggiuntive. Per ulteriori informazioni, vedi:

Caricamento dei dati da file locali

Puoi caricare i dati da un'origine dati leggibile (ad esempio la tua macchina locale) utilizzando uno dei seguenti metodi:

Console Google Cloud
Il comando bq load dello strumento a riga di comando bq
L'API
Librerie client

Quando carichi i dati utilizzando la console Google Cloud o lo strumento a riga di comando bq, viene creato automaticamente un job di caricamento.

Per caricare i dati da un'origine dati locale:

Console

Apri la pagina BigQuery nella console Google Cloud .

Vai alla pagina BigQuery
Nel riquadro Spazio di esplorazione, espandi il progetto e seleziona un set di dati.
Espandi l'opzione Azioni e fai clic su Apri.
Nel riquadro dei dettagli, fai clic su Crea tabella .
Nella sezione Origine della pagina Crea tabella:
- In Crea tabella da, seleziona Carica.
- Per Seleziona file, fai clic su Sfoglia.
- Individua il file e fai clic su Apri. Tieni presente che i caratteri jolly e gli elenchi separati da virgole non sono supportati per i file locali.
- Per Formato file, seleziona CSV, JSON (delimitato da nuova riga), Avro, Parquet o ORC.
Nella sezione Destinazione della pagina Crea tabella:
- In Progetto, scegli il progetto appropriato.
- Per Set di dati, scegli il set di dati appropriato.
- Nel campo Tabella, inserisci il nome della tabella che stai creando in BigQuery.
- Verifica che Tipo di tabella sia impostato su Tabella nativa.
Nella sezione Schema, inserisci la definizione dello schema.
- Per i file CSV e JSON, puoi selezionare l'opzione Rilevamento automatico per attivare il rilevamento automatico dello schema. Le informazioni sullo schema sono autodescrittive nei dati di origine per altri tipi di file supportati.
- Puoi anche inserire manualmente le informazioni sullo schema:
  - Fai clic su Modifica come testo e inserisci lo schema della tabella come array JSON:
    
    Nota: puoi visualizzare lo schema di una tabella esistente in formato JSON inserendo il seguente comando: bq show --format=prettyjson dataset.table.
  - Utilizzando Aggiungi campo per inserire manualmente lo schema.
Seleziona gli elementi applicabili nella sezione Opzioni avanzate. Per informazioni sulle opzioni disponibili, consulta Opzioni CSV e Opzioni JSON.
(Facoltativo) Nella sezione Opzioni avanzate, scegli la disposizione di scrittura:
- Scrivi se vuota: scrivi i dati solo se la tabella è vuota.
- Aggiungi alla tabella: aggiungi i dati alla fine della tabella. Questa è l'impostazione predefinita.
- Sovrascrivi tabella: cancella tutti i dati esistenti nella tabella prima di scrivere i nuovi dati.
Fai clic su Crea tabella.

bq

Utilizza il comando bq load, specifica source_format e includi il percorso del file locale.

(Facoltativo) Fornisci il flag --location e imposta il valore sulla tua posizione.

Se carichi i dati in un progetto diverso da quello predefinito, aggiungi l'ID progetto al set di dati nel seguente formato: PROJECT_ID:DATASET.

bq --location=LOCATION load \
--source_format=FORMAT \
PROJECT_ID:DATASET.TABLE \
PATH_TO_SOURCE \
SCHEMA

Sostituisci quanto segue:

LOCATION: la tua posizione. Il flag --location è facoltativo. Ad esempio, se utilizzi BigQuery nella regione di Tokyo, imposta il valore del flag su asia-northeast1. Puoi impostare un valore predefinito per la località utilizzando il file.bigqueryrc.
FORMAT: CSV, AVRO, PARQUET, ORC o NEWLINE_DELIMITED_JSON.
project_id: il tuo ID progetto.
dataset: un set di dati esistente.
table: il nome della tabella in cui carichi i dati.
path_to_source: il percorso del file locale.
schema: uno schema valido. Lo schema può essere un file JSON locale oppure può essere digitato inline come parte del comando. Puoi anche utilizzare il flag --autodetect anziché fornire una definizione dello schema.

Inoltre, puoi aggiungere flag per le opzioni che ti consentono di controllare il modo in cui BigQuery analizza i tuoi dati. Ad esempio, puoi utilizzare il flag --skip_leading_rows per ignorare le righe di intestazione in un file CSV. Per ulteriori informazioni, vedi Opzioni CSV e Opzioni JSON.

Esempi:

Il seguente comando carica un file JSON locale delimitato da nuova riga (mydata.json) in una tabella denominata mytable in mydataset nel tuo progetto predefinito. Lo schema è definito in un file di schema locale denominato myschema.json.

    bq load \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.json \
    ./myschema.json

Il comando seguente carica un file CSV locale (mydata.csv) in una tabella denominata mytable in mydataset in myotherproject. Lo schema è definito in linea nel formato FIELD:DATA_TYPE, FIELD:DATA_TYPE.

    bq load \
    --source_format=CSV \
    myotherproject:mydataset.mytable \
    ./mydata.csv \
    qtr:STRING,sales:FLOAT,year:STRING

Il comando seguente carica un file CSV locale (mydata.csv) in una tabella denominata mytable in mydataset nel tuo progetto predefinito. Lo schema è definito utilizzando il rilevamento automatico dello schema.

    bq load \
    --autodetect \
    --source_format=CSV \
    mydataset.mytable \
    ./mydata.csv