Questa pagina è stata tradotta dall'API Cloud Translation.

Utilizzo del rilevamento automatico dello schema

Rilevamento automatico dello schema

Il rilevamento automatico dello schema consente a BigQuery di dedurre lo schema per i dati CSV, JSON o Fogli Google. Il rilevamento automatico dello schema è disponibile quando carichi i dati in BigQuery e quando esegui query su un'origine dati esterna.

Quando il rilevamento automatico è abilitato, BigQuery deduce il tipo di dati per ogni colonna. BigQuery seleziona un file casuale nell'origine dati e analizza fino alle prime 500 righe di dati da utilizzare come campione rappresentativo. BigQuery esamina quindi ogni campo e tenta di assegnare un tipo di dati a quel campo in base ai valori del campione. Se tutte le righe di una colonna sono vuote, il rilevamento automatico utilizzerà per impostazione predefinita il tipo di dati STRING per la colonna.

Se non abiliti il rilevamento automatico dello schema per i dati CSV, JSON o Fogli Google, devi fornire lo schema manualmente durante la creazione della tabella.

Non è necessario attivare il rilevamento automatico dello schema per i file Avro, Parquet, ORC, di esportazione Firestore o di esportazione Datastore. Questi formati di file sono autodescrittivi, quindi BigQuery deduce automaticamente lo schema della tabella dai dati di origine. Per i file Parquet, Avro e Orc, puoi fornire facoltativamente uno schema esplicito per ignorare lo schema dedotto.

Puoi visualizzare lo schema rilevato per una tabella nei seguenti modi:

Utilizza la console Google Cloud .
Utilizza il comando bq show dello strumento a riga di comando bq.

Quando BigQuery rileva gli schemi, in rari casi potrebbe modificare il nome di un campo per renderlo compatibile con la sintassi GoogleSQL.

Per informazioni sulle conversioni dei tipi di dati, consulta quanto segue:

Conversione del tipo di dati durante il caricamento dei dati da Datastore
Conversione del tipo di dati durante il caricamento dei dati da Firestore
Conversioni Avro
Conversioni Parquet
Conversioni ORC

Caricamento dei dati utilizzando il rilevamento automatico dello schema

Per attivare il rilevamento automatico dello schema durante il caricamento dei dati, utilizza uno di questi approcci:

Nella console Google Cloud , nella sezione Schema, seleziona l'opzione Parametri di schema e input per Rilevamento automatico.
Nello strumento a riga di comando bq, utilizza il comando bq load con il parametro --autodetect.

Quando il rilevamento automatico dello schema è attivato, BigQuery tenta di dedurre automaticamente lo schema per i file CSV e JSON. La logica di rilevamento automatico deduce i tipi di campi dello schema leggendo fino alle prime 500 righe di dati. Le linee guida vengono ignorate se è presente il flag --skip_leading_rows. I tipi di campi si basano sulle righe con il maggior numero di campi. Pertanto, il rilevamento automatico dovrebbe funzionare come previsto purché esista almeno una riga di dati con valori in ogni colonna/campo.

Il rilevamento automatico dello schema non viene utilizzato con file Avro, file Parquet, file ORC, file di esportazione Firestore o file di esportazione Datastore. Quando carichi questi file in BigQuery, lo schema della tabella viene recuperato automaticamente dai dati di origine autodescrittivi.

Per utilizzare il rilevamento automatico dello schema quando carichi dati JSON o CSV:

Console

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery
Nel riquadro a sinistra, fai clic su Explorer:

Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.
Nel riquadro Explorer, espandi il progetto, fai clic su Set di dati e poi sul tuo set di dati.
Nel riquadro dei dettagli, fai clic su Crea tabella.
Nella sezione Origine della pagina Crea tabella:
- In Crea tabella da, seleziona il tipo di origine che preferisci.
- Nel campo Origine, cerca il bucket File/Cloud Storage o inserisci l'URI Cloud Storage. Tieni presente che non puoi includere più URI nella console Google Cloud , ma i caratteri jolly sono supportati. Il bucket Cloud Storage deve trovarsi nella stessa posizione del set di dati che contiene la tabella che stai creando.
- Per Formato file, seleziona CSV o JSON.
Nella sezione Destinazione della pagina Crea tabella:
- Per Nome set di dati, scegli il set di dati appropriato.
- Nel campo Nome tabella, inserisci il nome della tabella che stai creando.
- Verifica che Tipo di tabella sia impostato su Tabella nativa.
Fai clic su Crea tabella.

bq

Esegui il comando bq load con il parametro --autodetect.

(Facoltativo) Fornisci il flag --location e imposta il valore sulla tua posizione.

Il seguente comando carica un file utilizzando il rilevamento automatico dello schema:

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

Sostituisci quanto segue:

LOCATION: il nome della tua sede. Il flag --location è facoltativo. Ad esempio, se utilizzi BigQuery nella regione di Tokyo, imposta il valore del flag su asia-northeast1. Puoi impostare un valore predefinito per la località utilizzando il file.bigqueryrc.
FORMAT: NEWLINE_DELIMITED_JSON o CSV.
DATASET: il set di dati che contiene la tabella in cui carichi i dati.
TABLE: il nome della tabella in cui carichi i dati.
PATH_TO_SOURCE: è la posizione del file CSV o JSON.

Esempi:

Inserisci il seguente comando per caricare myfile.csv dalla tua macchina locale in una tabella denominata mytable archiviata in un set di dati denominato mydataset.

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

Inserisci il seguente comando per caricare myfile.json dalla tua macchina locale in una tabella denominata mytable archiviata in un set di dati denominato mydataset.

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json