Introduzione alle origini dati esterne

Questa pagina fornisce una panoramica dell'esecuzione di query sui dati archiviati al di fuori di BigQuery.

Un'origine dati esterna è un'origine dati in cui puoi eseguire query direttamente da BigQuery, anche se i dati non vengono archiviati in BigQuery. Ad esempio, potresti avere dati in un database Google Cloud diverso, in file in Cloud Storage o in un prodotto cloud diverso che vorresti analizzare in BigQuery, ma non avere ancora la possibilità di eseguire una migrazione.

Ecco alcuni casi d'uso per le origini dati esterne:

  • Per i carichi di lavoro ELT (estrazione, trasformazione e caricamento), caricamento ed eliminazione dei dati in un solo passaggio e scrittura del risultato nello spazio di archiviazione BigQuery tramite una query CREATE TABLE ... AS SELECT.
  • Unione di tabelle BigQuery con dati che cambiano spesso di un'origine dati esterna. Se esegui una query direttamente sull'origine dati esterna, non devi ricaricare i dati nello spazio di archiviazione BigQuery ogni volta che viene modificata.

BigQuery dispone di due diversi meccanismi per eseguire query sui dati esterni: tabelle esterne e query federate.

Tabelle esterne

Le tabelle esterne sono simili alle tabelle BigQuery standard, in quanto archiviano i metadati e lo schema nello spazio di archiviazione BigQuery. Tuttavia, i dati si trovano in una fonte esterna.

Le tabelle esterne sono contenute in un set di dati e vengono gestite nello stesso modo in cui gestisci una tabella BigQuery standard. Ad esempio, puoi visualizzare le proprietà della tabella, impostare i controlli di accesso e così via. Puoi eseguire query su queste tabelle e, nella maggior parte dei casi, puoi unirli ad altre tabelle.

Esistono quattro tipi di tabelle esterne:

  • Tabelle BigLake
  • Tabelle BigQuery Omni
  • Tabelle di oggetti
  • Tabelle esterne non BigLake

Tabelle BigLake

Le tabelle BigLake ti consentono di eseguire query sui dati strutturati in data store esterni con delega dell'accesso. La delega dell'accesso scollega l'accesso alla tabella BigLake dall'accesso all'datastore sottostante. Per connettersi allo datastore viene utilizzata una connessione esterna associata a un account di servizio. Poiché l'account di servizio gestisce il recupero dei dati dallo datastore, devi solo concedere agli utenti l'accesso alla tabella BigLake. In questo modo puoi applicare una sicurezza granulare a livello di tabella, inclusa la sicurezza a livello di riga e livello di colonna. Per le tabelle BigLake basate su Cloud Storage, puoi anche utilizzare il mascheramento dei dati dinamico. Per scoprire di più sulle soluzioni di analisi multi-cloud che utilizzano le tabelle BigLake con i dati di Amazon S3 o Archiviazione BLOB, consulta BigQuery Omni.

Per ulteriori informazioni, consulta Introduzione alle tabelle BigLake.

Tabelle di oggetti

Le tabelle di oggetti ti consentono di analizzare i dati non strutturati in Cloud Storage. Puoi eseguire analisi con funzioni remote o eseguire l'inferenza utilizzando BigQuery ML, quindi unire i risultati di queste operazioni con il resto dei dati strutturati in BigQuery.

Come le tabelle BigLake, le tabelle di oggetti utilizzano la delega dell'accesso, che disaccoppia l'accesso alla tabella di oggetti dall'accesso agli oggetti Cloud Storage. Per connettersi a Cloud Storage viene utilizzata una connessione esterna associata a un account di servizio, pertanto devi solo concedere agli utenti l'accesso alla tabella degli oggetti. In questo modo puoi applicare la sicurezza a livello di riga e gestire gli oggetti a cui gli utenti hanno accesso.

Per ulteriori informazioni, consulta Introduzione alle tabelle oggetti.

Tabelle esterne non BigLake

Le tabelle esterne diverse da BigLake ti consentono di eseguire query sui dati strutturati in datastore esterni. Per eseguire query su una tabella esterna non BigLake, devi disporre delle autorizzazioni sia per la tabella esterna sia per l'origine dati esterna. Ad esempio, per eseguire query su una tabella esterna non BigLake che utilizza un'origine dati in Cloud Storage, devi disporre delle seguenti autorizzazioni:

  • bigquery.tables.getData
  • bigquery.jobs.create
  • storage.buckets.get
  • storage.objects.get

Per ulteriori informazioni, consulta Introduzione alle tabelle esterne.

Query federate

Le query federate ti consentono di inviare un'istruzione di query ai database AlloyDB, Spanner o Cloud SQL e di ricevere il risultato come tabella temporanea. Le query federate utilizzano l'API BigQuery Connection per stabilire una connessione con AlloyDB, Spanner o Cloud SQL. Nella query, utilizzi la funzione EXTERNAL_QUERY per inviare un'istruzione di query al database esterno utilizzando il dialetto SQL del database. I risultati vengono convertiti in tipi di dati GoogleSQL.

Per ulteriori informazioni, consulta la sezione Introduzione alle query federate.

Confronto delle funzionalità delle origini dati esterne

La seguente tabella mette a confronto il comportamento delle origini dati esterne:

Tabelle BigLake Tabelle di oggetti Tabelle esterne non BigLake Query federate
Utilizza la delega dell'accesso Sì, tramite un account di servizio Sì, tramite un account di servizio No Sì, tramite un account utente del database (solo Cloud SQL)
Può essere basato su più URI di origine Sì (solo Cloud Storage) Non applicabile
Mappatura delle righe Le righe rappresentano i contenuti del file Le righe rappresentano i metadati del file Le righe rappresentano i contenuti del file Non applicabile
Accessibili da altri strumenti di elaborazione dei dati tramite l'utilizzo di connettori Sì (solo Cloud Storage) No Non applicabile
Possono essere unite ad altre tabelle BigQuery Sì (solo Cloud Storage)
È possibile accedervi come a una tabella temporanea Sì (solo Cloud Storage) No
Compatibile con Amazon S3 No No No
Compatibile con Archiviazione di Azure No No No
Funziona con Bigtable No No No
Compatibile con Spanner No No No
Compatibile con Cloud SQL No No No
Funziona con Google Drive No No No
Compatibile con Cloud Storage No

Passaggi successivi