Introduzione al metastore BigQuery

Il metastore BigQuery è un metastore completamente gestito per i prodotti di analisi dei dati su Google Cloud. Fornisce un'unica fonte attendibile per la gestione degli metadati provenienti da più origini. Il metastore è accessibile da BigQuery e da vari motori di elaborazione dei dati aperti, il che lo rende un strumento utile per data analyst e data engineer.

Ad esempio, puoi utilizzare il metastore BigQuery come catalogo con motori di query open source come Apache Spark. È possibile eseguire query sulle tabelle create utilizzando Spark utilizzando BigQuery senza dover sincronizzare i metadati.

Vantaggi

Il metastore BigQuery offre diversi vantaggi per la gestione e l'analisi dei dati:

  • Architettura serverless. Il metastore BigQuery fornisce un'architettura serverless, eliminando la necessità di gestire server o cluster. Ciò contribuisce a ridurre l'overhead operativo, semplifica il deployment e consente la scalabilità automatica in base alla domanda.
  • Interoperabilità del motore. Il metastore BigQuery ti fornisce accesso diretto alle tabelle in BigQuery, consentendoti di eseguire query sulle tabelle in formato aperto archiviate in BigQuery senza ulteriore configurazione. Ad esempio, puoi creare una tabella in Spark ed eseguire query direttamente in BigQuery. In questo modo, puoi semplificare il flusso di lavoro di analisi e ridurre la necessità di processi ETL o di spostamento dei dati complessi.
  • Esperienza utente unificata. Il metastore BigQuery fornisce un workflow unificato in BigQuery e BigQuery Studio. In questo modo puoi utilizzare Spark direttamente in BigQuery e BigQuery Studio. Ad esempio:

    Innanzitutto, puoi creare una tabella in Spark con un blocco note BigQuery Studio.

    Crea una tabella in BQMS

    Successivamente, puoi eseguire query sulla stessa tabella Spark nella console Google Cloud.

    Esegui query sulla tabella in BQMS

Integrazioni supportate

Puoi utilizzare il metastore BigQuery con la console Google Cloud, gcloud CLI o le API REST BigQuery.

Il metastore BigQuery supporta le seguenti integrazioni:

Differenze con BigLake Metastore

Il metastore BigQuery è il metastore consigliato su Google Cloud.

Le differenze principali tra il metastore BigQuery e BigLake Metastore includono i seguenti dettagli:

  • BigLake Metastore è un servizio di metastore autonomo distinto da BigQuery e supporta solo le tabelle Iceberg. Ha un modello di risorse distinto in tre parti. Le tabelle in BigLake non vengono rilevate automaticamente da BigQuery.

  • Il metastore BigQuery si basa sul catalogo BigQuery e si integra direttamente con BigQuery. Le tabelle nel metastore di BigQuery sono mutabili da più motori open source ed è possibile eseguire query sulle stesse tabelle da BigQuery. Quando utilizzi BigQuery, esiste un'unica fonte attendibile per i metadati. Ad esempio, il metastore BigQuery supporta l'integrazione diretta con Spark. Questa integrazione offre un flusso di lavoro più fluido e contribuisce a ridurre la ridondanza durante la memorizzazione dei metadati e l'esecuzione dei job.

Limitazioni

Le seguenti limitazioni si applicano alle tabelle del metastore di BigQuery:

  • Non puoi creare o modificare le tabelle del metastore BigQuery con istruzioni DDL o DML utilizzando il motore BigQuery. Puoi modificare le tabelle del metastore di BigQuery utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma questo comporta il rischio di apportare modifiche incompatibili con il motore esterno.
  • Le tabelle del metastore di BigQuery non supportano operazioni di rinominazione o ALTER TABLE ... RENAME TO istruzioni Spark SQL.
  • Le tabelle del metastore BigQuery sono soggette alle stesse quote e limiti delle tabelle standard.
  • Le prestazioni delle query per le tabelle del metastore BigQuery dal motore BigQuery potrebbero essere lente rispetto alle query sui dati in una tabella BigQuery standard. In generale, le prestazioni delle query per una tabella del metastore BigQuery dovrebbero essere equivalenti alla lettura dei dati direttamente da Cloud Storage.
  • Un simulacro di una query che utilizza una tabella del metastore BigQuery potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata fino al completamento della query effettiva. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
  • Non puoi fare riferimento a una tabella del metastore BigQuery in una query sulla tabella con caratteri jolly.
  • Non puoi utilizzare il metodo tabledata.list per recuperare i dati dalle tabelle del metastore di BigQuery. In alternativa, puoi salvare i risultati della query in una tabella di destinazione, quindi utilizzare il metodo tabledata.list su quella tabella.
  • Le tabelle del metastore BigQuery non supportano il clustering.
  • Le tabelle del metastore di BigQuery non supportano nomi di colonne flessibili.
  • La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle del metastore di BigQuery non è supportata.

Passaggi successivi