Introduzione al metastore BigQuery
Il metastore BigQuery è un metastore completamente gestito per i prodotti di analisi dei dati su Google Cloud. Fornisce un'unica fonte attendibile per la gestione degli metadati provenienti da più origini. Il metastore è accessibile da BigQuery e da vari motori di elaborazione dei dati aperti, il che lo rende un strumento utile per data analyst e data engineer.
Ad esempio, puoi utilizzare il metastore BigQuery come catalogo con motori di query open source come Apache Spark. È possibile eseguire query sulle tabelle create utilizzando Spark utilizzando BigQuery senza dover sincronizzare i metadati.
Vantaggi
Il metastore BigQuery offre diversi vantaggi per la gestione e l'analisi dei dati:
- Architettura serverless. Il metastore BigQuery fornisce un'architettura serverless, eliminando la necessità di gestire server o cluster. Ciò contribuisce a ridurre l'overhead operativo, semplifica la distribuzione e consente la scalabilità automatica in base alla domanda.
- Interoperabilità del motore. Il metastore BigQuery ti fornisce accesso diretto alle tabelle in BigQuery, consentendoti di eseguire query sulle tabelle in formato aperto archiviate in BigQuery senza ulteriore configurazione. Ad esempio, puoi creare una tabella in Spark ed eseguire query direttamente in BigQuery. In questo modo, puoi semplificare il flusso di lavoro di analisi e ridurre la necessità di processi ETL o di spostamento dei dati complessi.
Esperienza utente unificata. Il metastore BigQuery fornisce un workflow unificato in BigQuery e BigQuery Studio. In questo modo puoi utilizzare Spark direttamente in BigQuery e BigQuery Studio. Ad esempio:
Innanzitutto, puoi creare una tabella in Spark con un blocco note BigQuery Studio.
Successivamente, puoi eseguire query sulla stessa tabella Spark nella consoleGoogle Cloud .
Integrazioni supportate
Puoi utilizzare il metastore BigQuery con la console Google Cloud , gcloud CLI o le API REST di BigQuery.
Il metastore BigQuery supporta le seguenti integrazioni:
- Formati delle tabelle. Apache Iceberg 1.5.2 o versioni successive.
- Dataproc. Versione 2.2 o successive.
- Motori di elaborazione dei dati. Spark versione 3.3 o successiva.
- Plug-in. Plugin del catalogo Iceberg del metastore BigQuery.
Differenze con BigLake Metastore
Il metastore BigQuery è il metastore consigliato su Google Cloud.
Le differenze principali tra il metastore BigQuery e BigLake Metastore includono i seguenti dettagli:
BigLake Metastore è un servizio di metastore autonomo distinto da BigQuery e supporta solo le tabelle Iceberg. Ha un modello di risorse in tre parti diverso. Le tabelle in BigLake non vengono rilevate automaticamente da BigQuery.
Il metastore BigQuery si basa sul catalogo BigQuery e si integra direttamente con BigQuery. Le tabelle nel metastore di BigQuery sono mutabili da più motori open source ed è possibile eseguire query sulle stesse tabelle da BigQuery. Quando utilizzi BigQuery, esiste un'unica fonte attendibile per i metadati. Ad esempio, il metastore BigQuery supporta l'integrazione diretta con Spark. Questa integrazione offre un flusso di lavoro più fluido e contribuisce a ridurre la ridondanza durante la memorizzazione dei metadati e l'esecuzione dei job.
Passaggi successivi
- Eseguire la migrazione dei dati di Dataproc Metastore al metastore BigQuery
- Utilizzare il metastore BigQuery con Dataproc
- Utilizzare il metastore BigQuery con Dataproc Serverless