Dataproc Metastore è un metastore Apache Hive completamente gestito, a disponibilità elevata, con riparazione automatica, privo di server, che viene eseguito su Google Cloud.
Dataproc Metastore mette a tua disposizione un Hive Metastore (HMS) completamente compatibile, che è lo standard consolidato nell'ecosistema dei big data open source per la gestione dei metadati tecnici. Questo servizio ti aiuta a gestire i metadati dei tuoi data lake e fornisce interoperabilità tra i vari motori di elaborazione dei dati e gli strumenti che stai utilizzando.
Come funziona Dataproc Metastore
Puoi utilizzare un servizio Dataproc Metastore connettendolo a un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per guidare la pianificazione e l'esecuzione delle query.
Questa integrazione ti consente di mantenere le informazioni della tabella tra i job o di rendere disponibili i metadati ad altri cluster e altri motori di elaborazione.
Ad esempio, l'implementazione di un metastore potrebbe aiutarti a indicare che un sottoinsieme dei file contiene dati sulle entrate anziché monitorare manualmente i nomi dei file. In questo caso, puoi definire una tabella per tali file e archiviare i metadati in Dataproc Metastore. Dopo potrai collegarlo a un cluster Dataproc ed eseguire query sulla tabella per informazioni utilizzando Hive, Spark SQL o altri servizi di query.
Versioni Metastore Dataproc
Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore o un servizio Dataproc Metastore 1.
Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità Dataproc Metastore 1. Per scoprire di più, consulta le funzionalità e i vantaggi.
Dataproc Metastore 2 ha un piano tariffario diverso da Dataproc Metastore. Per ulteriori informazioni, consulta Piani di prezzo e configurazioni di scalabilità.
Casi d'uso comuni
Salvo diversamente indicato, tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore e 2 Dataproc Metastore.
Assegna un significato ai tuoi dati. Crea un repository di metadati centralizzato condiviso tra molti cluster Dataproc temporanei. Utilizza diversi motori di software open source (OSS), come Apache Hive, Apache Spark e Presto.
Crea una visualizzazione unificata dei tuoi dati. Fornisci interoperabilità tra i servizi Google Cloud, come Dataproc, Dataplex, e BigQuery, oppure utilizza altre offerte di partner open source su Google Cloud.
Funzionalità e vantaggi
Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore e 2 Dataproc Metastore 1, se non diversamente specificato.
Compatibilità con OSS. Connetterti ai tuoi motori di elaborazione dati esistenti, come Apache Hive, Apache Spark e Presto.
Gestione. Crea o aggiorna un metastore in pochi minuti, completa di attività di monitoraggio e funzionamento completamente configurate.
Integrazione. Integrare altri prodotti Google Cloud, ad esempio utilizzando BigQuery come origine di metadati per un cluster Dataproc.
Sicurezza integrata. Utilizzare protocolli di sicurezza Google Cloud consolidati, come Identity and Access Management (IAM) e autenticazione Kerberos.
Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive Metastore esterno in un servizio Dataproc Metastore.
Backup automatici. Configura backup automatici del metastore per evitare la perdita di dati.
Monitoraggio del rendimento Imposta i livelli di prestazioni in modo dinamico per rispondere a picchi e carichi di lavoro ad alta intensità, senza riscaldamento o memorizzazione nella cache.
Alta disponibilità.
- Dataproc Metastore 2. Fornisce alta disponibilità a livello di zona (HA) senza richiedere alcuna configurazione specifica o gestione continua. Il tutto avviene replicando automaticamente i database e i server HMS di backend in più zone nell'area geografica che hai scelto. Oltre all'alta disponibilità di zona, Dataproc Metastore 2 supporterà a breve l'alta disponibilità regionale e il ripristino di emergenza (RE).
- Dataproc Metastore 1. Per impostazione predefinita, fornisce un'alta disponibilità a livello di zona (HA) senza richiedere alcuna configurazione specifica o gestione continua. Questo si ottiene replicando automaticamente i database di backend e i server HMS in più zone nell'area geografica che hai scelto
Scalabilità.
- Dataproc Metastore 2. Utilizza un fattore di scalabilità orizzontale per determinare quante risorse devono essere utilizzate dal servizio in un determinato momento.
- Dataproc Metastore 1. Scegli un livello sviluppatore o un livello aziendale durante la configurazione del servizio. Questo livello determina quante risorse deve utilizzare il servizio in un determinato momento.
Assistenza. Usufruire degli SLA e dei canali di assistenza standard di Google Cloud.
Integrazioni
Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore e 1 Dataproc Metastore 2, se non diversamente specificato.
- Dataproc. Connettiti a un cluster Dataproc, in modo da poter gestire i metadati per i carichi di lavoro di big data OSS.
- BigQuery Esegui query su set di dati BigQuery nei tuoi carichi di lavoro Dataproc.
- Dataplex. Esegui query su dati strutturati e semistrutturati rilevati in un lake Dataplex.
- Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per consentire la ricerca e il rilevamento dei metadati.
- Logging e monitoraggio. Integra Dataproc Metastore con Cloud Monitoring e i prodotti di logging.
- Autenticazione e IAM. Affidati all'autenticazione OAuth standard utilizzata da altri prodotti Google Cloud, che supporta l'uso di ruoli granulari per Identity and Access Management per abilitare controllo dell'accesso dell'accesso per le singole risorse.
Concetti fondamentali
Per ulteriori informazioni su Dataproc Metastore, consulta i concetti fondamentali.
Passaggi successivi
- Inizia con la guida rapida, Deployment di un servizio Dataproc Metastore.
- Scopri di più sui prezzi di Dataproc di Metastore.
- Scopri le quote e i limiti per Dataproc Metastore.
- Leggi le note di rilascio di Dataproc.
- Accedi a Dataproc Metastore utilizzando la console Google Cloud, l'interfaccia a riga di comando gcloud o con l'API Dataproc Metastore.