Panoramica di Dataproc Metastore

Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito in esecuzione su Google Cloud. Un (HMS) è lo standard consolidato nell'ecosistema dei big data open source per la gestione di metadati tecnici, come schemi, partizioni e statistiche di colonne, in un database relazionale.

Dataproc Metastore è a disponibilità elevata, con riparazione automatica e serverless. Utilizzalo per gestire i metadati dei data lake e fornire l'interoperabilità tra i vari motori e strumenti di trattamento dati in uso.

Come funziona Dataproc Metastore

Puoi utilizzare un servizio Dataproc Metastore collegandolo a un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per ottimizzare la pianificazione e l'esecuzione delle query.

Questa integrazione consente di mantenere le informazioni delle tabelle tra job o di rendere disponibili i metadati ad altri cluster e altri motori di elaborazione.

Ad esempio, l'implementazione di un metastore potrebbe aiutarti a indicare che un sottoinsieme dei tuoi file contiene dati sulle entrate, anziché monitorare manualmente i nomi dei file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. Successivamente, puoi connetterlo a un cluster Dataproc ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, SQL Spark o altri servizi di query.

Versioni di Dataproc Metastore

Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.

  • Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale in aggiunta alle funzionalità di Dataproc Metastore 1. Per ulteriori informazioni, vedi Funzionalità e vantaggi.

  • Dataproc Metastore 2 ha un piano tariffario diverso rispetto a Dataproc Metastore. Per ulteriori informazioni, consulta la sezione Piani tariffari e configurazioni di scalabilità.

Casi d'uso comuni

Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente specificato.

  • Attribuisci un significato ai dati. Crea un repository di metadati centralizzato, condiviso tra molti cluster Dataproc temporanei. Utilizza diversi motori software open source (OSS), ad esempio [Apache Hive](https://hive.apache.org, Apache Spark e Presto).

  • Crea una visualizzazione unificata dei tuoi dati. Offri l'interoperabilità tra i servizi di Google Cloud, come Dataproc, Dataplex e BigQuery, oppure utilizza altre offerte di partner basate su open source su Google Cloud.

Funzionalità e vantaggi

Se non diversamente specificato, tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1.

  • Compatibilità con sistemi OSS. Connettiti ai tuoi motori di elaborazione dati esistenti, ad esempio Apache Hive, Apache Spark e Presto.

  • Gestione. Crea o aggiorna un metastore in pochi minuti, con attività di monitoraggio e operazione completamente configurate.

  • Integrazione. Eseguire l'integrazione con altri prodotti Google Cloud, ad esempio utilizzare BigQuery come origine dei metadati per un cluster Dataproc.

  • Sicurezza integrata. Utilizzare i protocolli di sicurezza di Google Cloud consolidati, come Identity and Access Management (IAM) e l'autenticazione Kerberos.

  • Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive Metastore esterno in un servizio Dataproc Metastore.

  • Backup automatici. Configura i backup automatici dei metastore per evitare la perdita di dati.

  • Monitoraggio delle prestazioni. Imposta livelli di prestazioni per rispondere in modo dinamico a carichi di lavoro e picchi di traffico ad alta intensità, senza operazioni preliminari o memorizzazione nella cache.

  • Disponibilità elevata (HA).

    • Dataproc Metastore 2. Fornisce alta disponibilità (HA) a livello di zona senza richiedere alcuna configurazione specifica o gestione continua. Ciò avviene tramite la replica automatica dei database di backend e dei server HMS in più zone nella regione scelta. Oltre all'alta disponibilità a livello di zona, Dataproc Metastore 2 supporta l'alta disponibilità e il ripristino di emergenza (RE) a livello di regione.
    • Dataproc Metastore 1. Per impostazione predefinita, fornisce l'alta disponibilità (HA) a livello di zona senza richiedere alcuna configurazione specifica o gestione continua. Questo si ottiene replicando automaticamente i database di backend e i server HMS in più zone
  • Scalabilità.

    • Dataproc Metastore 2. Usa un fattore di scalabilità orizzontale per determinare il numero di risorse che il servizio ha bisogno di utilizzare in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato sulla scalabilità automatica (anteprima) quando necessario.
    • Dataproc Metastore 1. Puoi scegliere tra un livello sviluppatore o un livello enterprise durante la configurazione del servizio. Questo livello determina il numero di risorse che il servizio deve utilizzare in un determinato momento.
  • Assistenza. Sfrutta gli SLA (accordi sul livello del servizio) standard di Google Cloud e i canali di assistenza.

Integrazioni con Google Cloud

Se non diversamente specificato, tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2.

  • Dataproc. Connettiti a un cluster Dataproc per gestire i metadati per i carichi di lavoro dei big data OSS.
  • BigQuery. Eseguire query su set di dati BigQuery nei carichi di lavoro Dataproc.
  • Dataplex. Query su dati strutturati e semistrutturati rilevati in un lake Dataplex.
  • Catalogo dati. Sincronizza Dataproc Metastore con Data Catalog per consentire la ricerca e il rilevamento dei metadati.
  • Logging e Monitoring. Integra Dataproc Metastore con i prodotti Cloud Monitoring e Logging.
  • Autenticazione e IAM. Affidati all'autenticazione OAuth standard utilizzata da altri prodotti Google Cloud, che supporta l'uso granulare di ruoli Identity and Access Management per abilitare il controllo dell'accesso dell'accesso per le singole risorse.

Passaggi successivi