Panoramica di Dataproc Metastore

Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito che viene eseguito su Google Cloud. Uno (HMS) è lo standard consolidato per i big data open source ecosistema per la gestione di metadati tecnici, come schemi, partizioni e colonne le statistiche in un database relazionale.

Dataproc Metastore è ad alta disponibilità, con riparazione automatica e serverless. Utilizzala per gestire il data lake metadati e forniscono l'interoperabilità tra i vari motori di elaborazione dei dati e strumenti che utilizzi.

Come funziona Dataproc Metastore

Puoi utilizzare un servizio Dataproc Metastore connettendolo a per un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per guidare la pianificazione e l'esecuzione delle query.

Questa integrazione consente di conservare le informazioni delle tabelle tra i job e i metadati disponibili per altri cluster e altri motori di elaborazione.

Ad esempio, l'implementazione di un metastore potrebbe aiutarti a indicare che un sottoinsieme dei tuoi file contengono dati sulle entrate, invece di monitorare manualmente i nomi dei file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. In seguito, potrai collegarlo a un cluster Dataproc ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, Spark SQL o altri servizi di query.

Versioni di Dataproc Metastore

Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un Dataproc Metastore 1 Google Cloud.

  • Dataproc Metastore 2 è la nuova generazione del servizio che offre e scalabilità orizzontale, oltre alle funzionalità di Dataproc Metastore 1. Per ulteriori informazioni, vedi Funzionalità e vantaggi.

  • Dataproc Metastore 2 ha un piano tariffario diverso rispetto Dataproc Metastore. Per ulteriori informazioni, consulta la sezione sui piani tariffari e sulle configurazioni di scalabilità.

Casi d'uso comuni

Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente specificato.

  • Assegna un significato ai tuoi dati. Crea un repository di metadati centralizzato condiviso tra molti cluster Dataproc temporanei. Utilizza le funzionalità di diversi motori software open source (OSS), come [Apache Hive](https://hive.apache.org) , Apache Spark e Presto.

  • Crea una visualizzazione unificata dei tuoi dati. Fornire l'interoperabilità tra ai servizi Google Cloud come Dataproc, Dataplex, e BigQuery o altre offerte di partner basate su open source su in Google Cloud.

Funzionalità e vantaggi

Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente specificato.

  • Compatibilità OSS. Collegati ai tuoi motori di elaborazione dei dati esistenti come Apache Hive, Apache Spark e Presto.

  • Gestione. Crea o aggiorna un metastore in pochi minuti, completa di di attività di monitoraggio e operative completamente configurate.

  • Integrazione. Eseguire l'integrazione con altri prodotti Google Cloud, come usando BigQuery come origine dei metadati per un progetto Dataproc in un cluster Kubernetes.

  • Sicurezza integrata. Utilizzare i protocolli di sicurezza consolidati di Google Cloud, ad esempio Identity and Access Management (IAM) e l'autenticazione Kerberos.

  • Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive esterno metastore in un servizio Dataproc Metastore.

  • Backup automatici. Configura backup automatici del metastore per evitare e la perdita di dati.

  • Monitoraggio del rendimento: Imposta livelli di prestazioni per rispondere in modo dinamico carichi di lavoro ad alta intensità e picchi, senza preriscaldamento o memorizzazione nella cache.

  • Alta disponibilità.

    • Dataproc Metastore 2. Fornisce alta disponibilità (HA) a livello di zona senza richiedere configurazioni specifiche o una gestione continua. Questo è mediante la replica automatica dei database di backend e dei server HMS in più zone nella regione scelta. Oltre all'alta disponibilità a livello di zona, Dataproc Metastore 2 supporta alta disponibilità a livello di regione Ripristino di emergenza.
    • Dataproc Metastore 1. Per impostazione predefinita, fornisce dati a livello di zona (HA) senza richiedere alcuna configurazione specifica o gestione dei dispositivi. Ciò si ottiene replicando automaticamente i database di backend e i server HMS in più zone nella regione scelta
  • Scalabilità.

    • Dataproc Metastore 2. Utilizza un fattore di scala orizzontale per per determinare quante risorse il tuo servizio deve utilizzare in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato sulla scalabilità automatica quando necessario.
    • Dataproc Metastore 1. Scegli tra un livello sviluppatore di livello enterprise quando configuri il servizio. Questo livello determina il modo in cui molte risorse che il tuo servizio deve utilizzare in un determinato momento.
  • Assistenza. Usufruisci degli SLA (accordi sul livello del servizio) e dei canali di assistenza standard di Google Cloud.

Integrazioni con Google Cloud

Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2, se non diversamente specificato.

  • Dataproc. Connettiti a un cluster Dataproc per gestire e metadati per carichi di lavoro per big data OSS.
  • BigQuery. Eseguire query su set di dati BigQuery in Dataproc carichi di lavoro con scale out impegnativi.
  • Dataplex. Query su dati strutturati e semistrutturati rilevati in un lake Dataplex.
  • Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per consentire la ricerca e il rilevamento dei metadati.
  • Logging e Monitoring. Integra Dataproc Metastore con Prodotti Cloud Monitoring e Logging.
  • Autenticazione e IAM. Si affidano all'autenticazione OAuth standard utilizzata da altri Prodotti Google Cloud, che supporta l'utilizzo di ruoli granulari di Identity and Access Management per e abilitare il controllo dell'accesso per le singole risorse.

Passaggi successivi