Panoramica di Dataproc Metastore

Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito che funziona su Google Cloud. Un HMS è lo standard stabilito nell'ecosistema big data open source per la gestione dei metadati tecnici, come schemi, partizioni e statistiche delle colonne in un database relazionale.

Dataproc Metastore è ad alta disponibilità, con riparazione automatica e serverless. Utilizzalo per gestire i metadati dei data lake e per garantire l'interoperabilità tra i vari motori di elaborazione dei dati e gli strumenti che utilizzi.

Come funziona Dataproc Metastore

Puoi utilizzare un servizio Dataproc Metastore collegandolo a un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per gestire la pianificazione e l'esecuzione delle query.

Questa integrazione ti consente di conservare le informazioni sulle tabelle tra i job o di rendere disponibili i metadati per altri cluster e altri motori di elaborazione.

Ad esempio, l'implementazione di un metastore potrebbe aiutarti a designare un sottoinsieme di file contenenti dati sulle entrate, anziché monitorare manualmente i nomi file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. Dopodiché puoi collegarlo a un cluster Dataproc ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, Spark SQL o altri servizi di query.

Versioni di Dataproc Metastore

Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.

  • Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore 1. Per ulteriori informazioni, consulta la sezione Funzionalità e vantaggi.

  • Dataproc Metastore 2 ha un piano tariffario diverso rispetto a Dataproc Metastore. Per ulteriori informazioni, consulta i piani tariffari e le configurazioni di scalabilità.

Casi d'uso comuni

Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente specificato.

  • Assegna un significato ai dati. Crea un repository di metadati centralizzato che viene condiviso tra molti cluster Dataproc effimeri. Utilizza diversi motori software open source (OSS), come [Apache Hive](https://hive.apache.org), Apache Spark e Presto.

  • Crea una visualizzazione unificata dei tuoi dati. Fornisci l'interoperabilità tra i serviziGoogle Cloud , come Dataproc, Dataplex e BigQuery, oppure utilizza altre offerte di partner basate su open source suGoogle Cloud.

Funzionalità e vantaggi

Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1, salvo diversa indicazione.

  • Compatibilità con software open source. Collegarti ai tuoi motori di elaborazione dei dati esistenti, come Apache Hive, Apache Spark e Presto.

  • Gestione. Crea o aggiorna un metastore in pochi minuti, completo di attività di monitoraggio e gestione completamente configurate.

  • Integrazione. Integrazione con altri Google Cloud prodotti, ad esempio l'utilizzo di BigQuery come origine dei metadati per un cluster Dataproc.

  • Sicurezza integrata. Utilizza Google Cloud protocolli di sicurezza stabiliti, come Identity and Access Management (IAM) e l'autenticazione Kerberos.

  • Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive esterno in un servizio Dataproc Metastore.

  • Backup automatici. Configura i backup automatici del metastore per contribuire a evitare la perdita di dati.

  • Monitoraggio del rendimento. Imposta i livelli di prestazioni in modo che rispondano in modo dinamico a picchi e carichi di lavoro molto intensi, senza preriscaldamento o memorizzazione nella cache.

  • Disponibilità elevata (HA).

    • Dataproc Metastore 2. Offre alta disponibilità (HA) di zona senza richiedere alcuna configurazione o gestione continua specifica. Questo viene ottenuto replicando automaticamente i database di backend e i server HMS in più zone della regione scelta. Oltre all'HA zonale, Dataproc Metastore 2 supporta l'HA regionale e la gestione del rischio di catastrofe (DR).
    • Dataproc Metastore 1. Per impostazione predefinita, offre alta disponibilità (HA) di zona senza richiedere alcuna configurazione o gestione continua specifica. Ciò viene ottenuto replicando automaticamente i database di backend e i server HMS in più zone della regione scelta.

    Per ulteriori informazioni sulle considerazioni specifiche per regione, consulta Geografia e regioni.

  • Scalabilità.

    • Dataproc Metastore 2. Utilizza un fattore di scalabilità orizzontale per determinare quante risorse deve utilizzare il tuo servizio in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato su scalabilità automatica se necessario.
    • Dataproc Metastore 1. Quando configuri il servizio, scegli tra un livello sviluppatore o un livello enterprise. Questo livello determina il numero di risorse che il tuo servizio deve utilizzare in un determinato momento.
  • Assistenza. Usufruisci di SLA Google Cloud e canali di assistenza standard.

Integrazioni con Google Cloud

Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2, salvo diversa indicazione.

  • Dataproc. Connettiti a un cluster Dataproc per poter pubblicare i metadati per i carichi di lavoro big data OSS.
  • BigQuery. Esegui query sui set di dati BigQuery nei carichi di lavoro Dataproc.
  • Dataplex. Esegui query sui dati strutturati e semistrutturati rilevati in un data lake Dataplex.
  • Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per abilitare la ricerca e il rilevamento dei metadati.
  • Logging e monitoraggio. Integra Dataproc Metastore con i prodotti Cloud Monitoring e Logging.
  • Autenticazione e IAM. Utilizza l'autenticazione OAuth standard utilizzata da altri prodottiGoogle Cloud , che supporta l'utilizzo di ruoli granulari di Identity and Access Management per attivare il controllo degli accessi per le singole risorse.

Passaggi successivi