Utilizza i seguenti concetti per capire come funziona Dataproc Metastore e le diverse funzionalità che puoi utilizzare con il tuo servizio.
Versioni di Dataproc Metastore
Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.
Dataproc Metastore 2
Dataproc Metastore 2 utilizza un fattore di scalabilità per determinare il numero di risorse utilizzate dal servizio in un determinato momento. Dopo aver creato Dataproc Metastore 2, puoi fare lo scale up o lo scale down del servizio modificando il fattore di scalabilità.
Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale in aggiunta alle funzionalità di Dataproc Metastore. Per ulteriori informazioni, vedi Funzionalità e vantaggi.
Dataproc Metastore 2 ha un piano tariffario diverso rispetto a Dataproc Metastore. Per saperne di più, consulta la sezione Piani tariffari e configurazioni di scalabilità.
Dataproc Metastore 1
Dataproc Metastore 1 utilizza i livelli di servizio per determinare la quantità di risorse utilizzate dal servizio in un determinato momento. I livelli di servizio forniscono una quantità prevedibile e predeterminata di risorse.
Controlla la versione di Dataproc Metastore
Puoi verificare la versione di Dataproc Metastore in uso nella console Google Cloud.
- Dataproc Metastore 2: la tabella di configurazione contiene il seguente valore: Edition Enterprise - Single Region.
- Dataproc Metastore 1: la tabella di configurazione contiene uno dei seguenti valori: Tier: SVILUPPATORI o Tier: ENTERPRISE.
Termini comuni di Dataproc Metastore
I termini seguenti sono comunemente utilizzati nell'ecosistema e nella documentazione di Dataproc Metastore.
Servizi
- Apache Hive. Hive è un noto sistema di data warehouse open source creato su Apache Hadoop. Hive offre un linguaggio di query simile a SQL chiamato HiveQL, che viene utilizzato per analizzare grandi set di dati strutturati.
- Metastore Apache Hive. Il metastore Hive contiene i metadati sulle tabelle Hive, come lo schema e la posizione.
- Dataproc. Dataproc è un servizio completamente gestito, veloce e facile da utilizzare su Google Cloud per eseguire carichi di lavoro Apache Spark e Apache Hadoop in modo semplice ed economico. Dopo aver creato un Dataproc Metastore, puoi connetterti da un cluster Dataproc.
- Cluster Dataproc. Dopo aver creato un servizio Dataproc Metastore, puoi connetterti da un cluster Dataproc. Puoi utilizzare Dataproc Metastore anche con vari altri cluster, come i cluster autogestiti Apache Hive, Apache Spark o Presto.
- Servizio Dataproc Metastore. Il nome dell'istanza di metastore creata in Google Cloud. Nell'implementazione possono esistere uno o più servizi di metastore diversi.
- Private Service Connect. Private Service Connect consente di impostare una connessione privata ai metadati di Dataproc Metastore nelle reti VPC. Puoi utilizzarlo per il networking come alternativa al peering VPC.
- Controlli di servizio VPC. Controlli di servizio VPC migliora la tua capacità di ridurre il rischio di esfiltrazione di dati dai servizi Google Cloud consentendoti di creare perimetri che proteggono le risorse e i dati dei servizi da te specificati esplicitamente.
Concetti
- Tabelle. Tutte le applicazioni Hive dispongono di tabelle interne o non gestite gestite in cui sono archiviati i dati.
- Directory del warehouse Hive. La località predefinita in cui sono archiviati i dati delle tabelle gestite.
- Bucket Artifacts. Un bucket Cloud Storage creato automaticamente nel progetto con ogni servizio metastore che crei. Questo bucket può essere utilizzato per archiviare gli artefatti di servizio, ad esempio i metadati esportati e i dati delle tabelle gestite. Per impostazione predefinita, il bucket degli artefatti archivia la directory del warehouse predefinita del servizio Dataproc Metastore.
- Endpoint. Un servizio Dataproc Metastore consente ai client di accedere ai metadati Hive Metastore archiviati attraverso uno o più endpoint di rete. Dataproc Metastore fornisce gli URI per questi endpoint.
- Protocolli endpoint. Il protocollo di rete over-the-wire utilizzato per la comunicazione tra i client Dataproc Metastore e Hive Metastore. Dataproc Metastore supporta gli endpoint Apache Thrift e gRPC.
- Federazione dei metadati: Una funzionalità che consente di accedere ai metadati archiviati in più istanze Dataproc Metastore.
- Versioni ausiliarie. Una funzionalità che consente di connettere più versioni del client Hive allo stesso servizio Dataproc Metastore.
Concetti del metastore Hive
L'utilizzo di un servizio Dataproc Metastore richiede la conoscenza dei concetti di base del metastore Hive. Per ulteriori informazioni, vedi Hive Metastore.
Requisiti di rete
Il servizio Dataproc Metastore richiede l'accesso di rete per funzionare correttamente. Per ulteriori informazioni, vedi Configurare i requisiti di rete.
Configurazioni di progetti
Esistono diverse possibili configurazioni di progetto che puoi utilizzare durante il deployment di un cluster Dataproc e di un servizio Dataproc Metastore. Per ulteriori informazioni, consulta la sezione sul deployment tra progetti.