Die folgenden Konzepte sollen Ihnen helfen, die Funktionsweise von Dataproc Metastore und die verschiedenen Funktionen zu verstehen, die Sie mit Ihrem Dienst verwenden können.
Dataproc Metastore-Versionen
Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.
Dataproc Metastore 2
In Dataproc Metastore 2 wird ein Skalierungsfaktor verwendet, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt nutzt. Nachdem Sie einen Dataproc Metastore 2 erstellt haben, können Sie den Dienst skalieren, indem Sie den Skalierungsfaktor ändern.
Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Dataproc Metastore-Funktionen auch horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.
Dataproc Metastore 2 hat ein anderes Preismodell als Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.
Dataproc Metastore 1
In Dataproc Metastore 1 wird anhand von Dienststufen ermittelt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Service-Stufen bieten eine vorhersehbare, vorab festgelegte Menge an Ressourcen.
Dataproc Metastore-Version prüfen
Sie können in derGoogle Cloud Console nachsehen, welche Version von Dataproc Metastore Sie verwenden.
- Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – Single Region.
- Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.
Häufig verwendete Dataproc Metastore-Begriffe
Die folgenden Begriffe werden häufig im gesamten Dataproc Metastore-Ökosystem und in der Dokumentation verwendet.
Dienste
- Apache Hive Hive ist ein beliebtes Open-Source-Data-Warehouse-System auf der Grundlage von Apache Hadoop. Hive umfasst eine SQL-ähnliche Abfragesprache namens HiveQL, mit der große strukturierte Datasets analysiert werden.
- Apache Hive-Metastore. Der Hive-Metaspeicher enthält Metadaten zu Hive-Tabellen, z. B. dem Schema und Speicherort.
- Dataproc. Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst auf Google Cloud , über den Sie Apache Spark- und Apache Hadoop-Arbeitslasten einfach und kostengünstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie von einem Dataproc-Cluster aus eine Verbindung zu ihm herstellen.
- Dataproc-Cluster. Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie von einem Dataproc-Cluster aus eine Verbindung zu ihm herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
- Dataproc Metastore-Dienst Der Name der Metastore-Instanz, die Sie in Google Clouderstellen. Sie können einen oder mehrere verschiedene Metastore-Dienste in Ihrer Implementierung haben.
- Private Service Connect Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es für die Vernetzung als Alternative zum VPC-Peering verwenden.
- VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Daten-Exfiltration aus Google Cloud -Diensten verringern, indem Sie Perimeter erstellen, die die Ressourcen und Daten der von Ihnen explizit angegebenen Dienste schützen.
Konzepte
- Tabellen Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert werden.
- Hive-Warehouse-Verzeichnis: Der Standardspeicherort für Daten verwalteter Tabellen.
- Artefakt-Bucket: Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Sie Ihre Dienstartefakte speichern, z. B. exportierte Metadaten und verwaltete Tabellendaten. Standardmäßig wird im Artefakt-Bucket das Standard-Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes gespeichert.
- Endpunkte Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
- Endpunktprotokolle Das Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore und Hive Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift- und gRPC-Endpunkte.
- Metadata Federation (Metadatenverbund). Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
- Zusatzversionen Eine Funktion, mit der Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.
Hive-Metastore-Konzepte
Für die Verwendung eines Dataproc Metastore-Dienstes sind grundlegende Kenntnisse der Hive-Metastore-Konzepte erforderlich. Weitere Informationen finden Sie unter Hive-Metastore.
Netzwerkanforderungen
Der Dataproc Metastore-Dienst erfordert Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.
Projektkonfigurationen
Bei der Bereitstellung eines Dataproc-Clusters und eines Dataproc Metastore-Dienstes sind verschiedene Projektkonfigurationen möglich. Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.