Anhand der folgenden Konzepte können Sie die Funktionsweise von Dataproc Metastore und die verschiedenen Funktionen, die Sie mit Ihrem Dienst verwenden können, besser nachvollziehen.
Dataproc Metastore-Versionen
Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.
Dataproc Metastore 2
In Dataproc Metastore 2 wird mithilfe eines Skalierungsfaktors ermittelt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt benötigt. Nachdem Sie einen Dataproc Metastore 2 erstellt haben, können Sie den Dienst durch Ändern des Skalierungsfaktors hoch- oder herunterskalieren.
Dataproc Metastore 2 ist die neue Generation des Dienstes, die neben den Dataproc Metastore-Funktionen auch horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.
Dataproc Metastore 2 hat ein anderes Preismodell als Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.
Dataproc Metastore 1
In Dataproc Metastore 1 wird anhand von Dienststufen ermittelt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Dienstebenen bieten eine vorhersehbare, im Voraus festgelegte Menge an Ressourcen.
Dataproc Metastore-Version prüfen
In der Google Cloud Console können Sie nachsehen, welche Version von Dataproc Metastore Sie verwenden.
- Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – einzelne Region.
- Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.
Gängige Begriffe in Dataproc Metastore
Die folgenden Begriffe werden im Dataproc Metastore-System und in der Dokumentation häufig verwendet.
Dienste
- Apache Hive. Hive ist ein beliebtes Open-Source-Data-Warehouse-System auf der Grundlage von Apache Hadoop. Hive bietet eine SQL-ähnliche Abfragesprache namens HiveQL, mit der große strukturierte Datensätze analysiert werden.
- Apache Hive-Metastore Der Hive-Metastore enthält Metadaten zu Hive-Tabellen, z. B. das Schema und den Speicherort.
- Dataproc. Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst in Google Cloud, mit dem Sie Apache Spark- und Apache Hadoop-Arbeitslasten einfach und kostengünstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung dazu herstellen.
- Dataproc-Cluster Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung dazu herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
- Dataproc Metastore-Dienst Der Name der Metastore-Instanz, die Sie in Google Cloud erstellen. Sie können einen oder mehrere Metastore-Dienste in Ihrer Implementierung verwenden.
- Private Service Connect Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es für die Vernetzung als Alternative zum VPC-Peering verwenden.
- VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Daten-Exfiltration aus Google Cloud-Diensten verringern, da Sie Perimeter zum Schutz der Ressourcen und Daten der Dienste erstellen können, die Sie explizit angeben.
Konzepte
- Tables Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert werden.
- Hive-Warehouse-Verzeichnis Der Standardspeicherort für verwaltete Tabellendaten.
- Artifacts-Bucket Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Ihre Dienstartefakte wie exportierte Metadaten und verwaltete Tabellendaten gespeichert werden. Standardmäßig wird im Artefakt-Bucket das standardmäßige Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes gespeichert.
- Endpoints Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
- Endpunktprotokolle Das Over-the-Wire-Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore- und Hive Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift- und gRPC-Endpunkte.
- Metadaten-Verknüpfung Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
- Zusatzversionen Eine Funktion, mit der Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.
Hive-Metastore-Konzepte
Wenn Sie einen Dataproc Metastore-Dienst verwenden möchten, müssen Sie die grundlegenden Konzepte von Hive-Metastores kennen. Weitere Informationen finden Sie unter Hive-Metastore.
Netzwerkanforderungen
Der Dataproc Metastore-Dienst erfordert Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.
Projektkonfigurationen
Es gibt eine Reihe möglicher Projektkonfigurationen, die Sie bei der Bereitstellung eines Dataproc-Clusters und eines Dataproc Metastore-Dienstes verwenden können. Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.