Grundlegende Konzepte von Dataproc Metastore

Anhand der folgenden Konzepte können Sie die Funktionsweise von Dataproc Metastore und die verschiedenen Funktionen, die Sie mit Ihrem Dienst verwenden können, besser nachvollziehen.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

Dataproc Metastore 2

In Dataproc Metastore 2 wird mithilfe eines Skalierungsfaktors ermittelt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt benötigt. Nachdem Sie einen Dataproc Metastore 2 erstellt haben, können Sie den Dienst durch Ändern des Skalierungsfaktors hoch- oder herunterskalieren.

  • Dataproc Metastore 2 ist die neue Generation des Dienstes, die neben den Dataproc Metastore-Funktionen auch horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Dataproc Metastore 2 hat ein anderes Preismodell als Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Dataproc Metastore 1

In Dataproc Metastore 1 wird anhand von Dienststufen ermittelt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Dienstebenen bieten eine vorhersehbare, im Voraus festgelegte Menge an Ressourcen.

Dataproc Metastore-Version prüfen

In der Google Cloud Console können Sie nachsehen, welche Version von Dataproc Metastore Sie verwenden.

  • Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – einzelne Region.
  • Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.

Gängige Begriffe in Dataproc Metastore

Die folgenden Begriffe werden im Dataproc Metastore-System und in der Dokumentation häufig verwendet.

Dienste

  • Apache Hive. Hive ist ein beliebtes Open-Source-Data-Warehouse-System auf der Grundlage von Apache Hadoop. Hive bietet eine SQL-ähnliche Abfragesprache namens HiveQL, mit der große strukturierte Datensätze analysiert werden.
  • Apache Hive-Metastore Der Hive-Metastore enthält Metadaten zu Hive-Tabellen, z. B. das Schema und den Speicherort.
  • Dataproc. Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst in Google Cloud, mit dem Sie Apache Spark- und Apache Hadoop-Arbeitslasten einfach und kostengünstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung dazu herstellen.
  • Dataproc-Cluster Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung dazu herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
  • Dataproc Metastore-Dienst Der Name der Metastore-Instanz, die Sie in Google Cloud erstellen. Sie können einen oder mehrere Metastore-Dienste in Ihrer Implementierung verwenden.
  • Private Service Connect Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es für die Vernetzung als Alternative zum VPC-Peering verwenden.
  • VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Daten-Exfiltration aus Google Cloud-Diensten verringern, da Sie Perimeter zum Schutz der Ressourcen und Daten der Dienste erstellen können, die Sie explizit angeben.

Konzepte

  • Tables Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert werden.
  • Hive-Warehouse-Verzeichnis Der Standardspeicherort für verwaltete Tabellendaten.
  • Artifacts-Bucket Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Ihre Dienstartefakte wie exportierte Metadaten und verwaltete Tabellendaten gespeichert werden. Standardmäßig wird im Artefakt-Bucket das standardmäßige Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes gespeichert.
  • Endpoints Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
  • Endpunktprotokolle Das Over-the-Wire-Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore- und Hive Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift- und gRPC-Endpunkte.
  • Metadaten-Verknüpfung Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
  • Zusatzversionen Eine Funktion, mit der Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.

Hive-Metastore-Konzepte

Wenn Sie einen Dataproc Metastore-Dienst verwenden möchten, müssen Sie die grundlegenden Konzepte von Hive-Metastores kennen. Weitere Informationen finden Sie unter Hive-Metastore.

Netzwerkanforderungen

Der Dataproc Metastore-Dienst erfordert Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.

Projektkonfigurationen

Es gibt eine Reihe möglicher Projektkonfigurationen, die Sie bei der Bereitstellung eines Dataproc-Clusters und eines Dataproc Metastore-Dienstes verwenden können. Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.

Nächste Schritte