Kernkonzepte von Dataproc Metastore

Die folgenden Konzepte helfen Ihnen zu verstehen, wie Dataproc Metastore funktioniert und welche Funktionen Sie mit Ihrem Dienst verwenden können.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

Dataproc Metastore 2

Dataproc Metastore 2 verwendet einen Skalierungsfaktor, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Nachdem Sie einen Dataproc Metastore 2 erstellt haben, können Sie den Dienst hoch- oder herunterskalieren, indem Sie den Skalierungsfaktor ändern.

  • Dataproc Metastore 2 ist die neue Dienstgeneration, die zusätzlich zu den Dataproc Metastore-Features horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Für Dataproc Metastore 2 gilt ein anderes Preismodell als für Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Dataproc Metastore 1

Dataproc Metastore 1 verwendet Dienststufen, um zu ermitteln, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Dienststufen bieten eine vorhersehbare, vorab festgelegte Menge an Ressourcen.

Dataproc Metastore-Version prüfen

Sie können in der Google Cloud Console prüfen, welche Version von Dataproc Metastore Sie verwenden.

  • Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – Single Region.
  • Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.

Allgemeine Dataproc Metastore-Begriffe

Die folgenden Begriffe werden im gesamten Dataproc Metastore-System und in der Dokumentation häufig verwendet.

Dienste

  • Apache Hive Hive ist ein beliebtes Open-Source-Data-Warehouse-System, das auf Apache Hadoop basiert. Hive bietet eine SQL-ähnliche Abfragesprache namens HiveQL zur Analyse großer, strukturierter Datasets.
  • Apache Hive-Metastore Der Hive-Metaspeicher enthält Metadaten zu Hive-Tabellen, z. B. deren Schema und Speicherort.
  • Dataproc. Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst in Google Cloud, über den Sie Apache Spark- und Apache Hadoop-Arbeitslasten einfach und kostengünstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung zu ihm herstellen.
  • Dataproc-Cluster: Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie über einen Dataproc-Cluster eine Verbindung zu ihm herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
  • Dataproc Metastore-Dienst. Der Name der Metastore-Instanz, die Sie in Google Cloud erstellen. Sie können einen oder viele verschiedene Metastore-Dienste in Ihrer Implementierung verwenden.
  • Private Service Connect Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es als Alternative zum VPC-Peering für Netzwerke verwenden.
  • VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Daten-Exfiltration aus Google Cloud-Diensten verringern, indem Sie Perimeter erstellen, die die Ressourcen und Daten von Diensten schützen, die Sie explizit angeben.

Konzepte

  • Tabellen: Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert werden.
  • Hive-Warehouse-Verzeichnis. Der Standardspeicherort für verwaltete Tabellendaten.
  • Artefakt-Bucket Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Dienstartefakte wie exportierte Metadaten und Daten zu verwalteten Tabellen gespeichert werden. Standardmäßig wird im Artefakt-Bucket das Standard-Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes gespeichert.
  • Endpunkte Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
  • Endpunktprotokolle. Das Over-the-Wire-Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore- und Hive Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift und gRPC-Endpunkte.
  • Metadatenföderation. Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
  • Hilfsversionen: Ein Feature, mit dem Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.

Hive-Metastore-Konzepte

Für die Verwendung eines Dataproc Metastore-Dienstes müssen Sie mit den grundlegenden Hive-Metastore-Konzepten vertraut sein. Weitere Informationen finden Sie unter Hive Metastore.

Netzwerkanforderungen

Der Dataproc Metastore-Dienst erfordert den Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.

Projektkonfigurationen

Es gibt eine Reihe möglicher Projektkonfigurationen, die Sie beim Bereitstellen eines Dataproc-Clusters und eines Dataproc Metastore-Dienstes verwenden können. Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.

Nächste Schritte