Dataproc Metastore – Übersicht

Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der in Google Cloud ausgeführt wird. Ein (HMS) ist der etablierte Standard im Open-Source-Big-Data-System zur Verwaltung technischer Metadaten wie Schemas, Partitionen und Spaltenstatistiken in einer relationalen Datenbank.

Dataproc Metastore ist hochverfügbar, mit automatischer Reparatur und serverlos. Sie können damit Data Lake-Metadaten verwalten und Interoperabilität zwischen den verschiedenen Datenverarbeitungs-Engines und Tools ermöglichen, die Sie verwenden.

Funktionsweise von Dataproc Metastore

Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Dataproc-Cluster verbinden. Ein Dataproc-Cluster enthält Komponenten, die für die Planung und Ausführung von Abfragen auf einem HMS basieren.

Durch diese Integration können Sie die Tabelleninformationen zwischen Jobs aufbewahren oder Metadaten für andere Cluster und andere Verarbeitungs-Engines verfügbar machen.

Durch die Implementierung eines Metaspeichers können Sie beispielsweise festlegen, dass eine Teilmenge Ihrer Dateien Umsatzdaten enthält, anstatt die Dateinamen manuell zu verfolgen. In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore speichern. Anschließend können Sie es mit einem Dataproc-Cluster verbinden und die Tabelle mithilfe von Hive, Spark SQL oder anderen Abfragediensten nach Informationen abfragen.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst erstellen.

  • Dataproc Metastore 2 ist die neue Dienstgeneration, die zusätzlich zu den Features von Dataproc Metastore 1 horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Für Dataproc Metastore 2 gilt ein anderes Preismodell als für Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Gängige Anwendungsfälle

Sofern nicht anders angegeben, werden alle in diesem Abschnitt aufgeführten Anwendungsfälle von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt.

  • Weisen Sie Ihren Daten Bedeutung zu. Ein zentrales Metadaten-Repository erstellen, das von vielen sitzungsspezifischen Dataproc-Clustern gemeinsam genutzt wird Verwenden Sie andere Open-Source-Software-Engines (OSS), z. B. [Apache Hive](https://hive.apache.org, Apache Spark und Presto).

  • Ganzheitliche Übersicht Ihrer Daten erstellen Sorgen Sie für Interoperabilität zwischen Google Cloud-Diensten wie Dataproc, Dataplex und BigQuery oder nutzen Sie andere Open-Source-basierte Partnerangebote in Google Cloud.

Features und Vorteile

Alle in diesem Abschnitt aufgeführten Features werden von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt, sofern nicht anders angegeben.

  • OSS-Kompatibilität. Stellen Sie eine Verbindung zu vorhandenen Datenverarbeitungs-Engines wie Apache Hive, Apache Spark und Presto her.

  • Verwaltung: Erstellen oder aktualisieren Sie innerhalb von Minuten einen Metaspeicher mit vollständig konfigurierten Monitoring- und Vorgangsaufgaben.

  • Integration. In andere Google Cloud-Produkte einbinden, z. B. mit BigQuery als Quelle von Metadaten für einen Dataproc-Cluster

  • Integrierte Sicherheit. Verwenden Sie etablierte Google Cloud-Sicherheitsprotokolle wie Identity and Access Management (IAM) und die Kerberos-Authentifizierung.

  • Einfacher Import: Importieren Sie vorhandene Metadaten, die in einem externen Hive Metastore-Metastore gespeichert sind, in einen Dataproc Metastore-Dienst.

  • Automatische Sicherungen: Konfigurieren Sie automatische Metastore-Sicherungen, um Datenverluste zu vermeiden.

  • Leistungsüberwachung. Legen Sie Leistungsstufen fest, um dynamisch auf hoch intensive Arbeitslasten und Spitzen zu reagieren, ohne Vorbereitung oder Caching.

  • Hochverfügbarkeit:

    • Dataproc Metastore 2: Bietet zonale Hochverfügbarkeit (HA) ohne spezielle Konfiguration oder laufende Verwaltung. Dazu werden Back-End-Datenbanken und HMS-Server über mehrere Zonen in der von Ihnen ausgewählten Region automatisch repliziert. Zusätzlich zu zonaler Hochverfügbarkeit unterstützt Dataproc Metastore 2 regionale Hochverfügbarkeit und Notfallwiederherstellung.
    • Dataproc Metastore 1. Bietet standardmäßig zonale Hochverfügbarkeit (HA), ohne dass eine spezielle Konfiguration oder laufende Verwaltung erforderlich ist. Dazu werden Back-End-Datenbanken und HMS-Server über mehrere Zonen in der von Ihnen ausgewählten Region automatisch repliziert
  • Skalierbarkeit:

    • Dataproc Metastore 2: Verwenden Sie einen horizontalen Skalierungsfaktor, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt benötigt. Der Skalierungsfaktor kann manuell gesteuert oder bei Bedarf auf Autoscaling eingestellt werden.
    • Dataproc Metastore 1. Wählen Sie bei der Einrichtung Ihres Dienstes zwischen einer Entwickler- oder einer Enterprise-Stufe aus. Diese Stufe bestimmt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss.
  • Support: Profitieren Sie von den standardmäßigen Google Cloud-SLAs und -Supportkanälen.

Einbindung in Google Cloud

Alle in diesem Abschnitt aufgeführten Integrationen werden von Dataproc Metastore 1 und Dataproc Metastore 2 unterstützt, sofern nicht anders angegeben.

  • Dataproc: Stellen Sie eine Verbindung zu einem Dataproc-Cluster her, um Metadaten für OSS-Big-Data-Arbeitslasten bereitzustellen.
  • BigQuery: Fragen Sie BigQuery-Datasets in Ihren Dataproc-Arbeitslasten ab.
  • Dataplex: Fragen Sie strukturierte und semistrukturierte Daten ab, die in einem Dataplex-Lake entdeckt wurden.
  • Data Catalog: Synchronisieren Sie Dataproc Metastore mit Data Catalog, um die Suche und Erkennung von Metadaten zu ermöglichen.
  • Logging und Monitoring: Dataproc Metastore in Cloud Monitoring- und Logging-Produkte einbinden
  • Authentifizierung und IAM: Nutzen Sie die Standard-OAuth-Authentifizierung, die von anderen Google Cloud-Produkten verwendet wird. Sie unterstützt die Verwendung detaillierter Identity and Access Management-Rollen, um die Zugriffssteuerung für einzelne Ressourcen zu ermöglichen.

Weitere Informationen