Dataproc Metastore – Übersicht

Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der in Google Cloud ausgeführt wird. Ein (HMS) ist der etablierte Standard im Open-Source-Big-Data-Ökosystem für die Verwaltung technischer Metadaten, wie z. B. Schemas, Partitionen und Spaltenstatistiken in einer relationalen Datenbank.

Dataproc Metastore ist hoch verfügbar, automatische Reparatur und serverlos. Sie können damit Data-Lake-Metadaten verwalten und Interoperabilität zwischen den verschiedenen Datenverarbeitungs-Engines und Tools bereitstellen, die Sie verwenden.

Funktionsweise von Dataproc Metastore

Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Dataproc-Cluster verbinden. Ein Dataproc-Cluster enthält Komponenten, die für die Planung und Ausführung von Abfragen auf einer HMS basieren.

Durch diese Integration können Sie die Tabelleninformationen zwischen Jobs behalten oder anderen Clustern und anderen Verarbeitungs-Engines Metadaten zur Verfügung stellen.

Durch die Implementierung eines Metaspeichers können Sie beispielsweise festlegen, dass eine Teilmenge Ihrer Dateien Umsatzdaten enthält, anstatt die Dateinamen manuell zu verfolgen. In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore speichern. Anschließend können Sie ihn mit einem Dataproc-Cluster verbinden und die Tabelle mithilfe von Hive, Spark SQL oder anderen Abfragediensten nach Informationen abfragen.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

  • Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Features von Dataproc Metastore 1 horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Für Dataproc Metastore 2 gilt ein anderes Preismodell als für Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Gängige Anwendungsfälle

Sofern nicht anders angegeben, werden alle in diesem Abschnitt aufgeführten Anwendungsfälle von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt.

  • Ihren Daten eine Bedeutung zuweisen Erstellen Sie ein zentrales Metadaten-Repository, das von vielen sitzungsspezifischen Dataproc-Clustern gemeinsam genutzt wird. Verwenden Sie verschiedene Open-Source-Softwaremodule (OSS), z. B. Apache Hive, Apache Spark und Presto.

  • Eine ganzheitliche Übersicht Ihrer Daten erstellen: Sorgen Sie für Interoperabilität zwischen Google Cloud-Diensten wie Dataproc, Dataplex und BigQuery oder verwenden Sie andere Open-Source-basierte Partnerangebote in Google Cloud.

Features und Vorteile

Sofern nicht anders angegeben, werden alle in diesem Abschnitt aufgeführten Features von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt.

  • OSS-Kompatibilität: Stellen Sie eine Verbindung zu Ihren vorhandenen Datenverarbeitungs-Engines wie Apache Hive, Apache Spark und Presto her.

  • Verwaltung. Erstellen oder aktualisieren Sie innerhalb weniger Minuten einen Metaspeicher mit vollständig konfigurierten Monitoring- und Betriebsaufgaben.

  • Integration. Einbindung in andere Google Cloud-Produkte, z. B. Verwendung von BigQuery als Quelle von Metadaten für einen Dataproc-Cluster

  • Integrierte Sicherheit: Verwenden Sie gängige Google Cloud-Sicherheitsprotokolle wie Identity and Access Management (IAM) und die Kerberos-Authentifizierung.

  • Einfacher Import: Importieren Sie vorhandene Metadaten, die in einem externen Hive Metastore-Metastore gespeichert sind, in einen Dataproc Metastore-Dienst.

  • Automatische Sicherungen: Konfigurieren Sie automatische Metastore-Sicherungen, um Datenverluste zu vermeiden.

  • Leistungsüberwachung: Legen Sie Leistungsstufen fest, um dynamisch auf hochintensive Arbeitslasten und Spitzen ohne Vorbereitung oder Caching zu reagieren.

  • Hochverfügbarkeit:

    • Dataproc Metastore 2. Bietet zonale Hochverfügbarkeit, ohne dass eine spezielle Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird durch die automatische Replikation von Back-End-Datenbanken und HMS-Servern in mehreren Zonen in der von Ihnen ausgewählten Region erreicht. Zusätzlich zur zonalen Hochverfügbarkeit unterstützt Dataproc Metastore 2 die regionale Hochverfügbarkeit und die Notfallwiederherstellung.
    • Dataproc Metastore 1. Bietet standardmäßig zonale Hochverfügbarkeit, ohne dass eine bestimmte Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird durch die automatische Replikation von Back-End-Datenbanken und HMS-Servern über mehrere Zonen in der von Ihnen ausgewählten Region erreicht.
  • Skalierbarkeit:

    • Dataproc Metastore 2. Verwenden Sie einen horizontalen Skalierungsfaktor, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss.
    • Dataproc Metastore 1. Sie können beim Einrichten Ihres Dienstes zwischen einer Entwickler- oder einer Enterprise-Stufe wählen. Diese Stufe bestimmt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss.
  • Support: Profitieren Sie von den standardmäßigen Google Cloud-SLAs und Supportkanälen.

Einbindungen in Google Cloud

Sofern nicht anders angegeben, werden alle in diesem Abschnitt aufgeführten Integrationen von Dataproc Metastore 1 und Dataproc Metastore 2 unterstützt.

  • Dataproc: Stellen Sie eine Verbindung zu einem Dataproc-Cluster her, um Metadaten für OSS-Big-Data-Arbeitslasten bereitzustellen.
  • BigQuery: BigQuery-Datasets in Ihren Dataproc-Arbeitslasten abfragen
  • Dataplex. Strukturierte und semistrukturierte Daten abfragen, die in einem Dataplex-Lake erkannt wurden.
  • Data Catalog: Synchronisieren Sie Dataproc Metastore mit Data Catalog, um die Suche und Erkennung von Metadaten zu ermöglichen.
  • Logging und Monitoring: Dataproc Metastore in Cloud Monitoring- und Logging-Produkte einbinden
  • Authentifizierung und IAM. Profitieren Sie von der standardmäßigen OAuth-Authentifizierung, die von anderen Google Cloud-Produkten verwendet wird und die die Verwendung detaillierter Identity and Access Management-Rollen unterstützt, um die Zugriffssteuerung für einzelne Ressourcen zu ermöglichen.

Weitere Informationen