Dataproc Metastore – Übersicht

Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der in Google Cloud ausgeführt wird. Ein (HMS) ist der etablierte Standard für Open-Source-Big Data. Umgebung für die Verwaltung technischer Metadaten wie Schemas, Partitionen und Spalten Statistiken in einer relationalen Datenbank.

Dataproc Metastore ist hochverfügbar, mit automatischer Reparatur und serverlos. Damit können Sie Data Lake verwalten Metadaten und ermöglichen Interoperabilität zwischen den verschiedenen Datenverarbeitungssystemen. und Tools, die Sie verwenden.

Funktionsweise von Dataproc Metastore

Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Dataproc-Cluster verbinden. Ein Dataproc-Cluster enthält Komponenten, die für die Abfrageplanung und ‑ausführung auf ein HMS angewiesen sind.

Durch diese Integration können Sie die Tabelleninformationen zwischen Jobs aufbewahren oder Metadaten, die anderen Clustern und Verarbeitungs-Engines zur Verfügung stehen.

Mit einem Metastore können Sie beispielsweise angeben, dass ein Teil Ihrer Dateien Umsatzdaten enthält, anstatt die Dateinamen manuell zu erfassen. In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore Anschließend können Sie eine Verbindung zu einem Dataproc-Cluster herstellen und die Tabelle mit Hive, Spark SQL oder anderen Abfragediensten abfragen.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

  • Dataproc Metastore 2 ist die neue Dienstgeneration, horizontale Skalierbarkeit zusätzlich zu den Features von Dataproc Metastore 1. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Dataproc Metastore 2 hat ein anderes Preismodell als Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Gängige Anwendungsfälle

Alle in diesem Abschnitt aufgeführten Anwendungsfälle werden von Dataproc Metastore unterstützt 2 und Dataproc Metastore 1, sofern nicht anders angegeben.

  • Weisen Sie Ihren Daten einen Sinn zu. Erstellen Sie ein zentrales Metadaten-Repository, das von vielen sitzungsspezifischen Dataproc-Clustern gemeinsam verwendet wird. Verwenden Sie verschiedene Open-Source-Software-Engines (OSS), z. B. [Apache Hive](https://hive.apache.org) , Apache Spark und Presto.

  • Erstellen Sie eine einheitliche Übersicht Ihrer Daten. Interoperabilität zwischen Google Cloud-Dienste wie Dataproc, Dataplex, und BigQuery oder andere Open-Source-basierte Partnerangebote Google Cloud

Features und Vorteile

Sofern nicht anders angegeben, werden alle in diesem Abschnitt aufgeführten Funktionen von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt.

  • OSS-Kompatibilität Sie können eine Verbindung zu Ihren vorhandenen Datenverarbeitungs-Engines wie Apache Hive, Apache Spark und Presto herstellen.

  • Verwaltung: Sie können innerhalb weniger Minuten einen Metastore erstellen oder aktualisieren, einschließlich vollständig konfigurierter Monitoring- und Betriebsaufgaben.

  • Integration. Einbindung in andere Google Cloud-Produkte wie Verwendung von BigQuery als Quelle von Metadaten für Dataproc Cluster.

  • Integrierte Sicherheit Verwenden Sie etablierte Google Cloud-Sicherheitsprotokolle wie Identity and Access Management (IAM) und Kerberos-Authentifizierung.

  • Einfacher Import: Vorhandene Metadaten, die in einem externen Hive-Metastore gespeichert sind, in einen Dataproc Metastore-Dienst importieren.

  • Automatische Sicherungen Konfigurieren Sie automatische Metastore-Sicherungen, Datenverlust.

  • Leistungsüberwachung. Leistungsstufen so festlegen, dass sie dynamisch reagieren sehr intensive Arbeitslasten und Nutzungsspitzen ohne Vorbereitung oder Caching.

  • Hochverfügbarkeit:

    • Dataproc Metastore 2: Bietet zonale Hochverfügbarkeit (HA) ganz ohne spezielle Konfiguration oder fortlaufende Verwaltung. Dazu werden Back-End-Datenbanken und HMS-Server automatisch in mehreren Zonen in der von Ihnen ausgewählten Region repliziert. Neben zonaler Hochverfügbarkeit Dataproc Metastore 2 unterstützt regionale Hochverfügbarkeit und Notfallwiederherstellung:
    • Dataproc Metastore 1: Bietet standardmäßig zonale Hochverfügbarkeit (HA) ohne spezielle Konfiguration oder fortlaufende Verwaltung. Dazu werden Back-End-Datenbanken und HMS-Server automatisch in mehreren Zonen in der von Ihnen ausgewählten Region repliziert.
  • Skalierbarkeit:

    • Dataproc Metastore 2: Mit einem horizontalen Skalierungsfaktor können Sie festlegen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss. Der Skalierungsfaktor kann manuell gesteuert oder bei Bedarf auf automatische Skalierung gesetzt werden.
    • Dataproc Metastore 1: Wählen Sie beim Einrichten Ihres Dienstes zwischen einer Entwickler- oder einer Unternehmensstufe aus. Anhand dieser Stufe wird festgelegt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt nutzen muss.
  • Support Sie profitieren von den standardmäßigen Google Cloud-SLAs und -Supportkanälen.

Einbindung in Google Cloud

Alle in diesem Abschnitt aufgeführten Integrationen werden von Dataproc Metastore unterstützt 1 und Dataproc Metastore 2, sofern nicht anders angegeben.

  • Dataproc: Verbindung zu einem Dataproc-Cluster herstellen, um Dienste bereitzustellen Metadaten für OSS-Big-Data-Arbeitslasten.
  • BigQuery BigQuery-Datasets in Ihren Dataproc-Arbeitslasten abfragen
  • Dataplex Abfrage von strukturierten und semistrukturierten Daten, die in einem Dataplex-Lake.
  • Data Catalog Dataproc Metastore mit Data Catalog synchronisieren um die Suche und Auffindbarkeit von Metadaten zu ermöglichen.
  • Logging und Monitoring: Dataproc Metastore in Cloud Monitoring- und Logging-Produkte einbinden
  • Authentifizierung und IAM: Es wird die standardmäßige OAuth-Authentifizierung verwendet, die auch von anderen Google Cloud-Produkten verwendet wird. Außerdem werden detaillierte Identitäts- und Zugriffsverwaltungsrollen unterstützt, um die Zugriffssteuerung für einzelne Ressourcen zu ermöglichen.

Nächste Schritte