Dataproc Metastore – Übersicht

Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der in Google Cloud ausgeführt wird. Ein (HMS) ist der etablierte Standard für Open-Source-Big Data. Umgebung für die Verwaltung technischer Metadaten wie Schemas, Partitionen und Spalten Statistiken in einer relationalen Datenbank.

Dataproc Metastore ist hochverfügbar, mit automatischer Reparatur und serverlos. Damit können Sie Data Lake verwalten Metadaten und ermöglichen Interoperabilität zwischen den verschiedenen Datenverarbeitungssystemen. und Tools, die Sie verwenden.

Funktionsweise von Dataproc Metastore

Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Dataproc-Cluster. Ein Dataproc-Cluster umfasst Komponenten, die auf einem HMS basieren, um die Planung und Ausführung von Abfragen zu steuern.

Durch diese Integration können Sie die Tabelleninformationen zwischen Jobs aufbewahren oder Metadaten, die anderen Clustern und anderen Verarbeitungs-Engines zur Verfügung stehen.

Beispielsweise kann die Implementierung eines Metastores dabei helfen, Ihrer Dateien enthalten Umsatzdaten, im Gegensatz zur manuellen Verfolgung der Dateinamen. In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore Danach können Sie es mit einem Dataproc-Cluster und fragen Sie die Tabelle mit Hive nach Informationen ab. Spark SQL oder andere Abfragedienste.

Dataproc Metastore-Versionen

Beim Erstellen eines Dataproc Metastore-Dienstes können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst

  • Dataproc Metastore 2 ist die neue Dienstgeneration, horizontale Skalierbarkeit zusätzlich zu den Features von Dataproc Metastore 1. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Für Dataproc Metastore 2 gilt ein anderes Preismodell als Dataproc Metastore Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Gängige Anwendungsfälle

Alle in diesem Abschnitt aufgeführten Anwendungsfälle werden von Dataproc Metastore unterstützt 2 und Dataproc Metastore 1, sofern nicht anders angegeben.

  • Weisen Sie Ihren Daten Bedeutung zu. Zentrales Metadaten-Repository erstellen die von vielen sitzungsspezifischen Dataproc-Clustern gemeinsam genutzt werden. Verwenden Sie verschiedene Open-Source-Software-Engines (OSS), z. B. [Apache Hive](https://hive.apache.org) , Apache Spark und Presto.

  • Einheitliche Ansicht Ihrer Daten erstellen Interoperabilität zwischen Google Cloud-Dienste wie Dataproc, Dataplex, und BigQuery oder andere Open-Source-basierte Partnerangebote Google Cloud

Features und Vorteile

Alle in diesem Abschnitt aufgeführten Features werden von Dataproc Metastore unterstützt 2 und Dataproc Metastore 1, sofern nicht anders angegeben.

  • OSS-Kompatibilität. Stellen Sie eine Verbindung zu Ihren bestehenden Datenverarbeitungs-Engines her. wie Apache Hive, Apache Spark und Presto.

  • Verwaltung: Erstellen oder aktualisieren Sie in wenigen Minuten einen Metastore, vollständig konfigurierte Monitoring- und Vorgangsaufgaben nutzen können.

  • Integration. Einbindung in andere Google Cloud-Produkte wie Verwendung von BigQuery als Quelle von Metadaten für Dataproc Cluster.

  • Integrierte Sicherheit. Nutzen Sie bewährte Google Cloud-Sicherheitsprotokolle, z. B. Identity and Access Management (IAM) und Kerberos-Authentifizierung.

  • Einfacher Import: Vorhandene Metadaten importieren, die in einem externen Hive-Metastore gespeichert sind in einen Dataproc Metastore-Dienst.

  • Automatische Sicherungen: Konfigurieren Sie automatische Metastore-Sicherungen, Datenverlust.

  • Leistungsüberwachung. Leistungsstufen so festlegen, dass sie dynamisch reagieren sehr intensive Arbeitslasten und Nutzungsspitzen ohne Vorbereitung oder Caching.

  • Hochverfügbarkeit:

    • Dataproc Metastore 2: Bietet zonale Hochverfügbarkeit (HA) ganz ohne spezielle Konfiguration oder fortlaufende Verwaltung. Dies ist erfolgt durch die automatische Replikation von Back-End-Datenbanken und HMS-Servern. in mehreren Zonen in der von Ihnen gewählten Region. Neben zonaler Hochverfügbarkeit Dataproc Metastore 2 unterstützt regionale Hochverfügbarkeit und Notfallwiederherstellung:
    • Dataproc Metastore 1: Standardmäßig zonale hohe Verfügbarkeit (HA) ohne spezielle Konfiguration oder zu verstehen. Dies wird durch die automatische Replikation von Backend-Datenbanken erreicht. und HMS-Server in mehreren Zonen in der von Ihnen ausgewählten Region
  • Skalierbarkeit:

    • Dataproc Metastore 2: Verwenden Sie einen horizontalen Skalierungsfaktor, um wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt benötigt. Der Skalierungsfaktor kann manuell gesteuert oder auf Autoscaling eingestellt werden wenn nötig.
    • Dataproc Metastore 1: Wählen Sie zwischen einer Entwicklerstufe oder Enterprise-Stufe erhalten, wenn Sie Ihren Dienst einrichten. Diese Stufe bestimmt, wie der Dienst zu einem bestimmten Zeitpunkt benötigt.
  • Support: Profitieren Sie von den standardmäßigen Google Cloud-SLAs und -Supportkanälen.

Einbindung in Google Cloud

Alle in diesem Abschnitt aufgeführten Integrationen werden von Dataproc Metastore unterstützt 1 und Dataproc Metastore 2, sofern nicht anders angegeben.

  • Dataproc: Verbindung zu einem Dataproc-Cluster herstellen, um Dienste bereitzustellen Metadaten für OSS-Big-Data-Arbeitslasten.
  • BigQuery: BigQuery-Datasets in Dataproc abfragen Arbeitsbelastungen.
  • Dataplex: Abfrage von strukturierten und semistrukturierten Daten, die in einem Dataplex-Lake.
  • Data Catalog: Dataproc Metastore mit Data Catalog synchronisieren um die Suche und Auffindbarkeit von Metadaten zu ermöglichen.
  • Logging und Monitoring: Dataproc Metastore einbinden mit Cloud Monitoring- und Logging-Produkte
  • Authentifizierung und IAM: Sich auf die standardmäßige OAuth-Authentifizierung verlassen, die von anderen Google Cloud-Produkte, die detaillierte IAM-Rollen (Identity and Access Management) unterstützen, um Zugriffssteuerung für einzelne Ressourcen aktivieren.

Nächste Schritte