Dataproc Metastore mit Data Catalog synchronisieren

In diesem Dokument erfahren Sie, wie Sie Dataproc Metastore-Metadaten mit Data Catalog synchronisieren.

Nachdem Sie diese beiden Dienste synchronisiert haben, können Sie die Metadaten Ihres Dataproc Metastore mit Data Catalog verwalten. Mit Data Catalog können Sie beispielsweise bestimmte Dataproc Metastore-Ressourcen wie Datenbanken und Tabellen taggen und durchsuchen.

Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung. Es stellt einheitliche Ansichts- und Tagging-Mechanismen für technische und geschäftliche Metadaten bereit.

Weitere Informationen finden Sie in den folgenden Data Catalog-Featureleitfäden:

Hinweise

Erforderliche Rollen

Wenn Sie die Berechtigungen zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog benötigen, bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Synchronisierte Dataproc Metastore-Einträge im Data Catalog ansehen (roles/metastore.metadataViewer) für Ihr Projekt zuzuweisen. Dabei wird das Prinzip der geringsten Berechtigung angewendet. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Synchronisieren von Dataproc Metastore-Metadaten mit dem Data Catalog erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Für die Synchronisierung von Dataproc Metastore-Metadaten mit Data Catalog sind die folgenden Berechtigungen erforderlich:

  • So rufen Sie Dataproc Metastore-Datenbanken ab: metastore.databases.get
  • So listen Sie Dataproc Metastore-Datenbanken auf: metastore.databases.list
  • So rufen Sie Dataproc Metastore-Tabellen ab: metastore.tables.get
  • So listen Sie Dataproc Metastore-Tabellen auf: metastore.tables.list

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Weitere Informationen zu bestimmten Rollen und Berechtigungen für Dataproc Metastore finden Sie unter Zugriff mit IAM verwalten.

Funktionsweise von Berechtigungen zwischen den Diensten

In Data Catalog gelten die Berechtigungen auf Dataproc Metastore-Ebene. Für Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.

Data Catalog prüft die Berechtigungen für jede Metastore-Datenbank und ‑Tabelle zum Zeitpunkt des Zugriffs, sodass nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können.

So funktioniert die Data Catalog-Synchronisierung mit Dataproc Metastore

Sie können die Synchronisierung des Dataproc Metastore-Dienstes mit Data Catalog aktivieren, wenn Sie einen Dataproc Metastore-Dienst mit der Google Cloud Console erstellen oder aktualisieren. Sie können die Synchronisierung auf die selbe Weise deaktivieren.

Nachdem Sie die Data Catalog-Synchronisierung aktiviert haben, werden Datenbank- und Tabellenmetadaten automatisch von Dataproc Metastore mit Data Catalog synchronisiert.

Data Catalog synchronisiert die folgenden Metadaten:

  • Instances.
  • Datenbanken, einschließlich Name und Beschreibung.
  • Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen)

Die folgende Tabelle zeigt die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:

Dataproc Metastore-Ressource Data Catalog-Ressource
Instanz Eintragsgruppe
Eintrag
Datenbank Entry
Tabelle Entry
Spalte Schema

Hinweise

  • Es kann bis zu sechs Stunden dauern, bis die Metadaten in Dataproc Metastore vollständig mit Data Catalog synchronisiert wurden. Nach der Erstsynchronisierung werden inkrementelle Änderungen (z. B. Tabellen- oder Datenbankupdates) auf Anfrage synchronisiert. Wenn eine On-Demand-Synchronisierung fehlschlägt, wird sie in einen Batch aufgenommen, der alle sechs Stunden wiederholt wird.

  • Wenn Sie vermuten, dass ein Problem mit der Synchronisierung vorliegt, prüfen Sie die Veröffentlichungsprotokolle für Metadaten in Dataproc Metastore Cloud Logging mit dem Filter textPayload=~".*Publish.*". Weitere Informationen zum Zugriff auf Protokolle finden Sie unter Auf Jobprotokolle in Logging zugreifen.

  • Wenn Sie die Data Catalog-Synchronisierung deaktivieren, werden Ihre Metadaten nicht mehr von Dataproc Metastore mit Data Catalog synchronisiert. Bereits synchronisierte Metadaten bleiben jedoch in Data Catalog.

  • Wenn Sie eine Dataproc Metastore-Instanz löschen, werden die entsprechenden Instanz-, Datenbank- und Tabelleneinträge auch aus dem Data Catalog entfernt.

  • Für in Data Catalog gespeicherte Dataproc Metastore-Metadaten gilt die standardmäßige Aufbewahrungsdauer von Google Cloud.

  • Für die Aktivierung der Data Catalog-Synchronisierung für Dataproc Metastore fallen keine zusätzlichen Kosten an.

Dienst mit aktivierter Data Catalog-Synchronisierung erstellen

Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.

So aktivieren Sie die Data Catalog-Synchronisierung für einen neuen Dienst:

Console

  1. Öffnen Sie in der Google Cloud Console die Seite „Dataproc Metastore“:

    Dataproc Metastore aufrufen

  2. Klicken Sie oben auf der Seite Dataproc Metastore auf Erstellen.

    Die Seite Dienst erstellen wird geöffnet.

  3. Wählen Sie die gewünschte Version von Dataproc Metastore aus.

  4. Klicken Sie unter Metadatenintegration auf Data Catalog-Synchronisierung.

  5. Verwenden Sie für die restlichen Optionen der Dienstkonfiguration die angegebenen Standardeinstellungen. Sie können auch Ihren Dienst nach Bedarf konfigurieren.

  6. Klicken Sie auf Senden.

Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren

Führen Sie die folgenden Schritte aus, um die Data Catalog-Synchronisierung für einen vorhandenen Dienst zu aktivieren oder zu deaktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Seite „Dataproc Metastore“:

    Dataproc Metastore aufrufen

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Dienst, den Sie aktualisieren möchten.

    Die Seite Dienstdetails für diesen Dienst wird geöffnet.

  3. Klicken Sie auf dem Tab Konfiguration auf Bearbeiten.

    Die Seite Dienst bearbeiten wird geöffnet.

  4. Aktivieren oder deaktivieren Sie unter Metadatenintegration die Option Data Catalog-Synchronisierung.

  5. Klicken Sie auf Senden.

Suche mit Data Catalog

Sie können in synchronisierten Dataproc Metastore-Metadaten mit Data Catalog suchen.

Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, gibt es mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen:

  • Dataproc Metastore-Instanz
    • nach angezeigtem Namen
    • Standardfunktionen des Data Catalogs, z. B. mithilfe von Tags
  • Datenbank
    • nach angezeigtem Namen
    • Nach Beschreibung
    • Nach Dataproc Metastore-Instanz
    • Standardfunktionen des Data Catalogs, z. B. mithilfe von Tags
  • Tabelle
    • nach angezeigtem Namen
    • Nach Beschreibung
    • Nach Spaltennamen
    • Nach Spaltenbeschreibung
    • Nach Datenbank
    • Nach Dataproc Metastore-Instanz
    • Standardfunktionen des Data Catalogs, z. B. mithilfe von Tags

Nächste Schritte