Dataproc Metastore mit Data Catalog synchronisieren

In diesem Dokument erfahren Sie, wie Sie Dataproc Metastore-Metadaten mit Data Catalog synchronisieren.

Nachdem Sie diese beiden Dienste miteinander synchronisiert haben, können Sie Ihre Dataproc Metastore-Metadaten mit Data Catalog verwalten. Mit Data Catalog können Sie beispielsweise bestimmte Dataproc Metastore-Ressourcen wie Datenbanken und Tabellen taggen und danach suchen.

Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung. Sie bietet einheitliche Ansichts- und Tagging-Mechanismen für technische und geschäftliche Metadaten.

Weitere Informationen finden Sie in den folgenden Data Catalog-Featureleitfäden:

Hinweise

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Synchronisierte Dataproc Metastore-Einträge in Data Catalog ansehen (roles/metastore.metadataViewer) für Ihr Projekt gemäß dem Prinzip der geringsten Berechtigung zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Dataproc Metastore-Metadaten mit Data Catalog zu synchronisieren:

  • So rufen Sie Dataproc Metastore-Datenbanken ab: metastore.databases.get
  • So listen Sie Dataproc Metastore-Datenbanken auf: metastore.databases.list
  • So rufen Sie Dataproc Metastore-Tabellen ab: metastore.tables.get
  • So listen Sie Dataproc Metastore-Tabellen auf: metastore.tables.list

Möglicherweise können Sie diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Weitere Informationen zu bestimmten Dataproc Metastore-Rollen und -Berechtigungen finden Sie unter Zugriff mit IAM verwalten.

Funktionsweise von Berechtigungen zwischen den Diensten

Data Catalog erfüllt die Berechtigungen auf Dataproc Metastore-Ebene. Bei Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.

Data Catalog prüft zum Zeitpunkt des Zugriffs die Berechtigungen für jede Metastore-Datenbank und -Tabelle, damit nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können.

Funktionsweise der Data Catalog-Synchronisierung mit Dataproc Metastore

Sie können die Synchronisierung von Dataproc Metastore mit Data Catalog aktivieren, wenn Sie einen Dataproc Metastore-Dienst über die Google Cloud Console erstellen oder aktualisieren. Auf dieselbe Weise können Sie die Synchronisierung deaktivieren.

Nachdem Sie die Data Catalog-Synchronisierung aktiviert haben, werden Datenbank- und Tabellenmetadaten automatisch von Dataproc Metastore mit Data Catalog synchronisiert.

Data Catalog synchronisiert die folgenden Metadaten:

  • Instances.
  • Datenbanken, einschließlich Name und Beschreibung.
  • Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen).

Die folgende Tabelle zeigt die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:

Dataproc Metastore-Ressource Data Catalog-Ressource
Instanz Eintragsgruppe
Eintrag
Datenbank Entry
Tabelle Entry
Spalte Schema

Hinweise

  • Es kann bis zu sechs Stunden dauern, bis die Dataproc Metastore-Metadaten vollständig mit Data Catalog synchronisiert sind. Nach der ersten Synchronisierung werden bei Bedarf inkrementelle Änderungen (z. B. Tabellen- oder Datenbankaktualisierungen) synchronisiert. Wenn eine On-Demand-Synchronisierung fehlschlägt, wird die Synchronisierung in einer Batch-Neuausführung alle sechs Stunden durchgeführt.

  • Wenn Sie vermuten, dass ein Problem mit der Synchronisierung besteht, prüfen Sie die Logs zur Metadatenveröffentlichung in Dataproc Metastore Cloud Logging mit dem Filter textPayload=~".*Publish.*". Weitere Informationen zum Zugreifen auf Logs finden Sie unter Zugriffsjoblogs in Logging.

  • Wenn Sie die Data Catalog-Synchronisierung deaktivieren, werden die Metadaten nicht mehr zwischen Dataproc Metastore und Data Catalog synchronisiert. Bereits synchronisierte Metadaten bleiben jedoch in Data Catalog erhalten.

  • Wenn Sie eine Dataproc Metastore-Instanz löschen, werden auch die entsprechenden Instanz-, Datenbank- und Tabelleneinträge aus Data Catalog entfernt.

  • In Data Catalog gespeicherte Dataproc Metastore-Metadaten entsprechen der standardmäßigen Google Cloud-Aufbewahrungsdauer.

  • Für das Aktivieren der Data Catalog-Synchronisierung für Dataproc Metastore fallen keine zusätzlichen Kosten an.

Dienst mit aktivierter Data Catalog-Synchronisierung erstellen

Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.

Gehen Sie wie unten beschrieben vor, um die Data Catalog-Synchronisierung für einen neuen Dienst zu aktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Dataproc Metastore-Seite:

    Zu Dataproc Metastore

  2. Klicken Sie oben auf der Seite Dataproc Metastore auf Erstellen.

    Die Seite Dienst erstellen wird geöffnet.

  3. Wählen Sie die Version von Dataproc Metastore aus, die Sie verwenden möchten.

  4. Klicken Sie unter Metadatenintegration auf Data Catalog-Synchronisierung.

  5. Verwenden Sie für die übrigen Dienstkonfigurationsoptionen die bereitgestellten Standardeinstellungen. Alternativ können Sie den Dienst nach Bedarf konfigurieren.

  6. Klicken Sie auf Senden.

Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren

Gehen Sie wie im Folgenden beschrieben vor, um die Data Catalog-Synchronisierung für einen vorhandenen Dienst zu aktivieren oder zu deaktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Dataproc Metastore-Seite:

    Zu Dataproc Metastore

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Dienst, den Sie aktualisieren möchten.

    Die Seite Dienstdetails für diesen Dienst wird geöffnet.

  3. Klicken Sie auf dem Tab Konfiguration auf Bearbeiten.

    Die Seite Dienst bearbeiten wird geöffnet.

  4. Aktivieren oder deaktivieren Sie unter Metadatenintegration die Option Data Catalog-Synchronisierung.

  5. Klicken Sie auf Senden.

Suche mit Data Catalog

Sie können mit Data Catalog in synchronisierten Dataproc Metastore-Metadaten suchen.

Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, gibt es mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen:

  • Dataproc Metastore-Instanz
    • nach angezeigtem Namen
    • Standardfunktionen von Data Catalog – beispielsweise mithilfe von Tags.
  • Datenbank
    • nach angezeigtem Namen
    • Nach Beschreibung
    • Nach Dataproc Metastore-Instanz
    • Standardfunktionen von Data Catalog – beispielsweise mithilfe von Tags.
  • Tabelle
    • nach angezeigtem Namen
    • Nach Beschreibung
    • Nach Spaltenname
    • Nach Spaltenbeschreibung
    • Nach Datenbank
    • Nach Dataproc Metastore-Instanz
    • Standardfunktionen von Data Catalog – beispielsweise mithilfe von Tags.

Nächste Schritte