Dataproc Metastore mit Data Catalog synchronisieren

In diesem Dokument wird beschrieben, wie Sie Dataproc Metastore-Metadaten mit Data Catalog synchronisieren.

Nachdem Sie diese beiden Dienste synchronisiert haben, können Sie Data Catalog verwenden. um Ihre Dataproc Metastore-Metadaten zu verwalten. Mit Data Catalog können Sie beispielsweise bestimmte Dataproc Metastore-Ressourcen wie Datenbanken und Tabellen taggen und durchsuchen.

Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung. Es bietet eine ganzheitliche Sicht und Tagging-Mechanismen für technische und geschäftliche Metadaten.

Weitere Informationen finden Sie in den folgenden Data Catalog-Featureleitfäden:

Hinweise

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Synchronisierte Dataproc Metastore-Einträge im Data Catalog ansehen (roles/metastore.metadataViewer) für Ihr Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog benötigen. Dabei wird das Prinzip der geringsten Berechtigung angewendet. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Synchronisieren von Dataproc Metastore-Metadaten mit dem Data Catalog erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Dataproc Metastore-Metadaten mit Data Catalog zu synchronisieren:

  • So rufen Sie Dataproc Metastore-Datenbanken ab: metastore.databases.get
  • So listen Sie Dataproc Metastore-Datenbanken auf: metastore.databases.list
  • So rufen Sie Dataproc Metastore-Tabellen ab: metastore.tables.get
  • So listen Sie Dataproc Metastore-Tabellen auf: metastore.tables.list

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Weitere Informationen zu bestimmten Dataproc Metastore-Rollen und -Berechtigungen finden Sie unter Zugriff mit IAM verwalten.

Funktionsweise von Berechtigungen zwischen den Diensten

In Data Catalog gelten die Berechtigungen auf Dataproc Metastore-Ebene. Für Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.

Data Catalog prüft die Berechtigungen für jeden Metastore Datenbank und Tabelle zum Zeitpunkt des Zugriffs, sodass nur Nutzer mit Zugriff Dataproc Metastore-Dienst kann den synchronisierten Dienst sehen Ressourcen als Einträge in Data Catalog.

Funktionsweise der Data Catalog-Synchronisierung mit Dataproc Metastore

Sie können die Synchronisierung des Dataproc Metastore-Dienstes mit Data Catalog aktivieren, wenn Sie einen Dataproc Metastore-Dienst mit der Google Cloud Console erstellen oder aktualisieren. Auf dieselbe Weise können Sie die Synchronisierung deaktivieren.

Nach der Aktivierung der Data Catalog-Synchronisierung werden Datenbank- und Tabellenmetadaten automatisch von Dataproc Metastore mit Data Catalog synchronisiert.

Data Catalog synchronisiert die folgenden Metadaten:

  • Instances.
  • Datenbanken, einschließlich Name und Beschreibung.
  • Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen).

Die folgende Tabelle zeigt die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:

Dataproc Metastore-Ressource Data Catalog-Ressource
Instanz Eintragsgruppe
Eintrag
Datenbank Entry
Tabelle Entry
Spalte Schema

Hinweise

  • Es kann bis zu sechs Stunden dauern, bis die Metadaten in Dataproc Metastore vollständig mit Data Catalog synchronisiert wurden. Nach der ersten erfolgt die Synchronisierung, werden bei Bedarf inkrementelle Änderungen (z. B. Tabellen- oder Datenbankaktualisierungen). Wenn eine On-Demand-Synchronisierung fehlschlägt, wird die Synchronisierung in einen Batch aufgenommen. alle 6 Stunden.

  • Wenn Sie ein Problem mit der Synchronisierung vermuten, prüfen Sie die Metadaten. Logs in Dataproc Metastore Cloud Logging veröffentlichen mit dem Filter textPayload=~".*Publish.*". Weitere Informationen zum Zugriff auf Logs finden Sie unter Joblogs in Logging aufrufen.

  • Wenn Sie die Data Catalog-Synchronisierung deaktivieren, wird die Synchronisierung Ihrer Metadaten beendet von Dataproc Metastore zu Data Catalog. Bereits synchronisierte Metadaten bleiben jedoch in Data Catalog erhalten.

  • Wenn Sie eine Dataproc Metastore-Instanz löschen, entsprechenden Instanz-, Datenbank- und Tabelleneinträgen auch aus Data Catalog

  • Für in Data Catalog gespeicherte Dataproc Metastore-Metadaten gilt die standardmäßige Aufbewahrungsdauer von Google Cloud.

  • Für das Aktivieren der Data Catalog-Synchronisierung fallen keine zusätzlichen Kosten an für Dataproc Metastore.

Dienst mit aktivierter Data Catalog-Synchronisierung erstellen

Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.

So aktivieren Sie die Data Catalog-Synchronisierung für einen neuen Dienst:

Console

  1. Öffnen Sie in der Google Cloud Console die Seite „Dataproc Metastore“:

    Dataproc Metastore aufrufen

  2. Klicken Sie oben auf der Seite Dataproc Metastore auf Erstellen.

    Die Seite Dienst erstellen wird geöffnet.

  3. Wählen Sie die Version von Dataproc Metastore aus, die Sie verwenden möchten.

  4. Klicken Sie unter Metadatenintegration auf Data Catalog-Synchronisierung.

  5. Verwenden Sie für die übrigen Dienstkonfigurationsoptionen die angegebenen Standardeinstellungen. Oder konfigurieren Sie Ihren Dienst nach Bedarf.

  6. Klicken Sie auf Senden.

Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren

Führen Sie die folgenden Schritte aus, um die Data Catalog-Synchronisierung für einen vorhandenen Dienst zu aktivieren oder zu deaktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Dataproc Metastore-Seite:

    Dataproc Metastore aufrufen

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Dienst, den Sie aktualisieren möchten.

    Die Seite Dienstdetails für diesen Dienst wird geöffnet.

  3. Klicken Sie auf dem Tab Konfiguration auf Bearbeiten.

    Die Seite Dienst bearbeiten wird geöffnet.

  4. Aktivieren Sie unter Metadatenintegration die Option Data Catalog-Synchronisierung. ein- oder ausschalten.

  5. Klicken Sie auf Senden.

Suche mit Data Catalog

Sie können in synchronisierten Dataproc Metastore-Metadaten mit Data Catalog suchen.

Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, Es gibt mehrere Möglichkeiten, nach Dataproc Metastore zu suchen Ressourcen, darunter:

  • Dataproc Metastore-Instanz
    • nach angezeigtem Namen
    • Standardfunktionen von Data Catalog, z. B. mithilfe von Tags.
  • Datenbank
    • nach angezeigtem Namen
    • Nach Beschreibung
    • Nach Dataproc Metastore-Instanz
    • Standardfunktionen von Data Catalog, z. B. mithilfe von Tags.
  • Tabelle
    • nach angezeigtem Namen
    • Nach Beschreibung
    • Nach Spaltennamen
    • Nach Spaltenbeschreibung
    • Nach Datenbank
    • Nach Dataproc Metastore-Instanz
    • Standardfunktionen des Data Catalogs, z. B. mithilfe von Tags

Nächste Schritte