Dataproc Metastore mit Data Catalog synchronisieren

Sie können den Dataproc Metastore-Dienst zur Data Catalog-Synchronisierung aktivieren, um die Metadatenerkennung und -verwaltung zu nutzen. Nach der Aktivierung werden Datenbank- und Tabellenmetadaten automatisch aus Dataproc Metastore mit Data Catalog synchronisiert.

Mit Data Catalog können Sie dienstspezifische Ressourcen wie Datenbanken und Tabellen taggen und durchsuchen.

Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in der Data Analytics-Produktfamilie von Google Cloud. Es stellt einheitliche Ansichts- und Tagging-Mechanismen für technische und geschäftliche Metadaten bereit.

Weitere Informationen finden Sie in den folgenden Data Catalog-Featureleitfäden:

Berechtigungen

Data Catalog berücksichtigt die Berechtigungen auf Dataproc Metastore-Ebene. Für Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.

Data Catalog prüft die Berechtigungen für jede Metastore-Datenbank/-Tabelle zum Zeitpunkt des Zugriffs, sodass nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können.

Sie müssen roles/metastore.metadataViewer anfordern, um synchronisierte Dataproc Metastore-Einträge in Data Catalog anzusehen. Die roles/metastore.Admin und roles/metastore.Editor unterstützen keine Metastore-Datenbanken und -Tabellenberechtigungen.

Data Catalog-Synchronisierung aktivieren

Nach der Aktivierung der Data Catalog-Synchronisierung führt Data Catalog eine vollständige Synchronisierung des Dataproc Metastore-Dienstes durch.

Data Catalog synchronisiert die folgenden Metadaten:

  • Instanzen
  • Datenbanken, einschließlich Name und Beschreibung
  • Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen)
  • Datenbankattribute
  • Tabellenattribute

Die folgende Tabelle zeigt die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:

Dataproc Metastore-Ressource Data Catalog-Ressource
Instanz Eintragsgruppe
Eintrag
Datenbank Entry
Tabelle Entry
Spalte Schema

Sie können den Dataproc Metastore-Dienst für die Data Catalog-Synchronisierung aktivieren, wenn Sie einen Dataproc Metastore-Dienst über die Google Cloud Console erstellen oder aktualisieren. Sie können die Synchronisierung auf die selbe Weise deaktivieren.

Dienst mit aktivierter Data Catalog-Synchronisierung erstellen

Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.

So aktivieren Sie die Data Catalog-Synchronisierung für einen neuen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Seite „ Dataproc Metastore“:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie oben auf der Dataproc Metastore-Seite auf die Schaltfläche Create (Erstellen). Die Seite Dienst erstellen wird geöffnet.

  3. Konfigurieren Sie Ihren Dienst wie gewünscht.

  4. Aktivieren Sie unter Metadatenintegration die Data Catalog-Synchronisierung, um den Dataproc Metastore-Dienst mit Data Catalog zu synchronisieren.

  5. Klicken Sie auf Senden.

Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren

So aktivieren oder deaktivieren Sie die Data Catalog-Synchronisierung für einen vorhandenen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Seite „ Dataproc Metastore“:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Dienstnamen des Dienstes, den Sie aktualisieren möchten. Die Seite Dienstdetails für diesen Dienst wird geöffnet.

  3. Klicken Sie auf dem Tab Configuration (Konfiguration) auf die Schaltfläche Edit (Bearbeiten). Die Seite Dienst bearbeiten wird geöffnet.

  4. Klicken Sie im Bereich Metadaten-Integration auf Aktivieren oder deaktivieren Sie sie für Data Catalog-Synchronisierung.

  5. Klicken Sie auf Senden, um den Dienst zu aktualisieren.

Suche mit Data Catalog

Sie können synchronisierte Dataproc Metastore-Metadaten mit Data Catalog suchen.

Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, gibt es mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen:

  • Dataproc Metastore-Instanz
    • nach angezeigtem Namen
    • Data Catalog-Standardmethoden – nach Tags usw.
  • Datenbank
    • nach angezeigtem Namen
    • Über die Beschreibung
    • Von Dataproc Metastore-Instanz
    • Data Catalog-Standardmethoden – nach Tags usw.
  • Tabelle:
    • nach angezeigtem Namen
    • Über die Beschreibung
    • Nach Spaltennamen
    • Nach Spaltenbeschreibung
    • Nach Datenbank
    • Von Dataproc Metastore-Instanz
    • Data Catalog-Standardmethoden – nach Tags usw.

FAQ

  • Warten Sie sechs Stunden, bevor Sie Data Catalog auf Vollständigkeit und Korrektheit der Metadaten-Synchronisierung überprüfen.

  • Wenn Sie vermuten, dass ein Problem mit der Synchronisierung von Dataproc Metastore zu Data Catalog vorliegt, prüfen Sie die Metadatenveröffentlichungslogs in Cloud Logging von Dataproc Metastore mit dem Filter textPayload=~".*Publish.*". Weitere Informationen zum Zugriff auf Logs finden Sie unter Auf Joblogs in Logging zugreifen.

  • Wenn Sie die Data Catalog-Synchronisierung deaktivieren, werden Metadaten nicht mehr von Dataproc Metastore mit Data Catalog synchronisiert. Metadaten, die bereits synchronisiert wurden, bleiben jedoch in Data Catalog erhalten.

  • Wenn Sie eine Dataproc Metastore-Instanz löschen, werden auch die entsprechende Instanz, die Datenbank und die Tabelleneinträge aus Data Catalog entfernt.

  • Data Catalog beachtet die standardmäßige Aufbewahrungsdauer von Google Cloud.

  • Für das Aktivieren der Data Catalog-Synchronisierung für Dataproc Metastore fallen keine zusätzlichen Kosten an.

Weitere Informationen