Dataproc Metastore mit Data Catalog synchronisieren

Sie können den Dataproc Metastore-Dienst für die Data Catalog-Synchronisierung aktivieren, um die Metadatenerkennung und -verwaltung zu nutzen. Datenbank- und Tabellenmetadaten werden nach der Aktivierung automatisch aus Dataproc Metastore mit Data Catalog synchronisiert.

Mit Data Catalog können Sie dienstspezifische Ressourcen wie Datenbanken und Tabellen taggen und durchsuchen.

Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in der Data Analytics-Produktfamilie von Google Cloud. Es stellt einheitliche Ansichts- und Tagging-Mechanismen für technische und geschäftliche Metadaten bereit.

Weitere Informationen finden Sie in den folgenden Data Catalog-Featureleitfäden:

Berechtigungen

Data Catalog berücksichtigt die Berechtigungen auf Dataproc Metastore-Ebene. Für Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.

Data Catalog prüft die Berechtigungen für jede Metastore-Datenbank/-Tabelle zum Zeitpunkt des Zugriffs, sodass nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können.

Data Catalog-Synchronisierung aktivieren

Nach der Aktivierung der Data Catalog-Synchronisierung führt Data Catalog eine vollständige, vollständige Synchronisierung Ihres Dataproc Metastore-Dienstes durch.

Data Catalog synchronisiert die folgenden Metadaten:

  • Instanzen
  • Datenbanken, einschließlich Name und Beschreibung
  • Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen)
  • Datenbankattribute
  • Tabellenattribute

Die folgende Tabelle zeigt die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:

Dataproc Metastore-Ressource Data Catalog-Ressource
Instanz Eintragsgruppe
Eintrag
Datenbank Entry
Tabelle Entry
Spalte Schema

Sie können die Synchronisierung des Dataproc Metastore-Dienstes mit Data Catalog aktivieren, wenn Sie einen Dataproc Metastore-Dienst mit der Google Cloud Console erstellen oder aktualisieren. Sie können die Synchronisierung auf die selbe Weise deaktivieren.

Dienst mit aktivierter Data Catalog-Synchronisierung erstellen

Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.

So aktivieren Sie die Data Catalog-Synchronisierung für einen neuen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Dataproc Metastore-Seite:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie oben auf der Seite Dataproc Metastore auf Create. Die Seite Dienst erstellen wird geöffnet.

  3. Konfigurieren Sie Ihren Dienst wie gewünscht.

  4. Aktivieren Sie unter Metadatenintegration die Option Data Catalog-Synchronisierung, um den Dataproc Metastore-Dienst mit Data Catalog zu synchronisieren.

  5. Klicken Sie auf Senden.

Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren

So aktivieren oder deaktivieren Sie die Data Catalog-Synchronisierung für einen vorhandenen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Dataproc Metastore-Seite:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Dienstnamen des Dienstes, den Sie aktualisieren möchten. Die Seite Dienstdetails für diesen Dienst wird geöffnet.

  3. Klicken Sie auf dem Tab Konfiguration auf die Schaltfläche Bearbeiten. Die Seite Dienst bearbeiten wird geöffnet.

  4. Klicken Sie im Abschnitt Metadata integration (Metadaten-Integration) auf den Schieberegler, um Enable (Aktivieren) für die Data Catalog-Synchronisierung zu aktivieren oder zu deaktivieren.

  5. Klicken Sie auf die Schaltfläche Submit (Senden), um den Service zu aktualisieren.

Suche mit Data Catalog

Mit Data Catalog können Sie synchronisierte Dataproc Metastore-Metadaten suchen.

Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, gibt es mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen:

  • Dataproc Metastore-Instanz
    • nach angezeigtem Namen
    • Data Catalog-Standardmethoden – nach Tags usw.
  • Datenbank
    • nach angezeigtem Namen
    • Über die Beschreibung
    • Nach Dataproc Metastore-Instanz
    • Data Catalog-Standardmethoden – nach Tags usw.
  • Tabelle:
    • nach angezeigtem Namen
    • Über die Beschreibung
    • Nach Spaltenname
    • Nach Spaltenbeschreibung
    • Nach Datenbank
    • Nach Dataproc Metastore-Instanz
    • Data Catalog-Standardmethoden – nach Tags usw.

FAQ

  • Warten Sie sechs Stunden, bevor Sie Data Catalog auf Vollständigkeit und Korrektheit der Metadaten-Synchronisierung überprüfen.

  • Wenn Sie vermuten, dass ein Problem mit der Synchronisierung von Dataproc Metastore zu Data Catalog vorliegt, prüfen Sie die Metadaten-Veröffentlichungslogs in Dataproc Metastore Cloud Logging mit dem Filter textPayload=~".*Publish.*". Weitere Informationen zum Zugriff auf Logs finden Sie unter Zugriff auf Joblogs in Logging.

  • Wenn Sie die Data Catalog-Synchronisierung deaktivieren, werden die Metadaten nicht mehr von Dataproc Metastore mit Data Catalog synchronisiert. Metadaten, die bereits synchronisiert wurden, bleiben jedoch in Data Catalog erhalten.

  • Wenn Sie eine Dataproc Metastore-Instanz löschen, werden auch die entsprechenden Instanz-, Datenbank- und Tabelleneinträge aus Data Catalog entfernt.

  • Data Catalog beachtet die standardmäßige Aufbewahrungsdauer von Google Cloud.

  • Für die Aktivierung der Data Catalog-Synchronisierung für Dataproc Metastore fallen keine zusätzlichen Kosten an.

Nächste Schritte