Synchronisierung von Dataproc Metastore zu Data Catalog

Sie können den Dataproc Metastore-Dienst mit der Data Catalog-Synchronisierung aktivieren, um die Metadatenerkennung und -verwaltung zu nutzen. Nach der Aktivierung werden die Datenbank- und Tabellenmetadaten automatisch von Dataproc Metastore mit Data Catalog synchronisiert.

Mit Data Catalog können Sie dienstspezifische Ressourcen wie Datenbanken und Tabellen taggen und suchen.

Was ist Data Catalog?

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in der Familie von Google Cloud-Produkten. Es bietet einheitliche Ansichts- und Tagging-Mechanismen für technische und geschäftliche Metadaten.

Weitere Informationen finden Sie in den folgenden Feature-Leitfäden für Data Catalog:

Berechtigungen

Data Catalog unterliegt den Dataproc Metastore-Berechtigungen. Für Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.

Data Catalog prüft die Berechtigungen für jede Metaspeicher-Datenbank/-Tabelle zum Zeitpunkt des Zugriffs, sodass nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können.

Data Catalog-Synchronisierung aktivieren

Nach dem Aktivieren der Data Catalog-Synchronisierung führt Data Catalog eine vollständige Live-Synchronisierung Ihres Dataproc Metastore-Dienstes durch.

{data_catalog_name_short}} synchronisiert die folgenden Metadaten:

  • Instanzen
  • Datenbanken, einschließlich Name und Beschreibung
  • Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen)
  • Datenbankattribute
  • Tabellenattribute

Die folgende Tabelle zeigt die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:

Dataproc Metastore-Ressource Data Catalog-Ressource
Instanz Eintragsgruppe
Eintrag
Datenbank Entry
Tabelle Entry
Spalte Schema

Sie können den Dataproc Metastore-Dienst mit der Data Catalog-Synchronisierung aktivieren, wenn Sie einen Dataproc Metastore-Dienst mithilfe der Google Cloud Console erstellen oder aktualisieren. Sie können die Synchronisierung genauso deaktivieren.

Dienst mit aktivierter Data Catalog-Synchronisierung erstellen

Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.

So aktivieren Sie die Data Catalog-Synchronisierung für einen neuen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Dataproc Metastore-Seite:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie oben auf der Seite Dataproc Metastore auf die Schaltfläche Erstellen. Die Seite Dienst erstellen wird geöffnet.

  3. Konfigurieren Sie Ihren Dienst wie gewünscht.

  4. Aktivieren Sie unter Metadatenintegration die Data Catalog-Synchronisierung, um den Dataproc Metastore-Dienst mit Data Catalog zu synchronisieren.

  5. Klicken Sie auf Senden.

Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren

So aktivieren oder deaktivieren Sie die Data Catalog-Synchronisierung für einen vorhandenen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Dataproc Metastore-Seite:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Dienstnamen des Dienstes, den Sie aktualisieren möchten. Die Seite Dienstdetails für diesen Dienst wird geöffnet.

  3. Klicken Sie auf dem Tab Konfiguration auf die Schaltfläche Bearbeiten. Die Seite Dienst bearbeiten wird geöffnet.

  4. Klicken Sie im Abschnitt Metadatenintegration auf die Option Aktivieren für Data Catalog-Synchronisierung.

  5. Klicken Sie auf die Schaltfläche Senden, um den Dienst zu aktualisieren.

Mit Data Catalog suchen

Mit Data Catalog können Sie synchronisierte Dataproc Metastore-Metadaten suchen.

Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, gibt es mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen:

  • Dataproc Metastore-Instanz
    • Nach angezeigtem Namen
    • Standardmethoden für Data Catalog – nach Tags usw.
  • Datenbank
    • Nach angezeigtem Namen
    • Per Beschreibung
    • Durch Dataproc Metastore-Instanz
    • Standardmethoden für Data Catalog – nach Tags usw.
  • Tabelle:
    • Nach angezeigtem Namen
    • Per Beschreibung
    • Nach Spaltenname
    • Nach Spaltenbeschreibung
    • Nach Datenbank
    • Durch Dataproc Metastore-Instanz
    • Standardmethoden für Data Catalog – nach Tags usw.

FAQ

  • Warten Sie sechs Stunden, bevor Sie in Data Catalog die Vollständigkeit und Richtigkeit der Metadatensynchronisierung überprüfen.

  • Wenn Sie ein Problem mit der Synchronisierung von Dataproc Metastore mit Data Catalog vermuten, prüfen Sie die Metadaten-Veröffentlichungslogs in Dataproc Metastore Cloud Logging mit dem Filter textPayload=~".*Publish.*". Weitere Informationen zum Zugriff auf Logs finden Sie unter Auf Joblogs in Logging zugreifen.

  • Wenn Sie die Data Catalog-Synchronisierung deaktivieren, wird die Synchronisierung der Metadaten aus Dataproc Metastore mit Data Catalog beendet. Bereits synchronisierte Metadaten verbleiben jedoch in Data Catalog.

  • Wenn Sie eine Dataproc Metastore-Instanz löschen, werden auch die entsprechenden Instanzen, Datenbanken und Tabelleneinträge aus Data Catalog entfernt.

  • Data Catalog unterliegt den standardmäßigen Aufbewahrungsdauer von Google Cloud.

  • Für die Aktivierung der Data Catalog-Synchronisierung für Dataproc Metastore entstehen keine zusätzlichen Kosten.

Nächste Schritte