Dataproc Metastore zur Synchronisierung von Data Catalog

Sie können den Dataproc Metastore-Dienst für die Data Catalog-Synchronisierung aktivieren, um den Dienst zur Metadatenerkennung und Metadatenverwaltung zu nutzen. Nach der Aktivierung werden Datenbank- und Tabellenmetadaten wie Schemainformationen automatisch von Dataproc Metastore mit Data Catalog synchronisiert.

Mit Data Catalog können Sie dienstspezifische Ressourcen wie Datenbanken und Tabellen taggen und suchen.

Was ist Data Catalog

Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in der Google Cloud-Data Analytics-Produktfamilie. Es ermöglicht einheitliche Wiedergabe- und Tag-Mechanismen für technische und geschäftliche Metadaten.

Weitere Informationen finden Sie in den folgenden Leitfäden zu Data Catalog:

Berechtigungen

Data Catalog erfüllt die Berechtigungen von Dataproc Metastore-Ebene. Für Metadaten, die aus Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten im Data Catalog.

Data Catalog überprüft die Berechtigungen für jede Metastore-Datenbank/-Tabelle zum Zeitpunkt des Zugriffs, damit nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können. auf.

Data Catalog-Synchronisierung aktivieren

Nach der Aktivierung der Data Catalog-Synchronisierung führt Data Catalog eine vollständige, vollständige Synchronisierung Ihres Dataproc Metastore-Dienstes durch.

Folgende Metadaten werden synchronisiert:

  • Instanzen
  • Datenbanken wie Name und Beschreibung
  • Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen)
  • Datenbankattribute
  • Tabellenattribute

Die folgende Tabelle zeigt die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog:

Dataproc-Metastore-Ressource Data Catalog-Ressource
Instanz Eintragsgruppe
Eintrag
Datenbank Entry
Tabelle Entry
Spalte Schema

Sie können den Dataproc Metastore-Dienst für die Data Catalog-Synchronisierung aktivieren, wenn Sie einen Dataproc Metastore-Dienst mithilfe der Google Cloud Console erstellen oder aktualisieren. Sie können die Synchronisierung auf dieselbe Weise deaktivieren.

Dienst mit aktivierter Data Catalog-Synchronisierung erstellen

Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.

So aktivieren Sie die Data Catalog-Synchronisierung für einen neuen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Dataproc Metastore-Seite:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie oben auf der Seite Dataproc Metastore auf die Schaltfläche Erstellen. Die Seite Dienst erstellen wird geöffnet.

  3. Konfigurieren Sie Ihren Dienst wie gewünscht.

  4. Aktivieren Sie unter Metadatenintegration die Data Catalog-Synchronisierung, um den Dataproc Metastore-Dienst mit Data Catalog zu synchronisieren.

  5. Klicken Sie auf Senden.

Data Catalog-Synchronisierung für einen vorhandenen Service aktivieren oder deaktivieren

So aktivieren oder deaktivieren Sie die Data Catalog-Synchronisierung für einen vorhandenen Dienst:

Console

  1. Öffnen Sie in der Cloud Console die Dataproc Metastore-Seite:

    Dataproc Metastore in der Cloud Console öffnen

  2. Klicken Sie auf der Seite Dataproc Metastore auf den Dienstnamen des zu aktualisierenden Dienstes. Die Seite Dienstdetails für diesen Dienst wird geöffnet.

  3. Klicken Sie auf dem Tab Konfiguration auf Bearbeiten. Die Seite Dienst bearbeiten wird geöffnet.

  4. Wählen Sie in derMetadatenintegration Bereich, klicken, um zu wechselnAktivieren aktiviert oder deaktiviert fürData Catalog-Synchronisierung auf.

  5. Klicken Sie auf die Schaltfläche Submit (Senden), um den Dienst zu aktualisieren.

Mit Data Catalog suchen

Sie können synchronisierte Dataproc Metastore-Metadaten mit Data Catalog suchen.

Für Dataproc Metastore gibt es keine benutzerdefinierten Suchoptionen. Es gibt jedoch mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen:

  • Dataproc Metastore-Instanz
    • Nach Anzeigenamen
    • Standardmethoden in Data Catalog – nach Tags usw.
  • Datenbank
    • Nach Anzeigenamen
    • Nach Beschreibung
    • Nach Dataproc Metastore-Instanz
    • Standardmethoden in Data Catalog – nach Tags usw.
  • Tabelle:
    • Nach Anzeigenamen
    • Nach Beschreibung
    • Nach Spaltenname
    • Nach Spaltenbeschreibung
    • Nach Datenbank
    • Nach Dataproc Metastore-Instanz
    • Standardmethoden in Data Catalog – nach Tags usw.

FAQ

  • Warten Sie sechs Stunden, bevor Sie den Datenkatalog und die Richtigkeit der Metadaten im Data Catalog prüfen.

  • Wenn Sie vermuten, dass ein Problem mit der Dataproc-Metastore-Synchronisierung für Data Catalog vorliegt, überprüfen Sie die Veröffentlichungslogs in Cloud Logging mit dem Filter textPayload=~".*Publish.*". Weitere Informationen zum Zugriff auf Logs finden Sie unter Zugriff auf Joblogs in Logging.

  • Wenn Sie die Data Catalog-Synchronisierung deaktivieren, werden keine Metadaten von Dataproc Metastore mit Data Catalog synchronisiert. Metadaten, die bereits synchronisiert wurden, verbleiben jedoch in Data Catalog.

  • Wenn Sie eine Dataproc Metastore-Instanz löschen, werden auch die entsprechende Instanz, die Datenbank und die Tabelleneinträge aus Data Catalog entfernt.

  • Data Catalog entspricht den standardmäßigen Aufbewahrungsfristen von Google Cloud.

  • Für die Aktivierung der Data Catalog-Synchronisierung für Dataproc-Metaspeicher fallen keine zusätzlichen Kosten an.

Nächste Schritte