Daten erkennen

In diesem Leitfaden wird erläutert, wie Sie Dataplex aktivieren und verwenden Auffindbarkeit. Discovery-Scans und Extrakte aus Daten in einem Data Lake und registriert sie unter Dataproc Metastore, BigQuery und Data Catalog für Analyse, Suche und explorative Datenanalyse.

Übersicht

Für jedes Dataplex-Asset mit aktivierter Erkennung Dataplex führt Folgendes aus:

  • Scannt die mit dem Asset verknüpften Daten.
  • Gruppiert strukturierte und semistrukturierte Dateien in Tabellen.
  • Erfasst technische Metadaten wie Tabellenname, Schema und Partitionsdefinition.

Für unstrukturierte Daten wie Bilder und Videos verwendet Dataplex Discovery erkennt Dateigruppen automatisch und registriert sie die Freigabe von Medientypen als Dateisätze. Beispiel: gs://images/group1 GIF-Bilder enthält und gs://images/group2 JPEG-Bilder enthält. Dataplex Discovery erkennt zwei Dateisätze. Bei strukturierten Daten wie Avro erkennt Discovery Dateien nur dann, wenn sie sich in Ordnern mit demselben Datenformat und Schema befinden.

Die erkannten Tabellen und Dateisätze sind in Data Catalog registriert für und Auffindbarkeit zu optimieren. Die Tabellen werden in Dataproc Metastore angezeigt als Tabellen im Hive-Format und in BigQuery als externe Tabellen. automatisch für die Analyse zur Verfügung gestellt.

Discovery unterstützt die folgenden strukturierten und semistrukturierten Datenformate:

Discovery unterstützt das folgende Komprimierungsformat für strukturierte und semistrukturierte Daten:

  • Interne Komprimierung für diese Formate:

    Komprimierung Beispiel für eine Dateiendung Unterstütztes Format
    GZIP .gz.parquet Parquet
    LZ4 LZ4.Parquet Parquet
    Snappy .snappy.parquet Parquet, ORC, Avro
    lzo .lzo.parquet Parquet, Orc, USA
  • Externe Komprimierung für JSON- und CSV-Dateien:

    • GZIP
    • bzip2

Erkennungskonfiguration

Die Erkennung ist standardmäßig aktiviert, wenn Sie eine neue Zone oder Asset an. Sie können die Erkennung auf der Zonen- oder Asset-Ebene.

Wenn Sie eine Zone oder ein Asset erstellen, können Sie festlegen, Erkennungseinstellungen auf Zonenebene oder überschreiben Einstellungen für die Erkennung auf Asset-Ebene.

Folgende Konfigurationsoptionen für die Erkennung sind auf Zonen- und Asset-Ebene verfügbar:

  • Erkennung aktivieren und deaktivieren:

  • Zeitplan für die Erkennung: Für diese Option kann ein vordefinierter Zeitplan festgelegt werden. Zeitplan, z. B. stündlich oder täglich oder ein von Cron definierter benutzerdefinierter Zeitplan Format. Neue Assets werden gescannt, wenn sie hinzugefügt werden. Weitere Informationen Weitere Informationen finden Sie unter Cron-Zeitpläne konfigurieren. Empfohlen: Planen Sie die Erkennung so, dass sie höchstens einmal pro Stunde ausgeführt wird häufig auftreten.

  • Muster ein- oder ausschließen: Legen Sie fest, welche Dateien ein- oder ausgeschlossen werden sollen. Discovery-Scans mithilfe von glob-Mustern in den Ausschließen des Pfads. Wenn Sie beispielsweise gs://test_bucket/foo/.. aus Discovery verwenden, geben Sie **/foo/* als Ausschlusspfad ein. Anführungszeichen verursacht Fehler. Achten Sie darauf, **/foo/* statt "**/foo/*" einzugeben. Diese Funktion ist nur für Cloud Storage-Assets verfügbar. Wenn beide Muster zum Ein- und Ausschließen gleichzeitig vorhanden sind, zuerst angewendet.

  • JSON- oder CSV-Spezifikationen: Hier können Sie zusätzliche Informationen angeben. wie semistrukturierte Daten wie CSV und JSON, um die Genauigkeit Erkennungsergebnisse.

    • Bei CSV-Dateien können Sie Folgendes angeben:

      • Trennzeichen: In dieses Feld kann ein Zeichen außer \r und \n eingegeben werden. Wenn mehrere Zeichen enthalten, wird nur das erste Zeichen -Zeichenfolge verwendet wird. Wenn nicht angegeben, wird in Discovery ein Komma verwendet als Trennzeichen.

      • Anzahl der Kopfzeilen: In dieses Feld können die Werte 0 oder 1 eingegeben werden. Der Standardwert ist 0. Wenn der Wert 0 ist, erfolgt die Erkennung und wenn ein Header erkannt wird, extrahiert Spaltennamen aus dem Header und setzt den Wert auf 1 zurück.

      • Codierung: In diesem Feld werden Namen für die Stringcodierung unterstützt, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn nichts angegeben ist, wird UTF-8 verwendet als die Standardeinstellung.

      • Typinferenz deaktivieren:In dieses Feld kann ein boolescher Wert eingegeben werden. Es ist ist standardmäßig auf false festgelegt. Wenn Sie bei CSV-Daten die Typinferenz deaktivieren, werden alle Spalten als Zeichenfolgen registriert.

    • Für JSON-Dateien können Sie Folgendes angeben:

      • Codierung: In diesem Feld werden Namen für die Stringcodierung unterstützt, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn nichts angegeben ist, wird UTF-8 verwendet. als Standard eingerichtet.

      • Datentypinferenz deaktivieren:In dieses Feld kann ein boolescher Wert eingegeben werden. Es ist ist standardmäßig auf false festgelegt. Wenn Sie bei JSON-Daten die Typinferenz deaktivieren, werden alle Spalten als ihre primitiven Typen (Zeichenfolge, Zahl oder boolesch).

Metadaten veröffentlichen

Wenn Sie eine Datenzone in Ihrem Dataplex-Lake erstellen, Dataplex erstellt ein BigQuery-Dataset im Projekt das den See enthält. Dataplex veröffentlicht Tabellen in diesem Dataset für Tabellen, die in den Cloud Storage-Buckets erkannt wurden, die dem Datenzone als Assets. Das Dataset wird als Metadaten bezeichnet. Veröffentlichen eines Datasets, das der Zone entspricht.

Jede Dataplex-Datenzone ist einem Dataset in BigQuery oder eine Datenbank in Dataproc Metastore, in dem Metadateninformationen automatisch zur Verfügung gestellt werden.

Sie können automatisch erkannte Metadaten, wie Tabellenname oder Schema mithilfe der Dataplex Metadata API.

Erkannte Tabellen und Dateisätze ansehen

Sie können in Dataplex nach erkannten Tabellen und Dateisätzen suchen Ansicht Suchen in der Google Cloud Console

Suche öffnen

Verwenden Sie Dataplex-spezifische Filter, um genauere Suchergebnisse zu erhalten. wie Lake- und Datenzonennamen. Die obersten 50 Elemente pro Attribut sind in der Filterliste angezeigt. Zusätzliche Elemente finden Sie über die Suchfeld angezeigt.

Jeder Eintrag enthält detaillierte technische und operative Metadaten.

Über die Seite mit den Eintragsdetails können Sie die Tabelle in BigQuery abfragen. und rufen Sie die entsprechenden Registrierungsdetails von Dataproc Metastore auf.

Ob eine Cloud Storage-Tabelle in BigQuery veröffentlicht werden kann als externe Tabelle enthält, wird in der Ansicht mit den Eintragsdetails Folgendes angezeigt:

  • Verweise auf externe BigQuery-Tabellen
  • Die Schaltfläche In BigQuery öffnen, um mit der Analyse der Daten in BigQuery zu beginnen.

Die Dataplex-Metadateneinträge sind direkt sichtbar und searchable in Data Catalog an. Weitere Informationen finden Sie in der Referenz zur Suche in Data Catalog.

Alle erkannten Einträge können über die Dataplex Metadata API angezeigt werden.

Erkennungsaktionen

Bei Erkennung werden die folgenden Administratoraktionen immer dann ausgelöst, wenn datenbezogene Probleme werden während der Scans erkannt.

Ungültiges Datenformat

Zu den Aktionen gehören:

  • Uneinheitliches Datenformat in einer Tabelle. Zum Beispiel Dateien unterschiedlicher Formate mit demselben Tabellenpräfix vorhanden sind.

  • Ungültiges Datenformat in ausgewählten Zonen (Daten, die nicht im Avro-, Parquet- oder ORC-Format vorliegen).

Inkompatibles Schema

Zu den Aktionen gehören:

  • Ein von der Erkennung erkanntes Schema ist nicht kompatibel mit dem aktives Tabellenschema in der Metadaten-API in Dataproc Metastore. Schema A und Schema B sind in folgenden Fällen nicht kompatibel:

    • Die Felder für A und B haben denselben Namen, sind aber unterschiedlich und nicht kompatibel Datentypen. Zum Beispiel String und Ganzzahl.

    • Die Felder A und B überschneiden sich nicht.

    • A und B haben mindestens ein Feld, das keine Nullwerte zulässt und im anderen Schema nicht gefunden wurde.

  • Schemaabweichung gegen ein vom Nutzer verwaltetes Schema in der ausgewählten Zone.

Ungültige Partitionsdefinition

Zu den Aktionen gehören:

  • Inkonsistente Partitionsbenennung. Beispiel: gs://sales_data/year=2020/month=10/day=01 und gs://sales_data/year=2020/region=us.

  • Partitionsbenennung für Nicht-Hive-Stile in der ausgewählten Datenzone. Für Beispiel: gs://sales_data/2020/10/01 anstelle von gs://sales_data/year=2020/month=10/day=01.

Fehlende Daten

Zu den Aktionen gehören:

  • In der Zone mit ausgewählten Daten sind die zugrunde liegenden Daten für eine registrierte Tabelle oder Dateisatz existiert nicht mehr. Mit anderen Worten, eine kuratierte Zonentabelle oder ein Dateisatz wurde erkannt und registriert, aber später wurden die zugrunde liegenden Daten gelöscht. Sie können entweder Daten auffüllen oder Löschen des Metadateneintrags.

Erkennungsaktionen klären

Daten mit Aktionen werden von nachfolgenden Discovery-Scans geprüft. Wenn das Problem, das die Aktion auslöst, behoben ist, ist die Aktion behoben automatisch beim nächsten geplanten Discovery-Scan.

Weitere Aktionen

Neben den vorherigen Discovery-Aktionen gibt es drei andere Aktionen im Zusammenhang mit dem Ressourcenstatus und der Sicherheitsrichtlinie Propagierungen in Dataplex.

  • Fehlende Ressource: Der zugrunde liegende Bucket oder das zugrunde liegende Dataset wurde nicht gefunden. die einem vorhandenen Asset entsprechen.

  • Nicht autorisierte Ressource: Dataplex verfügt nicht über ausreichend Ressourcen. Berechtigungen zum Durchführen einer Erkennung oder zum Anwenden von Sicherheitsrichtlinien für den von Dataplex verwalteten Bucket oder Dataset

  • Probleme bei der Weitergabe von Sicherheitsrichtlinien: Sicherheitsrichtlinien, die für ein Lake, eine Zone oder ein bestimmtes Asset konnte nicht an den zugrunde liegende Buckets oder Datasets. Alle anderen Aktionen befinden sich hingegen am Asset. kann diese Art von Aktion auf Lake-, Zonen- und Asset-Ebene ausgelöst werden.

Diese Aktionstypen werden automatisch behoben, wenn die zugrunde liegende Ressource oder Sicherheitskonfigurationsprobleme behoben.

FAQ

Was kann ich tun, wenn das von der Erkennung abgeleitete Schema falsch ist?

Wenn sich das abgeleitete Schema von dem unterscheidet, was für eine bestimmte Tabelle erwartet wird, können Sie das abgeleitete Schema überschreiben, indem Sie Metadaten mithilfe der metadata API an. Achten Sie darauf, userManaged auf true, damit Ihre Änderung in nachfolgenden Erkennungsscans.

Wie schließe ich Dateien aus einem Discovery-Scan aus?

Standardmäßig schließt Discovery bestimmte Dateitypen aus Scannen, einschließlich:

  • _SUCCESS
  • _started
  • _committed
  • _metadata, _METADATA, _Metadata
  • _common_metadata, _COMMON_METADATA
  • Dateien, die mit README oder readme beginnen
  • Verzeichnisse ab base_, delta_, delete_delta_, bucket_, gefolgt von einer Zahl
  • Verzeichnisse, die mit . beginnen

Zusätzliche Muster zum Einschließen oder Ausschließen können Sie mithilfe der Eigenschaft Erkennungskonfiguration auf Zonen- oder Asset-Ebene oder über die metadata API.

Was kann ich tun, wenn die von der Erkennung erkannte Tabellengruppierung zu detailliert ist?

Wenn die von der Erkennung erkannten Tabellen einen detaillierteren Wert haben im Vergleich zum Stammpfad der Tabelle, z. B. jede einzelne als Tabelle registriert ist, kann es dafür verschiedene Gründe geben:

  • Es gibt Formatunterschiede, z. B. eine Mischung aus Avro- und Parquet-Dateien, den erwarteten Stammpfad der Tabelle, durch die die Tabelle in kleinere Gruppierungen aufgeteilt wird.

  • Die erwartete Tabelle enthält verschiedene Arten von Schemainkompatibilitäten Stammpfad, bei dem die Tabelle in kleinere Gruppierungen aufgeteilt wird.

Sie haben folgende Möglichkeiten, dieses Problem zu beheben:

  • Format- oder Schemaunterschiede beheben, sodass alle Dateien im selben Tabellenstamm haben ein konsistentes Format und ein kompatibles Schema.

  • Sie können heterogene Dateien ausschließen, indem Sie die Konfiguration des Ausschlussmusters als Teil verwenden der Zonen-/Asset-Konfiguration oder der Metadaten-API.

Nachdem Sie einen der Korrekturschritte durchgeführt haben, Bei einem Erkennungsscan geschieht Folgendes:

  • Die vorhandenen untergeordneten Tabellen werden automatisch aus der Dataplex Metadata API, BigQuery Dataproc Metastore und Data Catalog.
  • Stattdessen wird eine neue übergeordnete Tabelle mit dem erwarteten Stammpfad der Tabelle erstellt.

Wie gebe ich Tabellennamen an?

Sie können Tabellennamen mithilfe der metadata API angeben.

Was passiert, wenn ich Tabellen manuell in Dataproc Metastore oder BigQuery erstelle?

Wenn Discovery für ein bestimmtes Asset aktiviert ist, um Einträge manuell in Dataproc Metastore zu registrieren oder BigQuery

Sie können Tabellennamen, Schemas und Partitionsdefinitionen manuell definieren. Dataplex Discovery wird ausgeschaltet. Alternativ können Sie gehen Sie so vor:

  1. Tabelle erstellen indem Sie nur die erforderlichen Informationen angeben, z. B. den Stammpfad der Tabelle.
  2. Verwenden Sie Dataplex Discovery, um den Rest die Metadaten wie Schema- und Partitionsdefinitionen.
  3. Halte die Metadaten auf dem neuesten Stand.

Was kann ich tun, wenn meine Tabelle nicht in BigQuery angezeigt wird?

Die Dataplex-Metadaten sind zentral im Metadaten-API nur Cloud Storage-Tabellen, die kompatibel sind mit BigQuery-Daten werden als extern in BigQuery veröffentlicht Tabellen. Als Teil der Tabelleneintragsdetails in der metadata API finden Sie eine BigQuery- Kompatibilitätsmarkierung, die angibt, welche Entitäten in BigQuery veröffentlicht werden und warum.

Nächste Schritte