Auf dieser Seite wird erläutert, wie Sie bei der Vorbereitung häufige Fehler aus einem Dataset entfernen können Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio.
In Datasets treten die folgenden Fehlertypen auf:
- Systemfehler wie Dienst- oder Instanzfehler
- Logische Fehler, z. B. Fehler bei der Pipelineausführung
- Datenfehler, wie ungültige Kreditkartennummern, ungültige Datumsformate oder Ungültige Postleitzahlen
Wrangler bietet über 50 Direktive, mit denen Sie häufige Fehler aus einem Datensatz entfernen können.
So senden Sie Einträge mit einem Fehler:
- Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
- Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
- Wählen Sie An Fehler senden und dann die Bedingung aus, die fehlerhafte Einträge an den Fehlerpuffer sendet.
Wrangler entfernt Werte, die die angegebene Bedingung erfüllen, aus der Stichprobe und
fügt dem Schema die Anweisung send to error
hinzu. Beim Ausführen der Daten
wird die Transformation auf alle Werte in der Spalte angewendet.
Fehler-Collector-Plug-in zu Datenpipeline hinzufügen
Wenn Sie einer Datenpipeline eine Wrangler-Transformation mit einem Schema hinzufügen, das die Anweisung send to
error
enthält, können Sie sie mit dem Fehlercode verbinden
Collector-Plug-in. Das Fehler-Collector-Plug-in ist in der Regel mit einem Downstream-Senke-Plug-in wie einer BigQuery-Senke verbunden.
Wenn Sie die Pipeline ausführen, werden die mit der send to error
-Anweisung gekennzeichneten Datensätze vom Wrangler-Transformationsschritt in Ihrer Pipeline über den Schritt „Error Collector“ zum Schritt „Sink“ weitergeleitet. Nach Abschluss des Tests können Sie die gekennzeichneten
in die Senke geschriebene Datensätze.
Wenn Ihr Rezept die send to error
-Transformation enthält, die Pipeline aber nicht das Plug-in „Error Collector“ (Fehlererfassung), werden die mit der send to
error
-Anweisung gekennzeichneten Datensätze während der Pipelineausführung gelöscht.