Auf dieser Seite wird erläutert, wie Sie häufige Fehler aus einem Datensatz entfernen, wenn Sie Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio vorbereiten.
In Datasets können die folgenden Arten von Fehlern auftreten:
- Systemfehler, z. B. Dienst- oder Instanzausfälle
- Logische Fehler, z. B. Fehler bei der Pipelineausführung
- Datenfehler, z. B. ungültige Kreditkartennummern, ungültige Datumsformate oder ungültige Postleitzahlen
Wrangler bietet über 50 Direktive, mit denen Sie häufige Fehler aus einem Datensatz entfernen können.
So senden Sie Datensätze an den Fehlerpuffer:
- Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
- Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
- Wählen Sie An Fehler senden und dann die Bedingung aus, die fehlerhafte Einträge an den Fehlerpuffer sendet.
Wrangler entfernt Werte, die der angegebenen Bedingung entsprechen, aus der Stichprobe und fügt dem Rezept die Anweisung send to error
hinzu. Wenn Sie die Datenpipeline ausführen, wird die Transformation auf alle Werte in der Spalte angewendet.
Einer Datenpipeline ein Fehler-Collector-Plug-in hinzufügen
Wenn Sie einer Datenpipeline eine Wrangler-Transformation mit einem Rezept hinzufügen, das die Anweisung send to
error
enthält, können Sie eine Verbindung zum Fehler-Collector-Plug-in herstellen. Das Fehler-Collector-Plug-in ist in der Regel mit einem Downstream-Senke-Plug-in wie einer BigQuery-Senke verbunden.
Wenn Sie die Pipeline ausführen, werden die mit der send to error
-Anweisung gekennzeichneten Datensätze vom Wrangler-Transformationsschritt in Ihrer Pipeline über den Schritt „Error Collector“ zum Schritt „Sink“ weitergeleitet. Nach Abschluss der Ausführung können Sie die gekennzeichneten Datensätze prüfen, die in den Datensammler geschrieben wurden.
Wenn Ihr Rezept die send to error
-Transformation enthält, die Pipeline aber nicht das Plug-in „Error Collector“ (Fehlererfassung), werden die mit der send to
error
-Anweisung gekennzeichneten Datensätze während der Pipelineausführung gelöscht.