Datensätze an „Fehler“ senden

Auf dieser Seite wird erläutert, wie Sie bei der Vorbereitung häufige Fehler aus einem Dataset entfernen können Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio.

In Datasets treten die folgenden Fehlertypen auf:

  • Systemfehler wie Dienst- oder Instanzfehler
  • Logische Fehler, z. B. Fehler bei der Pipelineausführung
  • Datenfehler, wie ungültige Kreditkartennummern, ungültige Datumsformate oder Ungültige Postleitzahlen

Wrangler bietet über 50 Direktive, mit denen Sie häufige Fehler aus einem Datensatz entfernen können.

So senden Sie Einträge mit einem Fehler:

  1. Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
  2. Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
  3. Wählen Sie An Fehler senden und dann die Bedingung aus, die fehlerhafte Einträge an den Fehlerpuffer sendet.

Wrangler entfernt Werte, die die angegebene Bedingung erfüllen, aus der Stichprobe und fügt dem Schema die Anweisung send to error hinzu. Beim Ausführen der Daten wird die Transformation auf alle Werte in der Spalte angewendet.

Fehler-Collector-Plug-in zu Datenpipeline hinzufügen

Wenn Sie einer Datenpipeline eine Wrangler-Transformation mit einem Schema hinzufügen, das die Anweisung send to error enthält, können Sie sie mit dem Fehlercode verbinden Collector-Plug-in. Das Fehler-Collector-Plug-in ist in der Regel mit einem Downstream-Senke-Plug-in wie einer BigQuery-Senke verbunden.

Wenn Sie die Pipeline ausführen, werden die mit der send to error-Anweisung gekennzeichneten Datensätze vom Wrangler-Transformationsschritt in Ihrer Pipeline über den Schritt „Error Collector“ zum Schritt „Sink“ weitergeleitet. Nach Abschluss des Tests können Sie die gekennzeichneten in die Senke geschriebene Datensätze.

Wenn Ihr Rezept die send to error-Transformation enthält, die Pipeline aber nicht das Plug-in „Error Collector“ (Fehlererfassung), werden die mit der send to error-Anweisung gekennzeichneten Datensätze während der Pipelineausführung gelöscht.

Nächste Schritte