レコードをエラーに送信する

このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときに、データセットから一般的なエラーを削除する方法について説明します。

データセットでは、次の種類のエラーが発生します。

  • システムエラー(サービスやインスタンスの障害など)
  • 論理エラー(パイプラインの実行エラーなど)
  • データエラー(クレジット カード番号が無効、日付の形式が無効、郵便番号が無効など)

Wrangler には、データセットから一般的なエラーを削除するための 50 を超えるディレクティブが用意されています。

レコードをエラーに送信する手順は次のとおりです。

  1. Cloud Data Fusion の Wrangler ワークスペースに移動します
  2. [データ] タブで列名に移動し、arrow_drop_down 展開矢印をクリックします。
  3. [エラーに送信] を選択し、不良レコードをエラーに送信する条件を選択します。

Wrangler は、指定された条件に一致する値をサンプルから削除し、send to error ディレクティブをレシピに追加します。データ パイプラインを実行すると、列内のすべての値に変換が適用されます。

エラーコレクタ プラグインをデータ パイプラインに追加する

send to error ディレクティブを含むレシピを使用して Wrangler 変換をデータ パイプラインに追加する場合は、エラーコレクタ プラグインに接続できます。通常、エラーコレクタ プラグインは、BigQuery シンクなどのダウンストリーム シンク プラグインに接続されます。

パイプラインを実行すると、send to error ディレクティブによってフラグが立てられたレコードは、パイプラインの Wrangler 変換ステップからエラーコレクタ ステップ、シンクステップに移動します。実行が完了したら、シンクに書き込まれたフラグ付きレコードを確認できます。

レシピに send to error 変換が含まれていても、パイプラインにエラーコレクタ プラグインが含まれていない場合、send to error ディレクティブによってフラグが立てられたレコードは、パイプラインの実行中に破棄されます。

次のステップ