このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときに、データセットから一般的なエラーを削除する方法について説明します。
データセットでは、次の種類のエラーが発生します。
- システムエラー(サービスやインスタンスの障害など)
- 論理エラー(パイプラインの実行エラーなど)
- データエラー(クレジット カード番号が無効、日付の形式が無効、郵便番号が無効など)
Wrangler には、データセットから一般的なエラーを削除するための 50 を超えるディレクティブが用意されています。
レコードをエラーに送信する手順は次のとおりです。
- Cloud Data Fusion の Wrangler ワークスペースに移動します。
- [データ] タブで列名に移動し、arrow_drop_down 展開矢印をクリックします。
- [エラーに送信] を選択し、不良レコードをエラーに送信する条件を選択します。
Wrangler は、指定された条件に一致する値をサンプルから削除し、send to error
ディレクティブをレシピに追加します。データ パイプラインを実行すると、列内のすべての値に変換が適用されます。
エラーコレクタ プラグインをデータ パイプラインに追加する
send to
error
ディレクティブを含むレシピを使用して Wrangler 変換をデータ パイプラインに追加する場合は、エラーコレクタ プラグインに接続できます。通常、エラーコレクタ プラグインは、BigQuery シンクなどのダウンストリーム シンク プラグインに接続されます。
パイプラインを実行すると、send to error
ディレクティブによってフラグが立てられたレコードは、パイプラインの Wrangler 変換ステップからエラーコレクタ ステップ、シンクステップに移動します。実行が完了したら、シンクに書き込まれたフラグ付きレコードを確認できます。
レシピに send to error
変換が含まれていても、パイプラインにエラーコレクタ プラグインが含まれていない場合、send to
error
ディレクティブによってフラグが立てられたレコードは、パイプラインの実行中に破棄されます。
次のステップ
- Wrangler ディレクティブの詳細を確認する。