このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときに、データセットから一般的なエラーを削除する方法について説明します。
データセットでは、次の種類のエラーが発生します。
- サービスやインスタンスの障害などのシステムエラー
- 論理エラー(パイプラインの実行エラーなど)
- データエラー(クレジット カード番号が無効、日付の形式が無効、郵便番号が無効など)
Wrangler には、データセットから一般的なエラーを削除するための 50 を超えるディレクティブが用意されています。
レコードをエラーに送信する手順は次のとおりです。
- Cloud Data Fusion の Wrangler ワークスペースに移動します。
- [データ] タブで列名に移動し、arrow_drop_down 展開矢印をクリックします。
- [エラーに送信] を選択し、不正なレコードをエラーに送信する条件を選択します。
Wrangler は、指定された条件に一致する値をサンプルから削除し、send to error
ディレクティブをレシピに追加します。データ パイプラインを実行すると、列内のすべての値に変換が適用されます。
エラー コレクタ プラグインをデータ パイプラインに追加する
send to
error
ディレクティブを含むレシピを使用して Wrangler 変換をデータ パイプラインに追加する場合は、Error Collector プラグインに接続できます。エラー コレクタ プラグインは通常、BigQuery シンクなどのダウンストリーム シンク プラグインに接続されます。
パイプラインを実行すると、send to error
ディレクティブによってフラグが立てられたレコードは、パイプラインの Wrangler 変換ステップからエラー コレクタ ステップ、シンクステップに移動します。実行が完了したら、シンクに書き込まれたフラグ付きレコードを確認できます。
レシピに send to error
変換が含まれていても、パイプラインにエラー コレクタ プラグインが含まれていない場合、send to
error
ディレクティブによってフラグが立てられたレコードは、パイプラインの実行中に破棄されます。
次のステップ
- 詳しくは、Wrangler ディレクティブをご覧ください。