Wrangler の概要

Wrangler は、Cloud Data Fusion Studio インターフェース内のビジュアル データ準備ツールです。抽出、変換、読み込み(ETL)パイプラインで使用する前に、データをクリーニングして変換できます。Wrangler は、データセット全体でロジックを実行する前に、データのサンプル(プレビュー)に 1 か所で変換を適用します。このプレビューは、変換を適用し、変換がデータセット全体にどのように影響するかを把握するのに役立ちます。

Wrangler ディレクティブ

ディレクティブは、Wrangler 内で使用される単一の命令です。ディレクティブでは、個々のレコードの変換、フィルタリング、ピボットなどのデータ操作方法を指定します。

ディレクティブに関連するコンセプトは次のとおりです。

レシピ
レシピはディレクティブのセットです。1 つ以上のディレクティブで構成されます。
変換ステップ
変換ステップは、単一のレコードまたはレコードセットに対して動作するデータ変換ディレクティブの実装です。変換ステップでは、ディレクティブの適用から 0 個以上のレコードを生成できます。Wrangler は、レシピに記載されている順序で変換ステップを適用します。

Wrangler コンポーネント

以降のセクションでは、Cloud Data Fusion Studio の Wrangler のコンポーネントについて説明します。

Wrangler ワークスペース

Wrangler ワークスペースは、Cloud Data Fusion Studio インターフェースのページで、データセットの解析、ブレンド、クリーニング、変換を行います。[ワークスペース] ページでは、次の操作を行うことができます。

  • 各列のプルダウン メニューを使用して、レシピに変換ステップを追加します。
  • [変換ステップ] タブを選択して、レシピ内のステップを表示または削除します。
  • データ品質バーを確認して、空のフィールドを含む列やその他の情報を探します。
  • [その他] をクリックして、データセットのスキーマを表示します。
  • データセットのソース プラグインと、パイプラインの実行時に実行される変換ステップを含むレシピを使用して Wrangler 変換を備えたデータ パイプラインを作成します。

Wrangler の電源モード(CLI)

宣言型構文を使用してディレクティブを指定するには、Power Mode(CLI)を使用します。次のタスクに役立ちます。

  • Studio インターフェースで使用できないディレクティブを使用する
  • ユーザー定義ディレクティブの追加
  • 複数の列にディレクティブを適用する

Wrangler パワーモードを使用するには、Wrangler の [データ] タブの下部にある黒いバーにディレクティブを入力します。

Wrangler の [分析情報] タブ

Wrangler ページの [分析情報] タブを使用して、データセットのデータ探索を行うことができます。

制限事項

  • Wrangler は、バッチ ETL パイプラインでのみサポートされています。
  • Wrangler は、サンプルデータにのみ変換を適用します。このサンプルデータは最初の 1,000 件のレコードに制限されています。
  • Wrangler では、ソースとの接続を作成する必要があります。詳細については、接続の作成と管理をご覧ください。
  • Wrangler では、常に 1 つ以上の Wrangler ワークスペースを開いている必要があります。
  • Wrangler 変換の [Wrangle] ボタンをクリックすることはできません。

Cloud Data Fusion Studio インターフェースから Wrangler にアクセスするには、次の 2 つの方法があります。

  • Cloud Data Fusion Wrangler ワークスペースを開くには、Cloud Data Fusion Studio に移動し、[Wrangler] をクリックします。
  • Wrangler プロパティを構成するには、Cloud Data Fusion Studio に移動し、[Studio] > [] [Transformations] > [Wrangler] をクリックします。

データソースに接続する

Wrangler は、BigQuery、Cloud Storage、外部データベース(追加の構成が必要)など、さまざまなデータソースをサポートしています。Wrangler を使用するには、ソースとの接続を作成する必要があります。

接続を作成するには、[接続] リストに移動し、データソースへの接続を選択します。詳細については、接続の作成と管理をご覧ください。

データの探索とプレビュー

Wrangler にデータのサンプル(通常は 1,000 行)が表示されます。データ型や基本統計情報など、データスキーマの概要を確認できます。

ディレクティブを適用する

Wrangler には、一般的なデータ ウォーキング タスク用のさまざまな組み込みディレクティブが用意されています。

  • 選択したディレクティブを特定の列またはデータ プレビュー ウィンドウにドラッグします。
  • 各ディレクティブには、動作をカスタマイズするための構成オプションがあります。

詳細については、Wrangler コマンドライン ディレクティブをご覧ください。

変換結果をプレビューする

ディレクティブを適用すると、データ プレビュー ウィンドウが動的に更新され、変更が反映されます。これにより、各変換がデータに与える影響をすぐに確認できます。

改善して繰り返す

データ ウォーキング プロセスを改善するには、ディレクティブの追加、構成の変更、プレビューの確認を続けます。

Wrangler のビジュアル インターフェースを使用すると、変換で期待される結果が得られるようにテストできます。

パイプラインに変換を追加する

Wrangler 自体は永続ストレージ ソリューションではありませんが、Cloud Data Fusion には、以下のような方法でラウニング ロジックをキャプチャする方法があります。

  • パイプラインを作成します。Wrangler ワークスペースで、次の手順に沿って Wrangler 変換を Cloud Data Fusion パイプラインに変換します。

    1. [Create Pipeline] をクリックします。
    2. [Batch pipeline] を選択します。[Pipeline Studio] ページが開き、ソースと Wrangler 変換を含むパイプラインが表示されます。
  • 変換を適用します。Studio ページで Wrangler プラグインを使用している場合は、[適用] をクリックして Wrangler 変換を Cloud Data Fusion パイプラインに変換します。

レシピを編集する

Wrangler ワークスペースを使用して Wrangler 変換を作成する場合は、Wrangler 変換をパイプラインに追加した後、Wrangler インターフェースを使用してレシピを追加または編集することをおすすめします。

Wrangler 変換でレシピを手動で編集したり、レシピに新しいステップを追加したりして、変更が出力スキーマに影響する場合は、レシピの変更に合わせて Wrangler 変換の出力スキーマを手動で更新する必要があります。Wrangler ワークスペースで作成または編集されたレシピのみが、Wrangler 変換で出力スキーマを自動作成および自動更新します。

Wrangler ウェブ インターフェースで作成された Wrangler 変換のレシピを編集する手順は次のとおりです。

  1. パイプラインの Wrangler ノードに移動し、[Properties] をクリックします。
  2. [Wrangle] をクリックします。
  3. レシピを編集または新規追加します。
  4. [適用] をクリックします。

次のステップ