Wrangler の概要

Wrangler は、Cloud Data Fusion Studio インターフェース内のビジュアルデータ準備ツールです。抽出、変換、読み込み（ETL）パイプラインで使用する前に、データをクリーニングして変換できます。Wrangler は、データセット全体でロジックを実行する前に、データのサンプルに対して 1 か所（プレビュー）で変換を適用します。このプレビューは、変換を適用し、変換がデータセット全体にどのように影響するかを把握するのに役立ちます。

Wrangler ディレクティブ

ディレクティブは、Wrangler 内で使用される単一の命令です。ディレクティブでは、個々のレコードの変換、フィルタリング、ピボットなどのデータ操作方法を指定します。

ディレクティブに関連するコンセプトは次のとおりです。

レシピ: レシピはディレクティブのセットです。1 つ以上のディレクティブで構成されます。
変換ステップ: 変換ステップは、単一のレコードまたはレコードセットに対して動作するデータ変換ディレクティブの実装です。変換ステップでは、ディレクティブの適用から 0 個以上のレコードを生成できます。Wrangler は、レシピに記載されている順序で変換ステップを適用します。

Wrangler コンポーネント

以降のセクションでは、Cloud Data Fusion Studio の Wrangler のコンポーネントについて説明します。

Wrangler ワークスペース

Wrangler ワークスペースは、Cloud Data Fusion Studio インターフェースのページで、データセットの解析、統合、クリーニング、変換を行います。[ワークスペース] ページでは、次の操作を行うことができます。

各列のプルダウンメニューを使用して、レシピに変換ステップを追加します。
[変換ステップ] タブを選択して、レシピのステップを表示または削除します。
データ品質バーを確認して、空のフィールドを含む列やその他の情報を探します。
[その他] をクリックして、データセットのスキーマを表示します。
データセットのソースプラグインと、パイプラインの実行時に実行される変換ステップを含むレシピを使用して Wrangler 変換でデータパイプラインを作成します。

Wrangler Power Mode（CLI）

宣言型構文を使用してディレクティブを指定するには、Power Mode（CLI）を使用します。これは次のタスクに役立ちます。

Studio インターフェースで使用できないディレクティブを使用する
ユーザー定義ディレクティブを追加する
複数の列にディレクティブを適用する

Wrangler Power Mode を使用するには、Wrangler の [データ] タブの下部にある黒いバーにディレクティブを入力します。

Wrangler の分析情報タブ

Wrangler ページの [分析情報] タブを使用して、データセットのデータ探索を行うことができます。

制限事項

Wrangler は、バッチ ETL パイプラインでのみサポートされています。
Wrangler は、サンプルデータにのみ変換を適用します。このサンプルデータは最初の 1,000 件のレコードに制限されています。
Wrangler では、ソースとの接続を作成する必要があります。詳細については、接続の作成と管理をご覧ください。
Wrangler では、常に 1 つ以上の Wrangler ワークスペースを開いている必要があります。
Wrangler 変換の [Wrangle] ボタンをクリックすることはできません。

Cloud Data Fusion で Wrangler に移動する

Cloud Data Fusion Studio インターフェースから Wrangler にアクセスするには、次の 2 つの方法があります。

Cloud Data Fusion Wrangler ワークスペースを開くには、Cloud Data Fusion Studio に移動し、[Wrangler] をクリックします。
Wrangler プロパティを構成するには、Cloud Data Fusion Studio に移動し、[Studio] > [変換] > [Wrangler] をクリックします。

データソースに接続する

Wrangler は、BigQuery、Cloud Storage、外部データベース（追加の構成を使用）など、さまざまなデータソースをサポートしています。Wrangler を使用するには、ソースとの接続を作成する必要があります。

接続を作成するには、[接続] リストに移動し、データソースへの接続を選択します。詳細については、カスタム接続の作成と管理をご覧ください。

データの探索とプレビュー

Wrangler では、検査用にデータのサンプル（通常は 1,000 行）が表示されます。データ型や基本統計情報など、データスキーマの概要を確認できます。

ディレクティブを適用する

Wrangler には、一般的なデータラングリングタスク用のさまざまな組み込みディレクティブが用意されています。

選択したディレクティブを特定の列またはデータプレビューウィンドウにドラッグします。
各ディレクティブには、動作をカスタマイズするための構成オプションがあります。

詳細については、Wrangler コマンドラインディレクティブをご覧ください。

変換結果をプレビューする

ディレクティブを適用すると、データプレビューウィンドウが動的に更新され、変更が反映されます。これにより、各変換がデータに与える影響をすぐに確認できます。

改善して繰り返す

データラングリングプロセスを改善するには、ディレクティブの追加、構成の変更、プレビューの確認を続けます。

Wrangler のビジュアルインターフェースを使用すると、変換で期待される結果が得られるようにテストできます。

パイプラインに変換を追加する

Wrangler 自体は永続ストレージソリューションではありませんが、Cloud Data Fusion には、以下のような方法でラングリングロジックをキャプチャする方法があります。

パイプラインを作成します。Wrangler ワークスペースで、次の手順に沿って Wrangler 変換を Cloud Data Fusion パイプラインに変換します。
1. [Create Pipeline] をクリックします。
2. [Batch pipeline] を選択します。[Pipeline Studio] ページが開き、ソースと Wrangler 変換を含むパイプラインが表示されます。
変換を適用します。Studio ページで Wrangler プラグインを使用している場合は、[適用] をクリックして Wrangler 変換を Cloud Data Fusion パイプラインに変換します。

レシピを編集する

Wrangler ワークスペースを使用して Wrangler 変換を作成する場合は、Wrangler 変換をパイプラインに追加した後、Wrangler インターフェースを使用してレシピを追加または編集することをおすすめします。

Wrangler 変換でレシピを手動で編集するか、レシピに新しいステップを追加して、変更が出力スキーマに影響する場合は、レシピの変更に合わせて Wrangler 変換の出力スキーマを手動で更新する必要があります。Wrangler ワークスペースで作成または編集されたレシピのみが、Wrangler 変換で出力スキーマを自動作成および自動更新します。

Wrangler ウェブインターフェースで作成された Wrangler 変換でレシピを編集する手順は次のとおりです。

パイプラインの Wrangler ノードに移動し、[プロパティ] をクリックします。
[Wrangle] をクリックします。
レシピを編集または新規追加します。
[適用] をクリックします。

次のステップ

Wrangler CLI ディレクティブの詳細を確認する。