フィールドからデータを抽出する

このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときに、フィールド（セル）からデータを抽出して変換する方法について説明します。

このデータに対して変換を実行するには、データを個別の列に分割します。Wrangler では、列からデータを抽出し、抽出されたデータの新しい列を作成できます。値は、パターン、区切り文字、位置に基づいて抽出できます。

パターンを使用してデータを抽出する

文字列データ型の列のフィールドからデータを抽出するには、次のパターンを使用します。

パターンに基づいてデータを抽出する手順は次のとおりです。

Wrangler は、選択されたパターンに基づいてフィールドを抽出し、extract-regex-groups ディレクティブをレシピに追加します。データパイプラインを実行すると、Cloud Data Fusion は列内のすべての行に変換を適用します。

次の例では、列に数値が含まれ、その後にメールアドレスが続いています。

メール
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

メールアドレスを抽出するには、[メール] パターンを選択します。[抽出] をクリックすると、Wrangler は元の列を保持し、メールアドレスのみを含む新しい列を作成します。

メール	Emails_1
1 222larabrown@gmail.com	222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com	cloudysanfrancisco@gmail.com

次の区切り文字に基づいて、2 つ以上の列にデータを抽出できます。

値に区切り文字がない場合、新しい列の対応するフィールドに値は追加されません。

区切り文字に基づいて値を抽出するには:

Wrangler は、選択された区切り文字に基づいてフィールドを抽出し、split-to-columns ディレクティブをレシピに追加します。データパイプラインを実行すると、Cloud Data Fusion は列内のすべての値を変換します。

次の例では、列にカンマで区切られた複数の名前が含まれています。

ID	名前
1	Lee、Lucian、Luka
2	Mahan、Noam、Nur

この例では、カンマ区切りパターンを使用して、元の Name 列の値を 3 つの新しい列に抽出しています。

ID	名前	名前_1	名前_2	名前_3
1	Lee、Lucian、Luka	Lee	Lucian	Luka
2	Mahan、Noam、Nur	Mahan	Noam	Nur

文字列の一部を、文字列内の位置に基づいて抽出できます。

位置に基づいてデータを抽出するには:

選択した値の部分が、列内の各行から抽出されます。

Wrangler は、選択されたパターンに基づいてフィールドを抽出し、cut-character ディレクティブをレシピに追加します。データパイプラインを実行すると、Cloud Data Fusion は列内のすべての値に変換を適用します。