フィールドからデータを分割する

このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときに、フィールド(セル)のデータを複数の行に分割する方法について説明します。

区切り文字で区切られたテキスト

値が次の区切り文字で区切られている場合は、セルの値を新しい行に分割できます。

  • カンマ
  • タブ
  • パイプ
  • 空白文字
  • カスタムの区切り文字

セルに選択した区切り文字が含まれていない場合、新しい行は挿入されません。

区切り文字に基づいて値を分割する手順は次のとおりです。

  1. Cloud Data Fusion の Wrangler ワークスペースに移動します
  2. [データ] タブで列名に移動し、arrow_drop_down 展開矢印をクリックします。
  3. [分割] > [区切り付きテキスト] をクリックします。
  4. 区切り文字(パイプなど)を選択します。
  5. [Extract] をクリックします。

Wrangler は、選択した区切り文字に基づいてフィールドを分割し、split-to-row ディレクティブをレシピに追加します。データ パイプラインを実行すると、Cloud Data Fusion は列内のすべての値に変換を適用します。

この例では、データセットにカンマ区切りの文字列値の列があります。

ID 名前
1 Lee、Lucian、Luka
2 Mahan,Noam

値を個別の行に分割するために、Wrangler は元の列を削除し、値ごとに 1 つの行を含む新しい列を作成します。元の行の他の列の値は、新しい行にコピーされます。

ID Name_1
1 Lee
1 Lucian
1 Luka
2 マハン
2 Noam

配列を分離する

flatten ディレクティブは、["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"] などの配列内の項目を新しい行に分割します。元のレコードの他の列の値は、新しいレコードにコピーされます。

次のステップ