フィールドのデータを分割する

このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときに、フィールド(セル)からデータを複数の行に分離する方法について説明します。

区切り文字で区切られたテキストを分離する

値が次の区切り文字で区切られている場合は、セルの値を新しい行に分離できます。

  • カンマ
  • タブ
  • パイプ
  • 空白文字
  • カスタムの区切り文字

セルに選択した区切り文字が含まれていない場合、新しい行は挿入されません。

区切り文字に基づいて値を分割する手順は次のとおりです。

  1. Cloud Data Fusion の Wrangler ワークスペースに移動します
  2. [データ] タブで列名に移動し、arrow_drop_down 展開矢印をクリックします。
  3. [展開] > [区切り文字形式のテキスト] をクリックします。
  4. 区切り文字(パイプなど)を選択します。
  5. [Extract] をクリックします。

Wrangler は、選択された区切り文字に基づいてフィールドを分割し、split-to-row ディレクティブをレシピに追加します。データ パイプラインを実行すると、Cloud Data Fusion は列内のすべての値に変換を適用します。

この例では、データセットにカンマ区切り文字を含む文字列値の列があります。

ID 名前
1 Lee、Lucian、Luka
2 Mahan、Noam

値を個別の行に分割するために、Wrangler は元の列を削除し、値ごとに 1 つの行が配置された新しい列を作成します。元の行にある他の列の値は、新しい行にコピーされます。

ID 名前_1
1 Lee
1 Lucian
1 Luka
2 Mahan
2 Noam

配列を分離する

flatten ディレクティブは、["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"] などの配列内の項目を新しい行に分離します。元のレコードにある他の列値は、新しいレコードにコピーされます。

次のステップ