このページでは、Cloud Data Fusion Studio の Wrangler ワークスペースでデータを準備するときに、フィールド(セル)のデータを複数の行に分割する方法について説明します。
区切り文字で区切られたテキスト
値が次の区切り文字で区切られている場合は、セルの値を新しい行に分割できます。
- カンマ
- タブ
- パイプ
- 空白文字
- カスタムの区切り文字
セルに選択した区切り文字が含まれていない場合、新しい行は挿入されません。
区切り文字に基づいて値を分割する手順は次のとおりです。
- Cloud Data Fusion の Wrangler ワークスペースに移動します。
- [データ] タブで列名に移動し、arrow_drop_down 展開矢印をクリックします。
- [分割] > [区切り付きテキスト] をクリックします。
- 区切り文字(パイプなど)を選択します。
[Extract] をクリックします。
Wrangler は、選択した区切り文字に基づいてフィールドを分割し、split-to-row
ディレクティブをレシピに追加します。データ パイプラインを実行すると、Cloud Data Fusion は列内のすべての値に変換を適用します。
この例では、データセットにカンマ区切りの文字列値の列があります。
ID | 名前 |
---|---|
1 | Lee、Lucian、Luka |
2 | Mahan,Noam |
値を個別の行に分割するために、Wrangler は元の列を削除し、値ごとに 1 つの行を含む新しい列を作成します。元の行の他の列の値は、新しい行にコピーされます。
ID | Name_1 |
---|---|
1 | Lee |
1 | Lucian |
1 | Luka |
2 | マハン |
2 | Noam |
配列を分離する
flatten
ディレクティブは、["ELEMENT_1",
"ELEMENT_2", "ELEMENT_3"]
などの配列内の項目を新しい行に分割します。元のレコードの他の列の値は、新しいレコードにコピーされます。
次のステップ
- 詳しくは、Wrangler ディレクティブをご覧ください。