이 페이지에서는 Cloud Data Fusion Studio의 Wrangler 작업공간에서 데이터를 준비할 때 필드(셀)의 데이터를 여러 행으로 구분하는 방법을 설명합니다.
구분된 텍스트 구분
값이 다음 구분 기호로 구분된 경우 셀의 값을 새 행으로 구분할 수 있습니다.
- 쉼표
- Tab
- 파이프
- 공백
- 커스텀 구분자
셀에 선택한 구분자가 포함되지 않으면 새 행이 삽입되지 않습니다.
구분자에 따라 값을 분할하려면 다음 단계를 수행합니다.
- Cloud Data Fusion에서 Wrangler 작업공간으로 이동
- 데이터 탭에서 열 이름으로 이동하고 arrow_drop_down 펼치기 화살표를 클릭합니다.
- 분할 > 구분된 텍스트를 클릭합니다.
- 구분자(예: 파이프)를 선택합니다.
추출을 클릭합니다.
Wrangler는 선택된 구분자에 따라 필드를 분할하고 split-to-row
지시문을 레시피에 추가합니다. 데이터 파이프라인을 실행하면 Cloud Data Fusion이 열의 모든 값에 변환을 적용합니다.
이 예시에서는 쉼표 구분자가 포함된 문자열 값 열이 데이터 세트에 있습니다.
ID | 이름 |
---|---|
1 | 리,루시안,루카 |
2 | 마한,노암 |
값을 별도의 행으로 나누기 위해 Wrangler는 원본 열을 삭제하고 값마다 행이 하나 있는 새 열을 만듭니다. 원본 행의 다른 열 값은 새 행에 복사됩니다.
ID | Name_1 |
---|---|
1 | Lee |
1 | Lucian |
1 | Luka |
2 | 마한 |
2 | 노암 |
배열 구분
flatten
지시문은 배열(예: ["ELEMENT_1",
"ELEMENT_2", "ELEMENT_3"]
)의 항목을 새 행으로 구분합니다. 원본 레코드의 다른 열 값은 새 레코드에 복사됩니다.
다음 단계
- Wrangler 지시문에 대해 자세히 알아보기