필드에서 데이터 분해

이 페이지에서는 Cloud Data Fusion Studio의 Wrangler 작업공간에서 데이터를 준비할 때 필드(셀)의 데이터를 여러 행으로 구분하는 방법을 설명합니다.

구분된 텍스트 구분

값이 다음 구분 기호로 구분된 경우 셀의 값을 새 행으로 구분할 수 있습니다.

  • 쉼표
  • Tab
  • 파이프
  • 공백
  • 커스텀 구분자

셀에 선택한 구분자가 포함되지 않으면 새 행이 삽입되지 않습니다.

구분자에 따라 값을 분할하려면 다음 단계를 수행합니다.

  1. Cloud Data Fusion에서 Wrangler 작업공간으로 이동
  2. 데이터 탭에서 열 이름으로 이동하고 arrow_drop_down 펼치기 화살표를 클릭합니다.
  3. 분할 > 구분된 텍스트를 클릭합니다.
  4. 구분자(예: 파이프)를 선택합니다.
  5. 추출을 클릭합니다.

Wrangler는 선택된 구분자에 따라 필드를 분할하고 split-to-row 지시문을 레시피에 추가합니다. 데이터 파이프라인을 실행하면 Cloud Data Fusion이 열의 모든 값에 변환을 적용합니다.

이 예시에서는 쉼표 구분자가 포함된 문자열 값 열이 데이터 세트에 있습니다.

ID 이름
1 리,루시안,루카
2 마한,노암

값을 별도의 행으로 나누기 위해 Wrangler는 원본 열을 삭제하고 값마다 행이 하나 있는 새 열을 만듭니다. 원본 행의 다른 열 값은 새 행에 복사됩니다.

ID Name_1
1 Lee
1 Lucian
1 Luka
2 마한
2 노암

배열 구분

flatten 지시문은 배열(예: ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"])의 항목을 새 행으로 구분합니다. 원본 레코드의 다른 열 값은 새 레코드에 복사됩니다.

다음 단계