이 페이지에서는 Cloud Data Fusion Studio의 Wrangler 작업공간에서 데이터를 준비할 때 필드(셀)에서 데이터를 추출하고 변환하는 방법을 설명합니다.
이 데이터에 대한 변환을 수행하려면 데이터를 개별 열로 분할합니다. Wrangler에서는 열에서 데이터를 추출하고 추출된 데이터의 새 열을 만들 수 있습니다. 패턴, 구분자 또는 위치를 기준으로 값을 추출할 수 있습니다.
패턴을 사용하여 데이터 추출
다음 패턴을 사용하여 문자열 데이터 유형의 열에서 필드의 데이터를 추출할 수 있습니다.
- 신용카드
- 날짜
- 날짜 시간
- 이메일
- HTML 앵커의 URL
- IPv4 주소
- ISBN 코드
- MAC 주소
- N자리 숫자
- SSN
- 시작 및 종료 패턴
- 시간
패턴을 기반으로 데이터를 추출하려면 다음 단계를 수행합니다.
- Cloud Data Fusion에서 Wrangler 작업공간으로 이동
- 데이터 탭에서 열 이름으로 이동하고 arrow_drop_down 펼치기 화살표를 클릭합니다.
- 필드 추출 > 패턴 사용을 선택하고 옵션(예: URL)을 선택합니다.
- 선택사항: 패턴의 정규 표현식을 보려면 패턴 표시를 클릭합니다.
- 추출을 클릭합니다.
Wrangler는 선택한 패턴을 기반으로 필드를 추출하고 레시피에 extract-regex-groups
지시문을 추가합니다. 데이터 파이프라인을 실행하면 Cloud Data Fusion이 열의 모든 행에 변환을 적용합니다.
다음 예시에서는 열에 숫자와 이메일 주소가 포함됩니다.
이메일 |
---|
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
이메일 주소를 추출하기 위해 이메일 패턴을 선택합니다. 추출을 클릭하면 Wrangler는 원래 열을 유지하고 이메일 주소만 포함된 새 열을 만듭니다.
이메일 | Emails_1 |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
구분자를 사용한 데이터 추출
다음 구분자를 기준으로 데이터를 두 개 이상의 열로 추출할 수 있습니다.
- 쉼표
- Tab
- 파이프
- 공백
- 커스텀 구분자
값에 구분자가 없으면 새 열의 해당 필드에 값이 추가되지 않습니다.
구분자를 기준으로 값을 추출하려면 다음 안내를 따르세요.
- Cloud Data Fusion에서 Wrangler 작업공간으로 이동
- 데이터 탭에서 열 이름으로 이동하고 arrow_drop_down 펼치기 화살표를 클릭합니다.
- 필드 추출 > 구분자 사용을 선택하고 옵션(예: 쉼표)을 선택합니다.
- 추출을 클릭합니다.
Wrangler는 선택된 구분자를 기준으로 필드를 추출하고 레시피에 split-to-columns
지시문을 추가합니다. 데이터 파이프라인을 실행하면 Cloud Data Fusion이 열의 모든 값을 변환합니다.
다음 예시에서는 열에 쉼표로 구분된 여러 이름이 포함되어 있습니다.
ID | 이름 |
---|---|
1 | 리,루시안,루카 |
2 | 마한,노암,누르 |
이 예시에서는 쉼표 구분자 패턴을 사용하여 원래 Name
열의 값을 3개의 새 열로 추출합니다.
ID | 이름 | Name_1 | Name_2 | Name_3 |
---|---|---|---|---|
1 | 리,루시안,루카 | Lee | 루시안 | Luka |
2 | 마한,노암,누르 | 마한 | 노암 | 누르 |
위치별로 데이터 추출
문자열 내 위치를 기준으로 문자열의 일부를 추출할 수 있습니다.
위치를 기준으로 데이터를 추출하려면 다음 안내를 따르세요.
- Cloud Data Fusion에서 Wrangler 작업공간으로 이동
- 데이터 탭에서 열 이름으로 이동하고 arrow_drop_down 펼치기 화살표를 클릭합니다.
- 필드 추출 > 위치 사용을 선택합니다. 추출할 수 있는 열 값은 파란색 배경과 함께 표시됩니다.
- 열의 아무 셀에서 추출할 문자를 선택합니다.
- 대상 열 이름 필드에 이름을 입력합니다.
- 적용을 클릭합니다.
값의 선택된 부분이 열의 각 행에서 추출됩니다.
Wrangler는 선택한 패턴을 기반으로 필드를 추출하고 레시피에 cut-character
지시문을 추가합니다. 데이터 파이프라인을 실행하면 Cloud Data Fusion이 열의 모든 값에 변환을 적용합니다.
다음 단계
- Wrangler 지시문에 대해 자세히 알아보기