Wrangler는 Cloud Data Fusion Studio 인터페이스 내의 시각적 데이터 준비 도구입니다. 이를 통해 데이터를 정리하고 변환한 후 추출, 변환, 로드(ETL) 파이프라인에서 사용할 수 있습니다. Wrangler는 전체 데이터 세트에서 로직을 실행하기 전에 한 곳에서 데이터 샘플에 변환을 적용합니다(미리보기라고 함). 이 미리보기는 변환을 적용하고 변환이 전체 데이터 세트에 미치는 영향을 파악하는 데 도움이 됩니다.
Wrangler 지시어
지시어는 Wrangler 내에서 사용되는 단일 명령어입니다. 지시어는 개별 레코드 변환, 필터링, 피벗과 같은 데이터 조작 방법을 지정합니다.
다음 개념은 지시어와 관련이 있습니다.
- 레시피
- 레시피는 지시어의 집합입니다. 하나 이상의 지시어로 구성됩니다.
- 변환 단계
- 변환 단계는 단일 레코드 또는 레코드 세트에서 작동하는 데이터 변환 지시어를 구현하는 것입니다. 변환 단계는 지시문을 적용하여 0개 이상의 레코드를 생성할 수 있습니다. Wrangler는 레시피에 나열된 순서대로 변환 단계를 적용합니다.
Wrangler 구성요소
다음 섹션에서는 Cloud Data Fusion Studio의 Wrangler 구성요소에 대해 설명합니다.
Wrangler 작업공간
Wrangler 작업공간은 Cloud Data Fusion Studio 인터페이스의 페이지로, 여기에서 데이터 세트를 파싱, 혼합, 정리, 변환할 수 있습니다. 작업공간 페이지에서 다음을 수행할 수 있습니다.
- 각 열의 드롭다운 메뉴를 사용하여 레시피에 변환 단계를 추가합니다.
- 변환 단계 탭을 선택하여 레시피의 단계를 보거나 삭제합니다.
- 데이터 품질 막대를 선택하여 빈 필드와 기타 정보가 있는 열을 찾습니다.
- 더보기를 클릭하여 데이터 세트의 스키마를 확인합니다.
- 데이터 세트에 대한 소스 플러그인으로 데이터 파이프라인을 만들고, 파이프라인이 실행될 때 실행되는 변환 단계가 포함된 레시피로 Wrangler 변환을 만듭니다.
Wrangler 전원 모드(CLI)
선언적 문법을 사용하여 지시문을 지정하려면 전원 모드(CLI)를 사용하세요. 다음 작업에 유용합니다.
- Studio 인터페이스에서 사용할 수 없는 지시어 사용
- 사용자 정의 지시어 추가
- 여러 열에 지시어 적용
Wrangler 전력 모드를 사용하려면 Wrangler 데이터 탭 하단의 검은색 막대에 지시어를 입력합니다.
Wrangler 통계 탭
Wrangler 페이지의 통계 탭을 사용하여 데이터 세트에서 데이터 탐색을 실행할 수 있습니다.
제한사항
- Wrangler는 일괄 ETL 파이프라인에서만 지원됩니다.
- Wrangler는 샘플 데이터에만 변환을 적용합니다. 이 샘플 데이터는 처음 1,000개의 레코드로 제한됩니다.
- Wrangler를 사용하려면 소스와 연결을 만들어야 합니다. 자세한 내용은 연결 만들기 및 관리를 참조하세요.
- Wrangler를 사용하려면 항상 하나 이상의 Wrangler 워크스페이스가 열려 있어야 합니다.
- Wrangler 변환에서 Wrangle 버튼을 클릭하는 것은 지원되지 않습니다.
Cloud Data Fusion에서 Wrangler로 이동
Cloud Data Fusion Studio 인터페이스에서 다음 두 가지 방법으로 Wrangler에 액세스할 수 있습니다.
- Cloud Data Fusion Wrangler 작업공간을 열려면 Cloud Data Fusion Studio로 이동하여 Wrangler를 클릭합니다.
- Wrangler 속성을 구성하려면 Cloud Data Fusion Studio로 이동하여 Studio > 변환 > Wrangler를 클릭합니다.
데이터 소스에 연결
Wrangler는 BigQuery, Cloud Storage, 외부 데이터베이스(추가 구성 포함)와 같은 다양한 데이터 소스를 지원합니다. Wrangler를 사용하려면 소스와 연결을 만들어야 합니다.
연결을 만들려면 연결 목록으로 이동하여 데이터 소스에 대한 연결을 선택합니다. 자세한 내용은 연결 만들기 및 관리를 참조하세요.
데이터 탐색 및 미리보기
Wrangler는 검사를 위해 데이터 샘플(일반적으로 1,000개 행)을 표시합니다. 데이터 유형 및 기본 통계를 비롯한 데이터 스키마에 대한 개요를 확인할 수 있습니다.
지시어 적용
Wrangler는 일반적인 데이터 랭글링 작업을 위한 다양한 기본 제공 지시어를 제공합니다.
- 선택한 지시어를 특정 열 또는 데이터 미리보기 창으로 드래그합니다.
- 각 지시어에는 동작을 맞춤설정하는 구성 옵션이 있습니다.
자세한 내용은 Wrangler 명령줄 지시어를 참고하세요.
변환 결과 미리보기
지시어를 적용하면 데이터 미리보기 창이 변경사항을 반영하도록 동적으로 업데이트됩니다. 이렇게 하면 각 변환이 데이터에 미치는 즉각적인 영향을 확인할 수 있습니다.
미세 조정 및 반복
데이터 랭글링 프로세스를 미세 조정하려면 지시어를 추가하고, 구성을 수정하고, 미리보기를 검토합니다.
Wrangler의 시각적 인터페이스를 사용하면 실험하고 변환이 예상된 결과를 생성하는지 확인할 수 있도록 도와줍니다.
파이프라인에 변환 추가
Wrangler 자체는 영구 스토리지 솔루션이 아니지만 Cloud Data Fusion은 다음과 같이 워크플로 랭글링을 캡처하는 방법을 제공합니다.
파이프라인 만들기. Wrangler 작업공간에서 다음 단계에 따라 Wrangler 변환을 Cloud Data Fusion 파이프라인으로 변환합니다.
- 파이프라인 만들기를 클릭합니다.
- 일괄 파이프라인을 선택합니다. 소스와 Wrangler 변환이 포함된 파이프라인이 있는 파이프라인 스튜디오 페이지가 열립니다.
변환 적용 Studio 페이지에서 Wrangler 플러그인을 사용하는 경우 적용을 클릭하여 Wrangler 변환을 Cloud Data Fusion 파이프라인으로 변환합니다.
레시피 수정
Wrangler 작업공간을 사용하여 Wrangler 변환을 만드는 경우 Wrangler 변환을 파이프라인에 추가한 후 Wrangler 인터페이스를 사용하여 레시피를 추가하거나 수정하는 것이 좋습니다.
Wrangler 변환에서 레시피를 수동으로 수정하거나 레시피에 새 단계를 추가하고 변경사항이 출력 스키마에 영향을 미치는 경우 레시피의 변경사항과 일치하도록 Wrangler 변환에서 출력 스키마를 수동으로 업데이트해야 합니다. Wrangler 작업공간에서 생성되거나 수정된 레시피만 Wrangler 변환에서 출력 스키마를 자동으로 생성하고 자동으로 업데이트합니다.
Wrangler 웹 인터페이스에서 만든 Wrangler 변환의 레시피를 수정하려면 다음 단계를 따르세요.
- 파이프라인에서 Wrangler 노드로 이동하여 속성을 클릭합니다.
- Wrangle을 클릭합니다.
- 새 레시피를 수정하거나 추가합니다.
- 적용을 클릭합니다.
다음 단계
- Wrangler CLI 지시어에 대해 자세히 알아보기