이 페이지에서는 Cloud Data Fusion Studio의 Wrangler 작업공간에서 데이터를 준비할 때 데이터 세트에서 일반적인 오류를 삭제하는 방법을 설명합니다.
데이터 세트에서 다음 유형의 오류가 발생합니다.
- 시스템 오류(예: 서비스 또는 인스턴스 실패)
- 논리적 오류(예: 파이프라인 실행 실패)
- 데이터 오류(예: 잘못된 신용카드 번호, 잘못된 날짜 형식 또는 잘못된 우편번호)
Wrangler는 데이터 세트에서 일반적인 오류를 삭제하는 데 도움이 되는 지시어 세트를 50개 넘게 제공합니다.
레코드를 오류로 전송하려면 다음 단계를 수행합니다.
- Cloud Data Fusion에서 Wrangler 작업공간으로 이동합니다.
- 데이터 탭에서 열 이름으로 이동하고 arrow_drop_down 펼치기 화살표를 클릭합니다.
- 오류로 전송을 선택한 후 잘못된 레코드를 오류로 전송하는 조건을 선택합니다.
Wrangler는 샘플에서 지정된 조건과 일치하는 값을 삭제하고 send to error
지시문을 레시피에 추가합니다. 데이터 파이프라인을 실행하면 변환이 열의 모든 값에 적용됩니다.
데이터 파이프라인에 오류 수집기 플러그인 추가
데이터 파이프라인에 send to
error
지시문이 포함된 레시피가 있는 Wrangler 변환을 추가할 때 오류 수집기 플러그인에 연결할 수 있습니다. 오류 수집기 플러그인은 일반적으로 BigQuery 싱크와 같은 다운스트림 싱크 플러그인에 연결됩니다.
파이프라인을 실행하면 send to error
지시문으로 플래그가 지정된 레코드가 파이프라인의 Wrangler 변환 단계에서 오류 수집기 단계와 싱크 단계로 이동합니다. 실행이 완료되면 싱크에 기록된 플래그가 지정된 레코드를 검사할 수 있습니다.
레시피에 send to error
변환이 포함되어 있지만 파이프라인에 오류 수집기 플러그인이 포함되어 있지 않으면 send to
error
지시문으로 플래그가 지정된 레코드는 파이프라인 실행 중에 삭제됩니다.
다음 단계
- Wrangler 지시문에 대해 자세히 알아보기