파일 파싱

이 페이지에서는 Cloud Data Fusion Studio의 Wrangler 작업공간에서 데이터를 준비할 때 파일을 파싱하는 방법을 설명합니다. Wrangler를 사용하면 파일을 Wrangler 작업공간에 로드하기 전에 파싱할 수 있습니다.

  • Wrangler는 Pipeline Studio에서 파일 소스 플러그인이 수행하는 방식과 동일한 방식으로 데이터 유형을 추론하고 각 열을 추론된 데이터 유형에 매핑합니다.
  • 스키마 추론이 불가능하면 JSON과 같은 파일 형식의 스키마를 가져올 수 있습니다.
  • 레시피에 파싱 지시문이 포함되어 있지 않으므로 파이프라인 실행 중에 변환 로직이 줄어듭니다.
  • Wrangler에서 파이프라인을 만들면 소스 플러그인에 Wrangler에서 설정한 것과 동일한 모든 파싱 속성과 값이 포함됩니다.

파일 연결 만들기

파일을 Wrangler에 로드하기 전에 파싱하려면 파일, Cloud Storage 또는 Amazon S3와 같은 파일 연결을 사용해야 합니다.

  1. Cloud Data Fusion에서 Wrangler 작업공간으로 이동합니다.
  2. 데이터 선택 확장 화살표를 클릭하여 사용할 수 있는 연결을 봅니다.
  3. 파일, Cloud Storage 또는 S3의 연결을 추가합니다. 자세한 내용은 연결 만들기 및 관리를 참조하세요.
  4. 파싱 옵션 대화상자를 열려면 데이터 선택 패널로 이동하여 파일 이름을 클릭합니다.
  5. 파싱 옵션 대화상자에 다음 정보를 입력합니다.

    1. 형식 필드에서 읽을 데이터의 파일 형식(예: csv)을 선택합니다. 자세한 내용은 지원되는 형식을 참조하세요.

      • 구분자 형식을 선택한 경우 표시되는 구분자 필드에 구분자 정보를 입력합니다.
      • CSV, TSV 또는 구분자 형식을 선택하면 따옴표 값 사용 설정 필드가 표시됩니다. 데이터가 따옴표로 묶여 있으면 True를 선택합니다. 이 설정은 파싱된 출력에서 따옴표를 제거합니다. 예를 들어 1, "a, b, c" 입력은 두 필드로 파싱됩니다. 첫 번째 필드의 값은 1입니다. 두 번째 필드의 값은 a, b, c입니다. 줄 바꿈 구분자를 따옴표로 묶을 수 없습니다.
      • 텍스트, CSV, TSV 또는 구분자 형식을 선택하면 첫 번째 행을 헤더로 사용 필드가 표시됩니다. 각 파일의 첫 번째 줄을 열 헤더로 사용하려면 True를 선택합니다.
    2. 파일 인코딩 필드에서 소스 파일의 파일 인코딩 유형(예: UTF-8)을 선택합니다.

    3. 선택사항: 스키마를 가져오거나 파일에 추론된 스키마를 재정의하려면 스키마 가져오기를 클릭합니다. 스키마 추론이 불가능한 JSON 및 일부 Avro 파일과 같은 형식의 스키마를 가져옵니다. 스키마는 Avro 형식이어야 합니다.

    4. 확인을 클릭합니다. 파싱된 파일이 Wrangler 작업공간에 표시됩니다.

지원되는 형식

다음 형식이 파일 파싱에 지원됩니다.

  • Avro
  • Blob(blob 형식에는 bytes 유형의 body라는 필드가 포함된 스키마 필요)
  • CSV
  • Delimited
  • JSON
  • Parquet
  • 텍스트(텍스트 형식에는 string 유형의 body라는 필드가 포함된 스키마 필요)
  • TSV

다음 단계