Cloud Data Fusion으로 데이터 처리

Cloud Data Fusion은 Cloud Storage 또는 BigQuery 애셋에 상주하는 Dataplex 항목(테이블)에서 데이터를 읽는 Dataplex 소스 플러그인을 제공합니다. Dataplex 소스 플러그인을 사용하면 Cloud Storage 애셋의 데이터를 테이블로 간주하여 간단한 SQL 쿼리로 데이터를 필터링할 수 있습니다.

시작하기 전에

아직 만들지 않았다면 Cloud Data Fusion 인스턴스를 만듭니다. Cloud Data Fusion 버전 6.6 이상에서 실행되는 인스턴스에서 이 플러그인을 사용할 수 있습니다.
소스 데이터가 이미 Dataplex 영역 및 애셋(Cloud Storage 버킷 또는 BigQuery 데이터 세트)에 속해 있어야 합니다.
Cloud Storage의 테이블을 사용하려면 레이크의 메타스토어를 구성해야 합니다.
Cloud Storage 항목에서 데이터를 읽으려면 Dataproc Metastore가 레이크에 연결되어 있어야 합니다.
Cloud Storage 항목의 CSV 데이터는 지원되지 않습니다.
Dataplex 프로젝트에서 서브네트워크의 비공개 Google 액세스를 사용 설정(일반적으로 default로 설정)하거나 internal_ip_only를 false로 설정합니다.

필요한 역할

역할을 관리하는 데 필요한 권한을 얻으려면 관리자에게 Dataproc 서비스 계정 및 Google 관리형 서비스 계정(service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com)에 대해 다음 IAM 역할을 부여해 달라고 요청하세요.

Dataplex 개발자(roles/dataplex.developer)
Dataplex 데이터 리더(roles/dataplex.dataReader)
Dataproc Metastore 메타데이터 사용자(roles/metastore.metadataUser)
Cloud Dataplex 서비스 에이전트(roles/dataplex.serviceAgent)
Dataplex 메타데이터 리더(roles/dataplex.metadataReader)

역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

제한사항

Cloud Storage 애셋: 이 플러그인은 CSV 파일 읽기를 지원하지 않습니다. JSON, Avro, Parquet, ORC 형식 읽기를 지원합니다.
Cloud Storage 애셋: 파티션 시작일 및 파티션 종료일은 적용되지 않습니다.

파이프라인에 플러그인 추가

Google Cloud 콘솔에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.

인스턴스로 이동

이 페이지에서 인스턴스를 관리할 수 있습니다.
인스턴스 보기를 클릭하여 Cloud Data Fusion UI에서 인스턴스를 엽니다.
스튜디오 페이지로 이동하여 소스 메뉴를 펼치고 Dataplex를 클릭합니다.

플러그인 구성

스튜디오 페이지에서 이 플러그인을 파이프라인에 추가한 후 Dataplex 소스를 클릭하여 속성을 구성합니다.

구성에 대한 자세한 내용은 Dataplex 소스 참조를 확인하세요.

선택사항: 샘플 파이프라인 시작하기

SAP 소스-Dataplex 싱크 파이프라인 및 Dataplex 소스-BigQuery 싱크 파이프라인 등의 샘플 파이프라인을 사용할 수 있습니다.

샘플 파이프라인을 사용하려면 Cloud Data Fusion UI에서 인스턴스를 열고 허브 > 파이프라인을 클릭한 후 Dataplex 파이프라인 중 하나를 선택합니다. 파이프라인을 만들도록 도와주는 대화상자가 열립니다.

다음 단계

Dataplex 싱크 플러그인을 사용하여 Cloud Data Fusion으로 데이터 수집