Cloud Data Fusion으로 데이터 수집

Cloud Data Fusion은 Dataplex 지원 애셋으로 데이터를 수집하기 위한 Dataplex 싱크 플러그인을 제공합니다.

시작하기 전에

아직 만들지 않았다면 Cloud Data Fusion 인스턴스를 만듭니다. 이 플러그인은 Cloud Data Fusion 버전 6.6 이상에서 실행되는 인스턴스에서 사용할 수 있습니다.
데이터가 수집되는 BigQuery 데이터 세트 또는 Cloud Storage 버킷은 Dataplex 레이크의 일부여야 합니다.
Cloud Storage 항목에서 데이터를 읽으려면 Dataproc Metastore를 레이크에 연결해야 합니다.
Cloud Storage 항목의 CSV 데이터는 지원되지 않습니다.
Dataplex 프로젝트에서 서브네트워크의 비공개 Google 액세스를 사용 설정합니다. 일반적으로 default로 설정되거나 internal_ip_only를 false로 설정합니다.

필요한 역할

역할을 관리하는 데 필요한 권한을 얻으려면 관리자에게 Dataproc 서비스 계정 및 Google 관리형 서비스 계정(service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com)에 대한 다음 IAM 역할을 부여해 달라고 요청하세요.

Dataplex 개발자(roles/dataplex.developer)
Dataplex 데이터 리더(roles/dataplex.dataReader)
Dataproc Metastore 메타데이터 사용자(roles/metastore.metadataUser)
Cloud Dataplex 서비스 에이전트(roles/dataplex.serviceAgent)
Dataplex 메타데이터 리더(roles/dataplex.metadataReader)

역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

파이프라인에 플러그인 추가

Google Cloud 콘솔에서 Cloud Data Fusion 인스턴스 페이지를 엽니다.

인스턴스로 이동

이 페이지에서 인스턴스를 관리할 수 있습니다.
인스턴스 보기를 클릭하여 Cloud Data Fusion UI에서 인스턴스를 엽니다.
스튜디오 페이지로 이동하여 싱크 메뉴를 펼치고 Dataplex를 클릭합니다.

플러그인 구성

스튜디오 페이지에서 이 플러그인을 파이프라인에 추가한 후 Dataplex 싱크를 클릭하여 속성을 구성하고 저장합니다.

구성에 대한 자세한 내용은 Dataplex 싱크 참조를 확인하세요.

선택사항: 샘플 파이프라인 시작하기

SAP 소스-Dataplex 싱크 파이프라인 및 Dataplex 소스-BigQuery 싱크 파이프라인 등의 샘플 파이프라인을 사용할 수 있습니다.

샘플 파이프라인을 사용하려면 Cloud Data Fusion UI에서 인스턴스를 열고 허브 > 파이프라인을 클릭한 후 Dataplex 파이프라인 중 하나를 선택합니다. 파이프라인을 만들도록 도와주는 대화상자가 열립니다.

파이프라인 실행

파이프라인을 배포한 후 Cloud Data Fusion 스튜디오 페이지에서 파이프라인을 엽니다.
구성 > 리소스를 클릭합니다.
선택사항: 파이프라인에 사용된 전체 데이터 크기와 변환 수를 기반으로 실행자 CPU와 메모리를 변경합니다.
저장을 클릭합니다.
데이터 파이프라인을 시작하려면 실행을 클릭합니다.

다음 단계

Dataplex 소스 플러그인을 사용하여 Cloud Data Fusion으로 데이터 처리