복제

Cloud Data Fusion 복제를 사용하면 SQL Server 및 MySQL과 같은 운영 Datastore에서 BigQuery로 데이터를 지속적으로 실시간 복제할 수 있습니다.

복제를 사용하려면 다음 방법 중 하나를 선택합니다.

  • Cloud Data Fusion의 새 인스턴스를 만들고 복제 앱을 추가합니다.
  • 복제 앱을 기존 인스턴스에 추가합니다.

MySQL, SQL Server, Oracle 튜토리얼을 참조하세요.

장점은 다음과 같습니다.

  • ETL 개발자와 데이터 분석가가 복제 작업을 설정할 수 있을 만큼 인터페이스가 단순합니다.

  • 복제를 시작하기 전에 스키마 비호환성, 연결 문제, 누락된 기능을 식별하는 데 도움이 되며 수정 조치를 제공합니다.

  • BigQuery에서 분석을 위해 최신 운영 데이터를 실시간으로 사용할 수 있습니다. Microsoft SQL Server(SQL Server CDC 사용) 및 MySQL (MySQL 바이너리 로그 사용)에서 BigQuery로 직접 로그 기반 복제가 가능합니다.

  • 변경 데이터 캡처(CDC)가 스트림에서 변경된 데이터의 데이터 표현을 제공하여 최근에 변경된 레코드에만 초점을 맞춘 계산과 처리가 가능합니다. 그 결과 민감한 프로덕션 시스템의 아웃바운드 데이터 요금이 최소화됩니다.

  • 대용량 트랜잭션 데이터베이스 지원을 위한 엔터프라이즈급 확장성: BigQuery로 처음 로드되는 데이터에는 다운타임 없는 스냅샷 복제가 지원되어 데이터 웨어하우스에서 지속적으로 변경사항을 사용할 수 있습니다. 초기 스냅샷이 완료되면 처리량이 많은 지속적인 변경사항 복제가 실시간으로 시작됩니다.

  • 이 대시보드는 복제 성능에 대한 실시간 통계를 제공합니다. 병목 현상을 식별하고 데이터 전송 SLA를 모니터링하는 데 유용합니다.

  • 데이터 상주, 고객 관리 암호화 키(CMEK), VPC 서비스 제어에 대한 지원이 포함됩니다. Google Cloud 플랫폼에서의 Cloud Data Fusion 통합으로 최고 수준의 기업 보안과 개인 정보 보호를 보장하고 데이터 웨어하우스에서 최신 데이터를 분석에 사용할 수 있도록 지원합니다.

복제가 실행되면 Dataproc 클러스터 비용이 청구되고 BigQuery에 대한 처리 비용이 발생합니다. 이러한 비용을 최적화하려면 BigQuery 정액제를 사용하는 것이 좋습니다.

자세한 내용은 Cloud Data Fusion 가격 책정 페이지를 참조하세요.

복제 항목

항목 설명
복제 복제는 데이터를 운영 Datastore에서 분석 데이터 웨어하우스로 짧은 지연 시간으로 지속 복제할 수 있는 Cloud Data Fusion 기능입니다. 선택적 변환을 사용하여 소스와 대상을 구성해 복제 작업을 만듭니다.
원본 데이터베이스, 테이블 또는 열 변경 이벤트를 읽으며 복제 작업에서 추가 처리에 이를 사용할 수 있습니다. 복제 작업에는 변경사항의 제공을 위해 변경 캡처 솔루션을 사용하는 소스 1개가 포함됩니다. 데이터베이스에는 여러 개의 소스가 있으며 소스마다 변경 캡처 솔루션이 다릅니다. 소스는 CDAP의 플러그인 아키텍처를 사용해 빌드하는 플러그인 가능한 모듈입니다. 요구사항을 충족하는 소스를 사용할 수 없다면 소스 인터페이스를 구현하여 자체 소스를 빌드한 후 CDAP 또는 Cloud Data Fusion에 업로드하면 됩니다.
대상 소스에서 수신된 변경 사항을 대상 데이터베이스에 기록합니다. 복제 작업에는 하나의 타겟이 포함됩니다. 대상은 CDAP의 플러그인 아키텍처를 사용해 빌드하는 플러그인 가능한 모듈입니다. 요구사항을 충족하는 대상을 사용할 수 없다면 소스 인터페이스를 구현하여 자체 대상을 빌드한 후 CDAP 또는 Cloud Data Fusion에 업로드하면 됩니다.
소스 속성 연결 세부정보, 소스 데이터베이스, 테이블 이름, 사용자 인증 정보, 기타 속성을 포함하여 소스를 구성합니다.
대상 속성 연결 세부정보, 대상 데이터베이스, 테이블 이름, 사용자 인증 정보, 기타 속성을 포함하여 대상을 구성합니다.
복제 작업 속성 실패 기준점, 스테이징 영역, 알림, 유효성 검사 설정을 포함한 복제 작업을 구성합니다.
임시 부분적으로 완료한 상태로 저장된 복제 작업입니다. 복제 작업 정의가 완료되면 이 작업을 시작할 수 있습니다.
이벤트 대상에 복제할 소스의 이벤트를 변경합니다. 이벤트에는 삽입, 업데이트, 삭제, DDL(데이터 정의 언어) 변경사항이 포함됩니다.
삽입 소스에 새 레코드를 추가합니다.
업데이트 소스의 기존 레코드를 업데이트합니다.
삭제 소스의 기존 레코드를 삭제합니다.
DDL 변경 데이터 유형 또는 이름의 변경과 같은 스키마 변경을 포함하는 이벤트입니다.
로그 복제 작업의 운영 로그입니다.
복제 작업 세부정보 현재 상태, 운영 측정항목, 시간별 이전 기록 뷰, 유효성 검사 결과, 구성 등의 복제 작업 정보가 포함된 세부정보 페이지입니다.
대시보드 처리량, 지연 시간, 실패율, 유효성 검사 결과를 포함한 모든 변경 데이터 캡처 활동의 상태를 나열하는 페이지입니다.

작업

작업 설명
배포 웹 인터페이스 흐름을 따라 소스, 대상, 구성을 지정하여 새 복제 작업을 만듭니다.
저장 부분적으로 생성된 복제 작업을 저장하며 나중에 만들기를 재개합니다.
삭제 기존 복제 작업을 삭제합니다. 중지된 파이프라인만 삭제할 수 있습니다.
시작 복제 작업을 시작합니다. 처리할 변경사항이 있으면 복제 작업이 '활성' 상태가 되고 그렇지 않으면 '대기' 상태가 됩니다.
중지 복제 작업을 중지합니다. 복제 작업이 소스의 변경사항 처리를 중지합니다.
로그 보기 디버깅 또는 기타 분석을 위해 복제 작업 로그를 봅니다.
검색 이름, 설명 또는 기타 복제 작업 메타데이터로 복제 작업을 검색합니다.
평가 복제를 시작하기 전에 복제의 영향을 평가합니다. 복제 작업을 평가하면 스키마 비호환성 및 기능 누락을 보고하는 평가 보고서가 생성됩니다.

모니터링

복제기 상태 설명
배포됨 복제 작업이 배포되었지만 시작되지 않았습니다. 이 상태에서는 복제 작업이 이벤트를 복제하지 않습니다.
시작 중 복제 작업을 초기화 중이므로 변경사항을 복제할 준비가 되지 않았습니다.
실행 중 복제 작업이 시작되었고 변경사항을 복제하는 중입니다.
중지 중 복제 작업을 중지하는 중입니다.
중지됨 복제 작업이 중지되었습니다.
실패 심각한 오류로 인해 복제 작업에 실패했습니다.

테이블 상태

개념 설명
스냅샷 생성 복제 작업에서는 변경사항을 복제하기 전에 테이블의 현재 상태에 대한 스냅샷을 만듭니다.
복제 중 복제 작업에서 소스 테이블의 변경사항을 대상 테이블로 복제하고 있습니다.
실패 오류로 인해 복제 작업에서 소스 테이블의 변경사항을 복제할 수 없습니다.

측정항목

개념 설명
삽입 선택한 기간의 대상에 적용된 삽입 수입니다.
업데이트 선택한 기간의 대상에 적용된 업데이트 수입니다.
삭제 선택한 기간 동안 대상에 적용된 삭제 횟수입니다.
DDL 선택한 기간의 대상에 적용된 DDL 변경사항 수입니다.
처리량 선택한 기간에 대상에 복제된 이벤트 수 및 대상 바이트 수입니다.
지연 시간 선택한 기간의 데이터가 대상에 복제되는 지연 시간입니다.

구성요소

구성요소 설명
서비스 복제 작업의 엔드 투 엔드 조정을 감독하고 복제 작업의 설계, 배포, 관리, 모니터링 기능을 제공합니다. Cloud Data Fusion 테넌트 프로젝트 내에서 실행됩니다(테넌트 프로젝트가 사용자에게 표시되지 않음). 해당 상태가 Cloud Data Fusion 웹 인터페이스의 **시스템 관리자** 페이지에 표시됩니다.
상태 관리 서비스에서 고객 프로젝트의 Cloud Storage 버킷에 있는 각 복제 작업의 상태를 관리합니다. 버킷은 복제 작업을 만들 때 구성할 수 있습니다. 각 복제 작업의 현재 오프셋 및 복제 상태를 저장합니다.
실행 Dataproc 클러스터가 프로젝트에서 실행되는 복제 작업의 실행 환경을 제공합니다. 복제 작업은 CDAP 작업자를 사용하여 실행됩니다. 실행 환경의 크기와 특성은 Compute Engine 프로필을 사용해 구성합니다.
소스 데이터베이스 대상 데이터베이스로 복제되는 프로덕션 운영 데이터베이스입니다. 이 데이터베이스는 온프레미스 또는 Google Cloud에 위치할 수 있습니다. Cloud Data Fusion 복제는 MySQL, Microsoft SQL Server, Oracle 소스 데이터베이스를 지원합니다.
변경 추적 솔루션 소스 데이터베이스에서 실행되는 에이전트를 실행하는 대신 Cloud Data Fusion에서는 변경 추적 솔루션을 사용하여 소스 데이터베이스의 변경사항을 읽습니다. 이 솔루션은 소스 데이터베이스의 구성요소이거나 별도의 라이선스가 부여된 타사 솔루션일 수 있습니다. 후자의 경우 온프레미스, 소스 데이터베이스와 같은 위치 또는 Google Cloud에서 변경 추적 솔루션이 실행됩니다. 각 소스가 변경 추적 솔루션과 연결되어야 합니다.
  1. SQL Server
    • 지원되는 솔루션: SQL Server CDC(변경 추적 테이블)
    • 추가 소프트웨어: 없음
    • 라이선스/비용: 해당 사항 없음
    • 설명: SQL Server 2016 이상 사용 가능
  2. MySQL
    • 지원되는 솔루션: MySQL 바이너리 로그
    • 추가 소프트웨어: 없음
    • 라이선스/비용: 해당 사항 없음
    • 설명: 해당 사항 없음
  3. Oracle
대상 데이터베이스 복제 및 분석을 위한 대상 위치 Cloud Data Fusion은 BigQuery 대상 데이터베이스를 지원합니다.
인증 인증 메커니즘은 소스 데이터베이스 또는 변경 추적 소프트웨어에 따라 달라집니다. SQL Server 및 MySQL과 같은 소스 데이터베이스의 기본 제공 기능을 사용할 때 데이터베이스 로그인이 인증에 사용됩니다. 변경 추적 소프트웨어를 사용할 때 소프트웨어의 인증 메커니즘이 사용됩니다.

연결

다음 표에서는 복제에 필요한 네트워크 연결과 연결에 사용되는 보안 메커니즘을 설명합니다.

원본 대상 선택 프로토콜 네트워크 인증 보안 용도
서비스(테넌트 프로젝트) 소스 DB 있음 복제 소스에 따라 달라집니다. 직접 데이터베이스 접속의 경우 JDBC입니다. 피어링 + 방화벽 규칙 + VPN/Interconnect + 라우터 DB 로그인 실행이 아닌 설계 시 필요한 기능: 테이블 나열, 평가(선택 사항인 단계로 이들 없이 복제를 계속할 수 있음)
서비스(테넌트 프로젝트) Cloud Storage 없음 Cloud API VPC-SC IAM 상태 관리: 오프셋, 복제 상태
Dataproc(내 프로젝트) 소스 DB 없음 소스에 따라 달라집니다. 직접 DB 연결의 경우 JDBC입니다. 피어링 + 방화벽 규칙 + VPN/Interconnect + 라우터 DB 로그인 실행 시 소스 DB에서 대상으로 복제할 변경사항을 읽기 위해 필요합니다.
Dataproc(내 프로젝트) Cloud Storage 없음 Cloud API VPC-SC IAM 상태 관리: 오프셋, 복제 상태
Dataproc(내 프로젝트) BigQuery 없음 Cloud API VPC-SC IAM 소스 DB에서 대상에 변경사항을 적용하기 위해 실행 시 필요

다음 단계