SQL Server에서 BigQuery로 데이터 복제


이 튜토리얼에서는 Microsoft SQL Server 데이터베이스에서 변경된 데이터를 BigQuery 테이블로 지속적으로 복제하는 작업을 만들고 배포하는 방법을 보여줍니다.

목표

이 튜토리얼의 목표는 다음과 같습니다.

  1. SQL Server 데이터베이스에서 변경 데이터 캡처(CDC)를 사용 설정합니다.
  2. Cloud Data Fusion 복제 작업을 만들고 실행하기
  3. BigQuery에서 결과 확인하기

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

복제가 실행되면 Dataproc 클러스터 비용이 청구되고 BigQuery에 대한 처리 비용이 발생합니다. 이러한 비용을 최적화하려면 BigQuery 정액제를 사용하는 것이 좋습니다.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. API Cloud Data Fusion, BigQuery, and Cloud Storage 사용 설정

    API 사용 설정

  5. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  6. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  7. API Cloud Data Fusion, BigQuery, and Cloud Storage 사용 설정

    API 사용 설정

  8. 버전 6.3.0 이상에서 공개 Cloud Data Fusion 인스턴스를 만듭니다. 비공개 인스턴스를 만드는 경우 VPC 네트워크 피어링을 설정합니다.
    • 인스턴스를 만들 때 가속기 추가를 클릭하고 복제 체크박스를 선택하여 복제를 사용 설정합니다.
    • 기존 인스턴스에서 사용 설정하려면 복제 사용 설정을 참조하세요.

네트워킹에 대한 자세한 내용은 Cloud Data Fusion에서 HAProxy를 사용하여 복잡한 네트워크 토폴로지 탐색하기를 참조하세요.

필요한 역할

이 튜토리얼에 필요한 권한을 얻으려면 IAM으로 액세스 제어서비스 계정 사용자 권한 부여를 참조하세요.

선택사항: SQL Server VM 인스턴스 설정

  1. SQL Server 인스턴스를 만듭니다.

  2. AdventureWorks2017(OLTP) 데이터베이스를 다운로드하고 SQL Server 인스턴스에 데이터를 로드합니다.

SQL Server 데이터베이스에서 CDC 사용 설정하기

복제를 위해 데이터베이스 및 복제할 테이블에서 변경 데이터 캡처(CDC)를 사용 설정합니다.

Cloud Data Fusion 복제 작업을 만들고 실행하기

JDBC 드라이버 업로드

  1. 로컬 머신에 SQL Server JDBC 드라이버를 다운로드합니다.

  2. Cloud Data Fusion 웹 인터페이스에서 JDBC 드라이버를 업로드합니다. JDBC 드라이버를 구성하려면 다음 값을 사용합니다.

    • 이름 필드에 sqlserver를 입력합니다.
    • 클래스 이름 필드에 com.microsoft.sqlserver.jdbc.SQLServerDriver를 입력합니다.
    • 버전 필드는 기본값을 그대로 둡니다.

작업 만들기

  1. Cloud Data Fusion 웹 인터페이스에서 복제를 클릭합니다.

  2. 복제 작업 만들기를 클릭합니다.

  3. 새 복제 작업 만들기 페이지에서 복제 작업 이름을 지정하고 다음을 클릭합니다.

  4. 소스를 구성합니다.

    1. 소스로 Microsoft SQL Server를 선택합니다.
    2. 호스트에 읽을 SQL Server의 호스트 이름을 입력합니다.
    3. 포트에서 SQL Server에 연결하는 데 사용할 포트(1433)를 입력합니다.
    4. JDBC 플러그인 이름sqlserver(또는 JDBC 드라이버를 구성할 때 지정한 이름)를 선택합니다.
    5. 데이터베이스 이름AdventureWorks2017을 입력합니다.
    6. 사용자 인증 정보 섹션에서 SQL Server에 액세스할 때 사용하는 사용자 이름과 비밀번호를 입력합니다.
  5. 다음을 클릭합니다.

  6. 대상을 구성하려면 다음 안내를 따르세요.

    1. BigQuery 대상을 선택합니다.
    2. 프로젝트 ID서비스 계정 키는 자동으로 감지됩니다. 기본값을 그대로 둡니다.
    3. 선택사항: 고급 섹션에서 Cloud Storage 버킷의 이름과 위치, 로드 간격, 스테이징 테이블 프리픽스, 테이블 또는 데이터베이스가 삭제될 때의 동작을 구성할 수 있습니다.
  7. 다음을 클릭합니다.

  8. 연결에 성공하면 AdventureWorks2017 테이블 목록이 표시됩니다. 이 튜토리얼에서는 Insert, Update, Delete 이벤트와 같은 몇 가지 테이블 및 이벤트를 선택합니다.

  9. 선택사항: 고급 속성을 구성합니다. 이 튜토리얼에서는 기본 설정을 사용할 수 있습니다.

  10. 다음을 클릭합니다.

  11. 평가 검토 페이지에서 테이블 옆에 있는 매핑 보기를 클릭하여 복제 중에 발생할 수 있는 스키마 문제, 기능 누락, 연결 문제에 대한 평가를 확인합니다. 계속하려면 문제를 해결해야 합니다. 이 튜토리얼의 경우 테이블에 문제가 있으면 테이블을 선택한 단계로 돌아가서 문제가 없는 테이블 또는 이벤트를 선택합니다.

    소스 데이터베이스에서 BigQuery 대상으로의 데이터 유형 변환에 대한 자세한 내용은 복제 데이터 유형을 참조하세요.

  12. 뒤로를 클릭합니다.

  13. 다음을 클릭합니다.

  14. 복제 작업 세부정보 요약을 검토한 후 복제 작업 배포를 클릭합니다.

작업 시작

  • 복제 작업 세부정보 페이지에서 시작을 클릭합니다.

복제 작업이 프로비저닝, 시작, 실행 중 상태로 차례로 전환됩니다. 실행 중 상태일 때 복제 작업에서 선택한 테이블(예: People 테이블) 데이터의 초기 스냅샷을 BigQuery에 로드합니다. 이 상태에서 People 테이블의 상태가 스냅샷 생성으로 나열됩니다. BigQuery에 초기 스냅샷이 로드되면 People 테이블의 변경사항이 BigQuery에 복제됩니다. 테이블 상태가 복제 중으로 표시됩니다.

작업 모니터링

복제 작업을 시작 및 중지하고 구성과 로그를 검토하며 복제 작업을 모니터링할 수 있습니다.

복제 작업 세부정보 페이지에서 복제 작업 활동을 모니터링할 수 있습니다.

  1. 복제 페이지에서 복제 작업 이름을 클릭합니다.

  2. Monitoring을 클릭합니다.

BigQuery에서 결과 확인하기

복제 작업은 BigQuery에 복제된 데이터 세트 및 테이블을 만들고, 해당 SQL Server 데이터베이스 및 테이블 이름으로부터 상속된 이름을 지정합니다.

  1. Google Cloud 콘솔에서 BigQuery를 엽니다.

  2. 왼쪽 패널에서 프로젝트 이름을 클릭하여 데이터 세트 목록을 펼칩니다.

  3. adventureworks2017 데이터 세트를 선택한 다음 보려는 테이블을 선택합니다.

자세한 내용은 BigQuery 문서를 참조하세요.

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

튜토리얼을 마쳤으면 Google Cloud에서 만든 리소스를 삭제합니다.

VM 인스턴스 삭제

  1. Google Cloud 콘솔에서 VM 인스턴스 페이지로 이동합니다.

    VM 인스턴스로 이동

  2. 삭제할 인스턴스.
  3. 인스턴스를 삭제하려면 추가 작업을 클릭하고, 삭제를 클릭한 후 안내를 따르세요.

Cloud Data Fusion 인스턴스 삭제

안내를 따라 Cloud Data Fusion 인스턴스를 삭제합니다.

프로젝트 삭제

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

다음 단계