VPC를 이용하여 Amazon Redshift 데이터 마이그레이션

개요

이 문서에서는 Virtual Private Cloud(VPC) 네트워크를 사용하여 Amazon Redshift에서 BigQuery로 데이터를 마이그레이션하는 방법을 설명합니다.

퍼블릭 IP를 통해 Redshift 인스턴스에서 데이터를 전송하려면 이 지침을 사용하여 Redshift 데이터를 BigQuery로 마이그레이션할 수 있습니다.

AWS에 프라이빗 Amazon Redshift 인스턴스가 있는 경우 VPC 피어링을 사용하여 해당 데이터를 BigQuery로 마이그레이션할 수 있습니다. 이 기능을 활성화하려면 마이그레이션을 설정할 때 VPC 및 예약된 IP 범위를 지정합니다.

  • Amazon Redshift VPC 네트워크와 Google Cloud VPC 네트워크 간에 가상 사설망(VPN)을 설정해야 합니다.
  • VPN을 통해 Google Cloud VPC에서 실행되는 마이그레이션 에이전트는 Amazon Redshift에서 Amazon S3 버킷의 스테이징 영역으로 언로드 작업을 트리거합니다.
  • 그런 다음 BigQuery Data Transfer Service는 Amazon S3 버킷의 데이터를 BigQuery로 전송합니다.

다음 다이어그램은 VPC 통신과 마이그레이션 중 비공개 Amazon Redshift 인스턴스와 BigQuery 간의 전체적인 데이터 흐름을 나타낸 것입니다.

시작하기 전에

이 섹션에서는 비공개 Amazon Redshift 인스턴스에서 BigQuery 로의 데이터 마이그레이션을 설정하는 단계별 프로세스를 설명합니다. 단계는 다음과 같습니다.

  • Google Cloud 요구 사항: 사전 요구 조건을 충족하고 Google Cloud에 대한 권한을 설정하세요.
  • Google Cloud와 Amazon Redshift 간에 VPN을 설정하세요.
  • Amazon Redshift 클러스터에 대한 액세스 권한을 부여합니다.
  • 데이터를 일시적으로 준비하는 데 사용할 Amazon S3 버킷에 대한 액세스 권한을 부여하세요. 나중 단계에서 사용할 액세스 키 쌍을 기록해 두세요.
  • BigQuery Data Transfer Service를 사용하여 마이그레이션을 설정합니다. 필요한 사항은 다음과 같습니다.
    • Amazon Redshift의 VPC 및 예약된 IP 범위.
    • Amazon Redshift JDBC URL. 이 지침을 따라 JDBC URL을 확인하세요.
    • Amazon Redshift 데이터베이스의 사용자 이름과 비밀번호
    • AWS 액세스 키 쌍. S3 버킷에 대한 액세스 권한 부여 단계에서 확인할 수 있습니다.
    • Amazon S3 버킷의 URI. 불필요한 비용이 발생하지 않도록 이 버킷에 대해 라이프 사이클 정책을 설정하는 것이 좋습니다. 모든 데이터를 BigQuery로 전송하는 데 충분한 시간을 확보하려면 만료 시간을 24시간으로 설정하는 것이 좋습니다.

필수 권한

Amazon Redshift 전송을 생성하기 전에 할 일

  1. 전송을 만드는 사람에게 다음과 같은 BigQuery 필수 권한이 있는지 확인합니다.

    • 전송을 만들 bigquery.transfers.update 권한
    • 대상 데이터세트에 대한 bigquery.datasets.update 권한

    사전 정의된 IAM 역할 bigquery.admin에는 bigquery.transfers.updatebigquery.datasets.update 권한이 포함됩니다. BigQuery Data Transfer Service의 IAM 역할에 대한 자세한 내용은 액세스 제어 참조를 참조하세요.

  2. Amazon S3의 문서를 참조하여 전송을 사용 설정하는 데 필요한 권한을 구성했는지 확인합니다. Amazon S3 소스 데이터에 최소한 AWS 관리 정책 AmazonS3ReadOnlyAccess가 적용되어야 합니다.

  3. VPC 피어링을 빌드하기 위해 서비스는 전송을 설정하는 개별 사용자의 Google Cloud 사용자 인증 정보를 사용합니다. 전송을 만드는 사람에게 VPC 네트워크 피어링을 만들고 삭제할 수 있는 적절한 IAM 권한을 부여하여 VPC 피어링 연결을 만드는 데 필요한 권한이 있는지 확인합니다.

  • VPC 피어링을 생성할 수 있는 권한: compute.networks.addPeering

    • VPC 피어링을 삭제할 수 있는 권한: compute.networks.removePeering

    기본적으로 사전 정의된 IAM 역할 project.owner, project.editor, network.admin에는 compute.networks.addPeeringcompute.networks.removePeering 권한이 있습니다.

Google Cloud 요구사항

Google 클라우드 요구 사항을 충족하려면 표준 Amazon Redshift 마이그레이션 지침을 따르세요.

VPN 설정

  1. Google Cloud 프로젝트에서 Google Cloud VPC 네트워크를 설정하세요.

  2. VPN을 설정하세요. 이 가이드의 지침에 따라 Google Cloud 프로젝트의 VPC 네트워크와 Amazon Redshift VPC 간에 VPN을 설정하세요. 주의: 서비스는 VPC 네트워크 이름을 VPC 피어링 연결 이름으로 사용하므로 해당 이름을 사용하는 기존 VPC 피어링 연결이 없는지 확인하세요.

  3. Google 클라우드에서 VPC 피어링을 수행할 수 있는 권한을 부여하세요. VPC 피어링 연결을 생성하는 데 필요한 권한이 있는지 확인하세요. 필요한 권한을 참조하세요.

  4. 계속하기 전에 Google Cloud VPC 네트워크가 Google Cloud 프로젝트에 존재하고 VPN을 통해 이미 Redshift에 연결되어 있는지 확인하세요.

Amazon Redshift 클러스터에 대한 액세스 권한 부여

Amazon의 안내에 따라 비공개 Amazon Redshift 클러스터의 IP 범위를 허용합니다. 이후 단계에서는 전송을 설정할 때 이 VPC 네트워크에서 비공개 IP 범위를 정의합니다.

Amazon S3 버킷에 대한 액세스 권한 부여

표준 Amazon Redshift 마이그레이션 지침에 따라 Amazon S3 버킷에 대한 액세스 권한을 부여하세요.

선택사항: 별도의 마이그레이션 큐로 워크로드 제어

마이그레이션용 Amazon Redshift 큐를 정의하여 마이그레이션에 사용되는 리소스를 제한하고 구분할 수 있습니다. 이러한 마이그레이션 큐는 최대 동시 실행 쿼리 수를 사용하여 구성할 수 있습니다. 그런 다음 특정 마이그레이션 사용자 그룹을 큐와 연결하고 BigQuery로 데이터를 전송하도록 마이그레이션을 설정할 때 이러한 사용자 인증 정보를 사용할 수 있습니다. 전송 서비스만 마이그레이션 큐에 액세스할 수 있습니다.

Amazon Redshift 전송 설정

비공개 Amazon Redshift 인스턴스에 대해 다음과 같은 차이점으로 표준 Amazon Redshift 마이그레이션 지침에 따라 Amazon Redshift 전송을 설정하세요.

  • JDBC 연결 URL의 전송 설정 필드에 비공개 Amazon Redshift 인스턴스의 VPC 및 예약된 IP 범위 필드를 입력합니다.
  • 이를 입력하지 않으면 전송 구성이 표준 Amazon Redshift 마이그레이션으로 되돌아갑니다.

VPC 및 예약된 IP 범위를 입력하려면

  1. VPC 및 예약된 IP 범위 필드에서 VPC 네트워크 이름 및 예상 개인 IP 범위를 마이그레이션 인프라 프로비저닝을위한 CIDR 블록으로 지정하세요.

    Amazon Redshift 마이그레이션 CIDR 필드

    • 양식: VPC_network_name:CIDR (예: my_vpc:10.251.1.0/24)
    • 10.x.x.x로 시작하는 CIDR 표기법에 표준 프라이빗 VPC 네트워크 주소 범위를 사용하세요.
    • 프라이빗 IP 범위는 마이그레이션 인프라 프로비저닝을 위한 것이므로 다음을 확인하세요.
      • IP 범위가 충분히 넓음 (10개 이상의 IP 주소가 있음)
      • IP 범위는 Google Cloud VPC 네트워크 또는 Amazon Redshift VPC 네트워크의 서브넷과 겹치지 않음
    • 동일한 Amazon Redshift 인스턴스에 대해 여러 전송을 구성한 경우 각 전송에서 동일한 VPC_network_name:CIDR 값을 사용해야 여러 전송이 동일한 마이그레이션 인프라를 재사용할 수 있습니다.

할당량 및 한도

VPC로 Amazon Redshift 비공개 인스턴스를 마이그레이션하면 단일 테넌트 인프라에서 마이그레이션 에이전트가 실행됩니다. 계산 리소스 제한으로 인해 최대 5개의 동시 전송 실행이 허용됩니다.

표준 Amazon Redshift에서 이전할 때와 동일한 할당량 및 한도가 적용됩니다.

다음 단계