Como migrar dados do Amazon Redshift

Visão geral

Neste documento, descrevemos o processo de migração de dados do Amazon Redshift para o BigQuery.

Com o serviço de transferência de dados do BigQuery, é possível copiar seus dados de um armazenamento do Amazon Redshift para o BigQuery. Esse serviço usa agentes de migração no GKE e aciona uma operação de descarregamento do Amazon Redshift para uma área de preparo em um intervalo do Amazon S3. Depois, o serviço de transferência envia seus dados do intervalo do Amazon S3 para o BigQuery.

Veja no diagrama a seguir o fluxo geral dos dados entre um armazenamento do Amazon Redshift e o BigQuery durante uma migração.

Antes de começar

Nesta seção, descrevemos de forma detalhada o processo de configuração de uma migração de dados do Amazon Redshift para o BigQuery. As etapas a serem realizadas são estas:

  • Atender aos pré-requisitos e definir as permissões no Google Cloud.
  • Conceder acesso ao cluster do Amazon Redshift.
  • Conceder acesso ao seu intervalo de preparo do Amazon S3.
  • Configurar a migração com o serviço de transferência de dados do BigQuery. Você precisará do seguinte:
    • URL do JDBC do Amazon Redshift. Siga estas instruções para encontrá-lo
    • Nome de usuário e senha do banco de dados do Amazon Redshift.
    • Par de chaves de acesso da AWS, que você aprenderá a coletar na etapa Conceder acesso ao intervalo do S3.
    • URI do intervalo do Amazon S3, que você usará para organizar temporariamente os dados. É recomendável configurar uma política de ciclo de vida nesse intervalo a fim de evitar cobranças desnecessárias. O prazo de validade recomendado é de 24 horas para que haja tempo suficiente para transferir todos os dados ao BigQuery.

Requisitos do Google Cloud

Para realizar uma migração do armazenamento de dados do Amazon Redshift, verifique se você atende aos pré-requisitos a seguir no Google Cloud.

  1. Escolha ou crie um projeto do Google Cloud para armazenar os dados de migração.

    • No Console do GCP, acesse a página do seletor de projetos.

      Acesse a página do seletor de projetos

    • Selecione ou crie um projeto do GCP.

  2. Ative a API do serviço de transferência de dados do BigQuery.

    No Console do Google Cloud, clique no botão Ativar na página API do serviço de transferência de dados do BigQuery.

    Ativar a API

    O BigQuery é ativado automaticamente nos novos projetos. No entanto, talvez seja necessário ativar a API do BigQuery para os projetos atuais. Uma marca de seleção verde indica que ela já está ativa.

    API ativada

  3. Crie um conjunto de dados do BigQuery para armazenar os dados. Não é necessário criar tabelas.

  4. Permita os pop-ups de bigquery.cloud.google.com no seu navegador para que você possa ver a janela de permissões ao configurar a transferência. Conceda ao serviço de transferência de dados do BigQuery a permissão para gerenciar a transferência.

Conceder acesso ao cluster do Amazon Redshift

Siga as instruções da Amazon para colocar na lista de permissões os endereços IP a seguir. Você pode colocar na lista de permissões os endereços IP que correspondem à localização do seu conjunto de dados ou pode colocar na lista de permissões todos os endereços IP da tabela abaixo. Esses endereços IP de propriedade do Google são reservados para migrações de dados do Amazon Redshift.

EUA
(multirregião)
Tóquio
(asia-northeast1)
UE
(multirregião)
Londres
(europe-west2)
Austrália
(australia-southeast1)
35.185.196.212
35.197.102.120 35.185.224.10 35.185.228.170 35.197.5.235 35.185.206.139 35.197.67.234 35.197.38.65 35.185.202.229 35.185.200.120
34.85.11.246
34.85.30.58 34.85.8.125 34.85.38.59 34.85.31.67 34.85.36.143 34.85.32.222 34.85.18.128 34.85.23.202 34.85.35.192
34.76.156.158
34.76.156.172 34.76.136.146 34.76.1.29 34.76.156.232 34.76.156.81 34.76.156.246 34.76.102.206 34.76.129.246 34.76.121.168
35.189.119.113
35.189.101.107 35.189.69.131 35.197.205.93 35.189.121.178 35.189.121.41 35.189.85.30 35.197.195.192
35.189.33.150
35.189.38.5 35.189.29.88 35.189.22.179 35.189.20.163 35.189.29.83 35.189.31.141 35.189.14.219

Conceder acesso ao intervalo do Amazon S3

Você precisa de um intervalo do S3 para usar como área de preparo e transferir os dados do Amazon Redshift para o BigQuery. Veja instruções detalhadas da Amazon aqui.

  1. Recomendamos que você crie um usuário de IAM dedicado do Amazon e conceda a ele acesso somente leitura ao Redshift e acesso leitura e gravação ao S3. Aplique as políticas a seguir para fazer isso:

    Permissões de migração do Amazon Redshift

  2. Crie um par de chaves de acesso do usuário do IAM do Amazon.

Opcional: controle de carga de trabalho com uma fila de migração separada

É possível definir uma fila do Amazon Redshift para a migração para limitar e separar os recursos usados no processo. Essa fila pode ser configurada com uma contagem máxima de consultas de simultaneidade. Em seguida, é possível associar um determinado grupo de usuários de migração à fila e usar essas credenciais ao configurar o processo de transferência de dados para o BigQuery. O serviço de transferência só terá acesso à fila de migração.

Como configurar uma migração do Amazon Redshift

Configurar uma transferência do Amazon Redshift:

Console

  1. Acesse a IU da Web do BigQuery no Console do Cloud.

    Acessar o Console do Cloud

  2. Clique em Transferências.

  3. Clique em Add Transfer.

  4. Na página Nova transferência:

    • Em Origem, escolha Migração: Amazon Redshift.
    • Em Nome de exibição, insira um nome para a transferência, como My migration. Esse nome pode ter qualquer valor que identifique facilmente o processo, caso seja necessário modificá-lo no futuro.
    • Em Conjunto de dados de destino, escolha o conjunto de dados apropriado.

      Novas informações gerais sobre a migração do Amazon Redshift

  5. Em Detalhes da origem de dados, continue inserindo detalhes específicos da transferência do Amazon Redshift.

    • Em URL de conexão do JDBC para Amazon Redshift, forneça o URL do JDBC para acessar o cluster do Amazon Redshift.
    • Em Nome de usuário do seu banco de dados, digite o nome de usuário do banco de dados do Amazon Redshift que você gostaria de migrar.
    • Em Senha do seu banco de dados, insira a senha do seu banco de dados.
    • Em ID da chave de acesso e Chave de acesso secreta, insira o par de chaves de acesso coletado em Conceder acesso ao intervalo do S3.
    • Em URI do Amazon S3, insira o URI do intervalo do S3 que você usará como área de preparo.
    • Em Esquema do Amazon Redshift, insira o esquema que você está migrando.
    • Em Padrões de nome da tabela, especifique um nome ou padrão que corresponda aos nomes das tabelas no esquema. Use expressões regulares para especificar o padrão no formato: <table1Regex>;<table2Regex>. Esse padrão precisa seguir a sintaxe da expressão regular do Java.

      Novos detalhes da origem de dados de migração do Amazon Redshift

    • (Opcional) Na seção Opções de notificação:

      • Clique no botão para ativar as notificações por e-mail. Quando você ativa essa opção, o administrador de transferência recebe uma notificação por e-mail se uma execução de transferência falha.
      • Em Selecionar um tópico do Pub/Sub, escolha o nome do seu tópico ou clique em Criar um tópico. Essa opção configura notificações de execução do Pub/Sub da sua transferência.

        Tópico do Pub/Sub

  6. Clique em Salvar.

  7. O Console do Cloud exibirá todos os detalhes da configuração da transferência, incluindo um Nome de recurso dessa transferência.

    Confirmação da transferência

IU clássica

  1. Acesse a IU clássica da Web do BigQuery.

    Acessar a IU clássica da Web do BigQuery

  2. Clique em Transfers.

  3. Clique em Add Transfer.

  4. Na página Nova transferência:

    • Em Origem, escolha Migração: Amazon Redshift.
    • Em Nome de exibição, insira um nome para a transferência, como My Migration. Esse nome pode ter qualquer valor que identifique facilmente o processo, caso seja necessário modificá-lo no futuro.
    • Em Conjunto de dados de destino, escolha o conjunto de dados apropriado.
    • Em URL de conexão do JDBC para Amazon Redshift, forneça o URL do JDBC para acessar o cluster do Amazon Redshift.
    • Em Nome de usuário do seu banco de dados, digite o nome de usuário do banco de dados do Amazon Redshift que você gostaria de migrar.
    • Em Senha do seu banco de dados, insira a senha do banco de dados.
    • Em ID da chave de acesso e Chave de acesso secreta, insira o par de chaves de acesso coletado em Conceder acesso ao intervalo do S3.
    • Em URI do Amazon S3, insira o URI do intervalo do S3 que você usará como área de preparo.
    • Em Esquema do Amazon Redshift, insira o esquema a partir do qual você gostaria de migrar as tabelas.
    • Em Padrões de nome da tabela, especifique um nome ou padrão que corresponda aos nomes das tabelas no esquema do banco de dados. Use expressões regulares para especificar o padrão no formato: <table1Regex>;<table2Regex>. Esse padrão precisa seguir a sintaxe da expressão regular do Java.

    Novos detalhes da origem de dados de migração do Amazon Redshift

    • Opcional: expanda a seção Avançado e configure as notificações de execução da transferência.

      • Em Tópico do Pub/Sub, insira o nome do seu tópico. Por exemplo: projects/myproject/topics/mytopic.
      • Marque Enviar notificações por e-mail para permitir notificações por e-mail sobre falhas na execução da transferência.
      • Não marque Desativada ao configurar uma transferência. Para desativar transferências, consulte Como trabalhar com transferências.

      Tópico do Pub/Sub

  5. Clique em Adicionar.

  6. Se solicitado, clique em Permitir para conceder ao serviço de transferência de dados do BigQuery a permissão para gerenciar a transferência. É necessário permitir pop-ups do endereço bigquery.cloud.google.com para ver a janela de permissões.

    Permitir transferência

  7. A IU da Web exibirá todos os detalhes da configuração da transferência, incluindo um Nome de recurso dessa transferência.

    Confirmação da transferência

CLI

Digite o comando bq mk e forneça a sinalização de criação da transferência --transfer_config. As sinalizações a seguir também são obrigatórias:

  • --project_id
  • --data_source
  • --target_dataset
  • --display_name
  • --params
bq mk \
--transfer_config \
--project_id=project_id \
--data_source=data_source \
--target_dataset=dataset \
--display_name=name \
--params='parameters'

Em que:

  • project_id é o ID do seu projeto do Google Cloud. Se --project_id não for especificado, o projeto padrão será usado;
  • data_source é a origem de dados: redshift;
  • dataset é o conjunto de dados de destino do BigQuery para a configuração de transferência;
  • name é o nome de exibição da configuração de transferência. Esse nome pode ser qualquer valor que identifique facilmente a transferência, caso seja necessário modificá-la futuramente;
  • parameters contém os parâmetros da configuração da transferência criada no formato JSON. Por exemplo: --params='{"param":"param_value"}'.

Os parâmetros necessários em uma configuração de transferência do Amazon Redshift são:

  • jdbc_url: o URL de conexão do JDBC é usado para localizar o cluster do Amazon Redshift;
  • database_username: o nome de usuário para acessar seu banco de dados e descarregar tabelas especificadas;
  • database_password: a senha usada com o nome de usuário para acessar seu banco de dados e descarregar tabelas especificadas;
  • access_key_id: o ID da chave de acesso para assinar as solicitações feitas para a AWS;
  • secret_access_key: a chave de acesso secreta usada com o ID da chave de acesso para assinar as solicitações feitas para a AWS;
  • s3_bucket: o URI do Amazon S3 que começa com "s3://" e especifica um prefixo de arquivos temporários a serem usados;
  • redshift_schema: o esquema do Amazon Redshift que contém todas as tabelas a serem migradas;
  • table_name_patterns: os padrões de nome de tabela separados por um ponto e vírgula (;), que são expressões regulares correspondentes às tabelas a serem migradas. Se esse valor não for fornecido, todas as tabelas no esquema do banco de dados serão migradas.

Por exemplo, com o comando a seguir, você cria uma transferência do Amazon Redshift chamada My Transfer com um conjunto de dados de destino mydataset e um projeto com o ID google.com:myproject.

bq mk \
--transfer_config \
--project_id=myproject \
--data_source=redshift \
--target_dataset=mydataset \
--display_name='My Transfer' \
--params='{"jdbc_url":"jdbc:postgresql://test-example-instance.sample.us-west-1.redshift.amazonaws.com:5439/dbname","database_username":"my_username","database_password":"1234567890","access_key_id":"A1B2C3D4E5F6G7H8I9J0","secret_access_key":"1234567890123456789012345678901234567890","s3_bucket":"s3://bucket/prefix","redshift_schema":"public","table_name_patterns":"table_name"}'

API

Use o método projects.locations.transferConfigs.create e forneça uma instância do recurso TransferConfig.

Cotas e limites

O BigQuery tem uma cota de carregamento de 15 TB por job e por tabela. Internamente, o Amazon Redshift compacta os dados da tabela. Portanto, o tamanho da tabela exportada será maior do que o relatado pelo Amazon Redshift. Se você planeja migrar mais de 15 TB, entre em contato primeiro com bq-dts-support@google.com.

Podem ser gerados custos fora do Google com o uso desse serviço. Consulte as páginas de preços do Amazon Redshift e do Amazon S3 para mais detalhes.

Devido ao modelo de consistência do Amazon S3, é possível que alguns arquivos não sejam incluídos na transferência para o BigQuery.

A seguir