Replicar dados no BigQuery quase em tempo real com o Datastream

Saiba como replicar dados de um banco de dados de origem para os conjuntos de dados do BigQuery usando o Datastream.


Para seguir as instruções detalhadas desta tarefa diretamente no console do Google Cloud, clique em Orientação:

Orientações


Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  6. Ative a Datastream API.

    Ative a API

  7. Verifique se você tem o papel Administrador do Datastream atribuído à sua conta de usuário.

    Acessar a página IAM

Se você quiser criar uma configuração de conectividade particular para uma rede VPC padrão ou compartilhada, será necessário atender a outros pré-requisitos. Para mais informações, consulte Criar uma configuração de conectividade particular.

Requisitos

O Datastream oferece uma variedade de opções de origem, opções de destino e métodos de conectividade de rede.

Neste guia de início rápido, presumimos que você esteja replicando dados de um banco de dados do Cloud SQL para PostgreSQL para o BigQuery. Para o banco de dados de origem, configure sua instância do banco de dados para aceitar conexões de endereços IP públicos do Datastream.

Como não sabemos as especificidades do seu ambiente, não podemos fornecer etapas detalhadas sobre a configuração de rede.

Neste guia de início rápido, você vai selecionar Lista de permissões de IP como o método de conectividade de rede. As listas de permissões de IP são um recurso de segurança usado com frequência para limitar e controlar o acesso de usuários confiáveis ao seu banco de dados de origem. É possível usar listas de permissões de IP para criar listas de endereços IP ou intervalos de IP confiáveis. Esses usuários e outros serviços do Cloud, como o Datastream, podem acessar esses dados. Para usar as listas de permissões de IP, abra o banco de dados de origem do Cloud SQL para conexões de entrada do Datastream.

Criar perfis de conexão

Ao criar perfis de conexão, você armazena algumas informações básicas sobre a origem e o destino no Datastream. Depois, é possível reutilizar essas informações em vários fluxos.

Neste guia de início rápido, você vai selecionar PostgreSQL como o tipo de perfil do perfil de conexão de origem e BigQuery como o tipo do perfil de conexão de destino. O Datastream usa as informações nos perfis de conexão para se conectar ao banco de dados de origem e ao BigQuery.

Criar um perfil de conexão de origem para o banco de dados PostgreSQL

  1. Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.

    Acessar a página "Perfis de conexão"

  2. Clique em CRIAR PERFIL.

  3. Na página Create a connection profile, clique no tipo de perfil PostgreSQL porque você quer criar um perfil de conexão de origem para o banco de dados PostgreSQL.

  4. Forneça as seguintes informações na seção Definir configurações de conexão da página Criar perfil do PostgreSQL:

    • Insira My Source Connection Profile como o Nome do perfil de conexão do banco de dados de origem.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que o perfil da conexão será armazenado.

    • Insira os Detalhes da conexão:

      • No campo Nome do host ou IP, digite um nome do host ou endereço IP público que o Datastream possa usar para se conectar ao banco de dados PostgreSQL de origem. Você está fornecendo um endereço IP público porque a lista de permissões de IP será usada como o método de conectividade de rede para este guia de início rápido.
      • No campo Porta, insira o número reservado para o banco de dados de origem. Para um banco de dados PostgreSQL, a porta padrão costuma ser 5432.
      • Insira um Nome de usuário e uma Senha para autenticar no banco de dados de origem.
      • No campo Banco de dados, insira o nome que identifica a instância do banco de dados. Para bancos de dados PostgreSQL, isso geralmente é postgres.
  5. Na seção Definir configurações de conexão, clique em CONTINUAR. A seção Definir o método de conectividade da página Criar perfil do PostgreSQL está ativa.

  6. Escolha o método de rede que você quer usar para estabelecer conectividade entre o banco de dados de origem e o Datastream. Para este guia de início rápido, use o menu suspenso Método de conectividade para selecionar Lista de permissões de IP como método de rede.

  7. Configure seu banco de dados de origem para permitir conexões de entrada dos endereços IP públicos do Datastream que aparecem.

  8. Na seção Definir método de conectividade, clique em CONTINUAR. A seção Testar perfil de conexão da página Criar perfil do PostgreSQL está ativa.

  9. Clique em EXECUTAR TESTE para verificar se o banco de dados PostgreSQL de origem e o Datastream podem se comunicar entre si.

  10. Verifique se o status "Aprovado no teste" é exibido.

  11. Se o teste falhar, resolva o problema na parte apropriada do fluxo e volte a testar novamente. Consulte a página Diagnosticar problemas para ver as etapas de solução de problemas.

  12. Clique em CRIAR.

Criar um perfil de conexão de destino para o BigQuery

  1. Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.

    Acessar a página "Perfis de conexão"

  2. Clique em CRIAR PERFIL.

  3. Na página Criar um perfil de conexão, clique no tipo de perfil BigQuery porque você quer criar um perfil de conexão de destino para o BigQuery.

  4. Forneça as seguintes informações na página Criar perfil do BigQuery:

    • Insira My Destination Connection Profile como o Nome do perfil de conexão do serviço de destino do BigQuery.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que o perfil da conexão será armazenado.
  5. Clique em CRIAR.

Depois de criar um perfil de conexão de origem para o banco de dados PostgreSQL e um perfil de conexão de destino para o BigQuery, use-os para criar um stream.

Criar um stream

Nesta seção, você vai criar um stream para replicar dados de um banco de dados PostgreSQL de origem para o BigQuery.

A criação de um stream inclui o seguinte:

  • Como definir as configurações da transmissão.
  • Selecione o perfil de conexão que você criou para seu banco de dados de origem (o perfil de conexão de origem). Para este guia de início rápido, o nome é My Source Connection Profile.
  • Configurar informações sobre o banco de dados de origem para o stream especificando as propriedades de replicação e as tabelas e esquemas no banco de dados de origem desse Datastream:
    • Pode ser transferido para o destino.
    • esteja impedido de ser transferido para o destino;
  • Determinar se o Datastream preencherá dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados.
  • Selecionar o perfil de conexão que você criou para o BigQuery (o perfil de conexão de destino). Para este guia de início rápido, o nome é My Destination Connection Profile.
  • Configurar informações sobre o destino do stream, como a configuração dos conjuntos de dados do BigQuery.
  • Validando o stream.

Definir configurações do stream

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Fluxos"

  2. Clique em CRIAR STREAM.

  3. Forneça as seguintes informações no painel Definir detalhes do fluxo da página Criar stream:

    • Insira My Stream como o Nome do fluxo.
    • Mantenha o código do stream gerado automaticamente.
    • No menu Região, selecione a região onde você criou seu perfil de conexão de origem.
    • No menu Source type, selecione o tipo de perfil PostgreSQL.
    • No menu Tipo de destino, selecione o tipo de perfil do BigQuery.
  4. Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos incluem como configurar o banco de dados de origem e como configurar o BigQuery.

  5. Clique em CONTINUAR. O painel Definir o perfil de conexão do PostgreSQL da página Criar stream é exibido.

Especificar informações sobre o perfil de conexão de origem

  1. No menu Perfil de conexão de origem, selecione seu perfil de conexão de origem para o banco de dados PostgreSQL.

  2. Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

    Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.

  3. Clique em CONTINUAR. O painel Configurar origem da transmissão é exibido na página Criar stream.

Configurar informações sobre o banco de dados de origem para o fluxo

  1. Forneça os nomes de Slot de replicação e Publication para o banco de dados de origem. O slot de replicação e a publicação foram criados ao configurar o banco de dados PostgreSQL.

  2. Use o menu Objetos a serem incluídos para especificar as tabelas e os esquemas no banco de dados de origem que o Datastream replicará no BigQuery. O menu só é carregado se o banco de dados tiver até 5.000 objetos.

    Para este guia de início rápido, o Datastream precisa transferir todas as tabelas e esquemas. Selecione Todas as tabelas de todos os esquemas no menu.

  3. Clique em CONTINUAR. O painel Definir o perfil de conexão do BigQuery da página Criar stream é exibido.

Selecione um perfil de conexão de destino

  1. No menu Perfil de conexão de destino, selecione seu perfil de conexão de destino para o BigQuery.

  2. Clique em CONTINUAR. O painel Configurar destino do stream é exibido na página Criar stream.

Configurar informações sobre o destino do stream

  1. Escolha a opção Conjunto de dados para cada esquema. Assim, o Datastream cria automaticamente um conjunto de dados no BigQuery para cada esquema no banco de dados de origem.

  2. Selecione o Local em que os conjuntos de dados serão criados no BigQuery. Esse local não precisa ser o mesmo da região em que o fluxo do Datastream é criado.

  3. Defina o Prefixo como quickstart-. O Datastream vai adicionar essa string ao início de cada conjunto de dados criado no BigQuery.

  4. Deixe o valor na lista suspensa Especificar o limite de inatividade dos dados definido como 15 minutos. O BigQuery usa esse valor para decidir se os dados podem ficar desatualizados quando consultados.

  5. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Criar o stream

  1. Verifique os detalhes sobre o stream, bem como os perfis de conexão de origem e destino que o stream usará para transferir dados de um banco de dados PostgreSQL de origem para o BigQuery.

  2. Clique emEXECUTAR VALIDAÇÃO para validar o stream. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

  3. Depois que todas as verificações de validação forem aprovadas, clique em CRIAR.

  4. Na caixa de diálogo Criar stream?, clique em CRIAR.

Iniciar o stream

Na seção anterior do guia de início rápido, você criou um stream, mas ainda não o iniciou. Faça isso agora.

Para este guia de início rápido, é possível criar e iniciar um stream separadamente caso o processo de criação de stream intensifique a carga no banco de dados de origem. Para suspender essa carga, crie o stream sem iniciá-lo e, em seguida, inicie o stream quando ele puder ser gerado.

Ao iniciar o stream, ele pode transferir dados, esquemas e tabelas do banco de dados de origem para o destino.

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Fluxos"

  2. Marque a caixa de seleção à esquerda do stream que você quer iniciar. Para este guia de início rápido, use Meu stream.

  3. Clique em START.

  4. Na caixa de diálogo, clique em INICIAR. O status do stream muda de Not started para Starting e Running.

    Depois de iniciar um stream, você pode verificar se o Datastream transferiu dados do banco de dados de origem para o destino.

Verificar o stream

Nesta seção, você confirma que o Datastream transfere os dados de todas as tabelas do banco de dados PostgreSQL de origem para o BigQuery.

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Fluxos"

  2. Clique no stream que você criou. Para este guia de início rápido, use Meu stream.

  3. Na página Detalhes do fluxo, clique no link exibido abaixo do campo Caminho de gravação de destino. O BigQuery Studio é aberto em uma guia separada.

  4. Verifique se você vê conjuntos de dados e tabelas que representam esquemas e tabelas do banco de dados PostgreSQL de origem.

  5. Clique em uma das tabelas para visualizar os dados.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  1. Use o console do Google Cloud para excluir seu projeto, os perfis de stream e conexão do Datastream e conjuntos de dados do BigQuery.

Ao limpar os recursos criados no Datastream, eles não consumirão a cota e você não será cobrado por eles no futuro. As próximas seções descrevem como excluir ou desativar esses recursos.

Excluir o projeto

A maneira mais fácil de eliminar o faturamento é excluir o projeto que você criou para este guia de início rápido.

  1. No console do Cloud, acesse a página Gerenciar recursos:

    Acessar a página Gerenciar recursos

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.

  3. Na caixa de diálogo, insira o ID do projeto e clique em Encerrar para excluí-lo.

Excluir o stream

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Fluxos"

  2. Clique no stream que você quer excluir. Para este guia de início rápido, use Meu stream.

  3. Clique em PAUSAR.

  4. Na caixa de diálogo, clique em PAUSAR.

  5. No painel Status do stream da página Detalhes do stream, verifique se o status do stream é Paused.

    }
  6. Clique em EXCLUIR.

  7. Na caixa de diálogo, digite Delete no campo de texto e clique em EXCLUIR.

Excluir os perfis de conexão

  1. Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.

    Acessar a página "Perfis de conexão"

  2. Marque a caixa de seleção de cada perfil de conexão que você quer excluir. Neste guia de início rápido, marque as caixas de seleção Meu perfil de conexão de origem e Meu perfil de conexão de destino.

  3. Clique em EXCLUIR.

  4. Na caixa de diálogo, clique em EXCLUIR.

Excluir conjuntos de dados do BigQuery

  1. Acesse a página do BigQuery Studio no console do Google Cloud.

    Acessar o BigQuery Studio

  2. Expanda o nó do projeto em que você criou este guia de início rápido.

  3. Para cada conjunto de dados que você quer excluir, clique no menu Ver ações e depois em Excluir.

  4. Na caixa de diálogo, digite delete no campo de texto e clique em EXCLUIR.

A seguir