Saiba como replicar dados de um banco de dados de origem para o BigQuery conjuntos de dados usando o Datastream.
Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Enable the Datastream API.
- Verifique se você tem o papel Administrador do Datastream atribuído à sua conta de usuário.
Se você quiser criar uma configuração de conectividade particular para uma VPC padrão ou compartilhada é preciso cumprir outros pré-requisitos. Para mais informações, consulte Criar uma configuração de conectividade particular.
Requisitos
O Datastream oferece uma variedade de opções de origem, opções de destino e métodos de conectividade de rede.
Neste guia de início rápido, presumimos que você esteja replicando dados de um banco de dados do Cloud SQL para PostgreSQL para o BigQuery. Configure a instância do banco de dados para aceitar conexões de endereços IP públicos do Datastream no banco de dados de origem.
Como não sabemos as especificidades do seu ambiente, não podemos fornecer etapas detalhadas sobre a configuração de rede.
Para este guia de início rápido, você vai selecionar Lista de permissões de IP como o método de conectividade de rede. As listas de permissões de IP são um recurso de segurança usado com frequência para limitar e controlar o acesso de usuários confiáveis ao seu banco de dados de origem. É possível usar listas de permissões de IP para criar listas de endereços IP ou intervalos de IP confiáveis. Esses usuários e outros serviços do Cloud, como o Datastream, podem acessar esses dados. Para usar essas listas, você precisa abrir o banco de dados de origem do Cloud SQL para as conexões de entrada do Datastream.
Criar perfis de conexão
Ao criar perfis de conexão, você armazena algumas informações básicas sobre a origem e o destino no Datastream. Essas informações podem ser reutilizadas em várias transmissões.
Neste guia de início rápido, você vai selecionar PostgreSQL como o tipo de perfil de conexão de origem e BigQuery como o tipo do perfil de conexão de destino. O Datastream usa as informações nos perfis de conexão para se conectar ao banco de dados de origem e ao BigQuery.
Criar um perfil de conexão de origem para o banco de dados PostgreSQL
Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.
Clique em CRIAR PERFIL.
Na página Criar um perfil de conexão, clique no tipo de perfil PostgreSQL, porque você quer criar um perfil de conexão de origem para o banco de dados PostgreSQL.
Forneça as seguintes informações na seção Definir configurações de conexão da página Criar perfil do PostgreSQL:
- Insira
My Source Connection Profile
como o Nome do perfil de conexão do banco de dados de origem. - Mantenha o ID do perfil de conexão gerado automaticamente.
Selecione a Região em que o perfil da conexão será armazenado.
Insira os Detalhes da conexão:
- No campo Nome do host ou IP, digite um nome do host ou endereço IP público que o Datastream possa usar para se conectar ao banco de dados PostgreSQL de origem. Você está fornecendo um endereço IP público porque a lista de permissões de IP será usada como o método de conectividade de rede para este guia de início rápido.
- No campo Porta, insira o número reservado para o banco de dados de origem. Para um banco de dados PostgreSQL, a porta padrão normalmente é
5432
. - Insira um Nome de usuário e uma Senha para autenticar no banco de dados de origem.
- No campo Banco de dados, digite o nome que identifica a instância do banco de dados. Para bancos de dados PostgreSQL, normalmente é
postgres
.
- Insira
Na seção Definir configurações de conexão, clique em CONTINUAR. A seção Definir o método de conectividade da página Criar perfil do PostgreSQL está ativa.
Escolha o método de rede que você quer usar para estabelecer conectividade entre o banco de dados de origem e o Datastream. Para este guia de início rápido, use o menu suspenso Método de conectividade para selecionar Lista de permissões de IP como método de rede.
Configure seu banco de dados de origem para permitir conexões de entrada dos endereços IP públicos do Datastream que aparecem.
Na seção Definir método de conectividade, clique em CONTINUAR. A seção Testar o perfil da conexão da página Criar perfil do PostgreSQL está ativa.
Clique em EXECUTAR TESTE para verificar se o banco de dados PostgreSQL de origem e o Datastream podem se comunicar entre si.
Verifique se o status "Aprovado no teste" é exibido.
Se o teste falhar, resolva o problema na parte apropriada do fluxo e volte a testar novamente. Consulte a página Diagnosticar problemas para ver as etapas de solução de problemas.
Clique em CRIAR.
Criar um perfil de conexão de destino para o BigQuery
Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.
Clique em CRIAR PERFIL.
Na página Criar um perfil de conexão, clique no tipo de perfil BigQuery porque você quer criar um perfil de conexão de destino para o BigQuery.
Forneça as seguintes informações na página Criar perfil do BigQuery:
- Digite
My Destination Connection Profile
como o Nome do perfil de conexão do serviço de destino do BigQuery. - Mantenha o ID do perfil de conexão gerado automaticamente.
- Selecione a Região em que o perfil da conexão será armazenado.
- Digite
Clique em CRIAR.
Depois de criar um perfil de conexão de origem para o banco de dados PostgreSQL e um perfil de conexão de destino para o BigQuery, use-os para criar um stream.
Criar um stream
Nesta seção, você vai criar um stream para replicar dados de um banco de dados PostgreSQL de origem para o BigQuery.
A criação de um stream inclui o seguinte:
- Como definir as configurações da transmissão.
- Selecione o perfil de conexão que você criou para seu banco de dados de origem (o perfil de conexão de origem). Para este guia de início rápido, o nome é My Source Connection Profile.
- Configure informações sobre o banco de dados de origem para o stream especificando as propriedades de replicação e as tabelas e esquemas no banco de dados de origem que o Datastream:
- Pode ser transferido para o destino.
- esteja impedido de ser transferido para o destino;
- Determinar se o Datastream preencherá dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados.
- Selecione o perfil de conexão que você criou para o BigQuery (o perfil de conexão de destino). Para este guia de início rápido, o nome é My Destination Connection Profile.
- Configurar informações sobre o destino do stream, como a configuração dos conjuntos de dados do BigQuery.
- Validando a transmissão.
Definir configurações do stream
Acesse a página Streams do Datastream no Console do Google Cloud.
Clique em CRIAR STREAM.
Forneça as seguintes informações no painel Definir detalhes do fluxo da página Criar stream:
- Insira
My Stream
como o Nome do fluxo. - Mantenha o código do stream gerado automaticamente.
- No menu Região, selecione a região onde você criou seu perfil de conexão de origem.
- No menu Tipo de origem, selecione o tipo de perfil PostgreSQL.
- No menu Tipo de destino, selecione o tipo de perfil do BigQuery.
- Insira
Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos incluem como configurar o banco de dados de origem e o BigQuery.
Clique em CONTINUAR. O painel Definir o perfil de conexão do PostgreSQL da página Criar stream é exibido.
Especificar informações sobre o perfil de conexão de origem
No menu Perfil de conexão de origem, selecione seu perfil de conexão de origem para o banco de dados do PostgreSQL.
Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.
Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.
Clique em CONTINUAR. O painel Configurar origem da transmissão é exibido na página Criar stream.
Configurar informações sobre o banco de dados de origem para o fluxo
Forneça os nomes do Slot de replicação e da publicação para o banco de dados de origem. O slot de replicação e a publicação foram criados ao configurar o banco de dados PostgreSQL.
Use o menu Objetos a serem incluídos para especificar as tabelas e os esquemas no banco de dados de origem que o Datastream vai replicar no BigQuery. O menu só é carregado se o banco de dados tiver até 5.000 objetos.
Para este guia de início rápido, o Datastream precisa transferir todas as tabelas e esquemas. Selecione Todas as tabelas de todos os esquemas no menu.
Clique em CONTINUAR. O painel Definir o perfil de conexão do BigQuery da página Criar fluxo é exibido.
Selecione um perfil de conexão de destino
No menu Perfil de conexão de destino, selecione seu perfil de conexão de destino para o BigQuery.
Clique em CONTINUAR. O painel Configurar destino do stream é exibido na página Criar stream.
Configurar informações sobre o destino do stream
Escolha a opção Conjunto de dados para cada esquema para que o Datastream crie automaticamente um conjunto de dados no BigQuery para cada esquema no banco de dados de origem.
Selecione o Local em que os conjuntos de dados serão criados no BigQuery. Esse local não precisa ser o mesmo da região em que o fluxo do Datastream foi criado.
Defina o Prefixo como
quickstart-
. O Datastream vai adicionar essa string ao início de cada conjunto de dados que ele cria no BigQuery.Deixe o valor em Modo de gravação de streaming definido como Mesclar. Dessa forma, as tabelas no BigQuery ficam sincronizadas com a origem.
Deixe o valor na lista suspensa Especificar o limite de inatividade dos dados definido como 15 minutos. O BigQuery usa esse valor para decidir o quão desatualizados seus dados podem estar quando consultados.
Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.
Criar o stream
Verifique os detalhes sobre o stream, bem como os perfis de conexão de origem e destino que o stream usará para transferir dados de um banco de dados PostgreSQL de origem para o BigQuery.
Clique emEXECUTAR VALIDAÇÃO para validar o stream. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.
Depois que todas as verificações de validação forem aprovadas, clique em CRIAR.
Na caixa de diálogo Criar stream?, clique em CRIAR.
Iniciar o stream
Na seção anterior do guia de início rápido, você criou um stream, mas ainda não o iniciou. Faça isso agora.
Para este guia de início rápido, é possível criar e iniciar um stream separadamente caso o processo de criação de stream intensifique a carga no banco de dados de origem. Para suspender essa carga, crie o stream sem iniciá-lo e, em seguida, inicie o stream quando ele puder ser gerado.
Ao iniciar o stream, ele pode transferir dados, esquemas e tabelas do banco de dados de origem para o destino.
Acesse a página Streams do Datastream no Console do Google Cloud.
Marque a caixa de seleção à esquerda da transmissão que você quer iniciar. Para este guia de início rápido, use Meu stream.
Clique em INICIAR.
Na caixa de diálogo, clique em INICIAR. O status do stream muda de
Not started
paraStarting
eRunning
.Depois de iniciar um stream, você pode verificar se o Datastream transferiu dados do banco de dados de origem para o destino.
Verificar o stream
Nesta seção, você confirma que o Datastream transfere os dados de todas as tabelas do banco de dados PostgreSQL de origem para o BigQuery.
Acesse a página Streams do Datastream no Console do Google Cloud.
Clique no stream que você criou. Para este guia de início rápido, use Meu stream.
Na página Detalhes do fluxo, clique no link exibido abaixo do campo Caminho de gravação de destino. O BigQuery Studio será aberto em outra guia.
Verifique se você vê conjuntos de dados e tabelas que representam esquemas e tabelas do banco de dados PostgreSQL de origem.
Clique em uma das tabelas para visualizar os dados.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Use o console do Google Cloud para excluir o projeto, o fluxo do Datastream, os perfis de conexão e os conjuntos de dados do BigQuery.
Ao limpar os recursos criados no Datastream, eles não consumirão a cota e você não será cobrado por eles no futuro. As próximas seções descrevem como excluir ou desativar esses recursos.
Excluir o projeto
A maneira mais fácil de eliminar o faturamento é excluir o projeto que você criou para este guia de início rápido.
No console do Cloud, acesse a página Gerenciar recursos:
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
Na caixa de diálogo, insira o ID do projeto e clique em Encerrar para excluí-lo.
Excluir o stream
Acesse a página Streams do Datastream no Console do Google Cloud.
Clique no stream que você quer excluir. Para este guia de início rápido, use Meu stream.
Clique em PAUSAR.
Na caixa de diálogo, clique em PAUSAR.
No painel Status do stream da página Detalhes do stream, verifique se o status do stream é
}Paused
.Clique em EXCLUIR.
Na caixa de diálogo, digite
Delete
no campo de texto e clique em EXCLUIR.
Excluir os perfis de conexão
Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.
Marque a caixa de seleção de cada perfil de conexão que você quer excluir. Para este guia de início rápido, marque as caixas de seleção Meu perfil de conexão de origem e Meu perfil de conexão de destino.
Clique em EXCLUIR.
Na caixa de diálogo, clique em EXCLUIR.
Excluir conjuntos de dados do BigQuery
Acesse a página do BigQuery Studio no console do Google Cloud.
Expanda o nó do projeto em que você criou este guia de início rápido.
Para cada conjunto de dados que você quer excluir, clique no menu Exibir ações e em Excluir.
Na caixa de diálogo, digite
delete
no campo de texto e clique em EXCLUIR.
A seguir
- Saiba mais sobre o Datastream.
- Teste outros recursos do Google Cloud. Veja nossos guias de início rápido.
- Saiba como trabalhar com tabelas de mudança de dados no BigQuery.