Neste tutorial, mostramos como criar e implantar um pipeline que replica continuamente dados alterados de um banco de dados do Microsoft SQL Server para uma tabela do BigQuery.
Objetivos
Neste tutorial, você aprenderá a:
- configurar o banco de dados do Microsoft SQL Server para ativar a replicação;
- Criar e executar um job de replicação do Cloud Data Fusion
- Ver os resultados no BigQuery.
Custos
Neste tutorial, usamos os seguintes componentes faturáveis do Google Cloud:
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Quando a replicação é executada, você é cobrado pelo cluster do Dataproc e há custos de processamento para o BigQuery. Para otimizar esses custos, recomendamos que você use os preços fixos do BigQuery.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.
-
Ative as APIs Cloud Data Fusion, BigQuery, and Cloud Storage.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.
-
Ative as APIs Cloud Data Fusion, BigQuery, and Cloud Storage.
- Crie uma instância do SQL Server
- Faça o download do banco de dados AdventureWorks2017 e carregue os dados na instância do SQL Server.
- Crie uma instância privada do Cloud Data Fusion na versão 6.3.0 ou superior. Ao configurar a instância:
- Ative o peering de nuvem privada virtual.
- Ative a replicação clicando em Add Accelerators e selecionando Replication.
- Se o SQL Server estiver sempre ativado, consulte Solução de problemas para ver outras etapas.
Se você usa uma instância atual ou não vê a replicação no menu menu do Cloud Data Fusion, consulte Fazer upgrade para ativar a replicação.
Ativar a replicação no banco de dados do SQL Server
Ative a Captura de dados de alterações (CDC, na sigla em inglês) na instância do SQL Server.
Criar e executar um job de replicação do Cloud Data Fusion
Fazer upload do driver JDBC
Faça o download do driver JDBC do SQL Server na máquina local.
Na IU do Cloud Data Fusion, faça upload do driver JDBC. Use estes valores para configurar o driver JDBC:
- No campo Nome, use
sqlserver
. - No campo Versão, mantenha o padrão.
- No campo Class Name, digite
com.microsoft.sqlserver.jdbc.SQLServerDriver
.
- No campo Nome, use
Criar o pipeline
Na IU do Cloud Data Fusion, clique no menu menu e navegue até a página Studio.
Na página Criar novo job de replicação, especifique um Nome para ele.
Clique em Próxima.
Configure a origem:
- Selecione Microsoft SQL Server como origem.
- Em Host, digite o nome do host do servidor SQL Server que será lido.
- Em Porta, insira a porta que será usada para se conectar ao SQL Server:
1433
. - Em Nome do plug-in JDBC , selecione
sqlserver
(ou o nome que você especificou quando configurou o driver JDBC). - Em Nome do banco de dados, insira
AdventureWorks2017
. - Na seção Credenciais, insira seu nome de usuário e senha para acessar o servidor do SQL Server.
Clique em Próxima.
Se a conexão for bem-sucedida, uma lista de tabelas do AdventureWorks2017 será exibida. Para este tutorial, selecione todas as tabelas e eventos que serão replicados, incluindo os eventos "Inserir", "Atualizar" e "Excluir".
Clique em Próxima.
Configure o destino:
- Selecione o destino do BigQuery.
- O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão.
- (Opcional) Na seção Avançado, é possível configurar o nome e o local do bucket de preparo, o intervalo de carregamento, o prefixo da tabela de preparo e o comportamento quando as tabelas ou bancos de dados são descartados.
Clique em Próxima.
(Opcional) Configure as propriedades avançadas. Neste tutorial, use as configurações padrão.
Clique em Próxima.
Na página Analisar avaliação, clique em Visualizar mapeamentos em qualquer uma das tabelas para ver uma avaliação dos problemas de esquema, dos recursos ausentes ou dos problemas de conectividade que podem ocorrem durante a replicação. Se ocorrer algum problema, ele precisará ser resolvido antes de continuar. Para este tutorial, se alguma das tabelas tiver problemas, volte para a etapa em que você selecionou tabelas e, em vez disso, selecione uma tabela ou evento (inserções, atualizações ou exclusões) sem problemas.
Clique em Back.
Clique em Próxima.
Revise o resumo dos detalhes do job de replicação e clique em Implantar job de replicação.
Iniciar o pipeline
Na página Detalhes do job de replicação:
Clique em Iniciar.
O job de replicação é transferido do estado provisionando para Iniciando em Em execução. No estado em execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou (por exemplo, a tabela "Pessoas") no BigQuery. Nesse estado, o estado da tabela "Pessoas" é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela "Pessoa" são replicadas no BigQuery, e o estado da tabela é listado como Replicação.
Monitorar o pipeline
É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.
É possível monitorar as atividades do job de replicação na página Detalhes do job de replicação.
Na página Replicação, clique no Nome do job de replicação que você quer.
Clique em Monitoring.
Ver os resultados no BigQuery
O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery. Os nomes são herdados dos bancos de dados e nomes de tabelas SQL Server correspondentes.
Abra o BigQuery no Console do Cloud.
No painel esquerdo, clique no nome do projeto para expandir uma lista de conjuntos de dados.
Selecione o conjunto de dados
adventureworks2017
e, depois, uma tabela para visualizar.
Para saber mais, consulte a documentação do Tableau.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.
Excluir a instância de VM
- No console do Cloud, acesse a página Instâncias de VM:
- Marque a caixa de seleção de a instância que você quer excluir.
- Para excluir a instância, clique em Mais ações, clique em Excluir e siga as instruções.
Excluir a instância do Cloud Data Fusion
Siga as instruções para excluir a instância do Cloud Data Fusion.
Excluir o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- No console do Cloud, acesse a página Gerenciar recursos:
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
A seguir
- Saiba mais sobre replicação no Cloud Data Fusion.
- Consulte a referência da API Replication.
- Faça o tutorial Como replicar dados do MySQL para o BigQuery.
- Faça o tutorial Como replicar dados do Oracle para o BigQuery.