Neste tutorial, mostramos como criar e implantar um job que replica continuamente os dados alterados de um banco de dados do Microsoft SQL Server para uma tabela do BigQuery.
Objetivos
Neste tutorial, você aprenderá a:
- Ative a captura de dados de alteração (CDC) no seu banco de dados do SQL Server.
- Crie e execute um job de replicação do Cloud Data Fusion.
- Ver os resultados no BigQuery.
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Quando a replicação é executada, você é cobrado pelo cluster do Dataproc e há custos de processamento para o BigQuery. Para otimizar esses custos, recomendamos que você use os preços fixos do BigQuery.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
- Crie uma instância pública do Cloud Data Fusion na versão 6.3.0 ou mais recente. Se você
criar uma instância
particular, configure o peering de rede VPC.
- Ao criar a instância, ative a replicação clicando em Add Accelerators e selecionando a caixa de seleção Replication.
- Para ativar em uma instância atual, consulte Ativar a replicação.
Para mais informações sobre rede, consulte Como usar o HAProxy com o Cloud Data Fusion para navegar em topologias de rede complexas.
Funções exigidas
Para receber as permissões necessárias para este tutorial, consulte Controle de acesso com o IAM e Conceder permissão de usuário da conta de serviço.
Opcional: configurar uma instância de VM do SQL Server
Faça o download do banco de dados AdventureWorks2017 (OLTP) e carregue os dados na sua instância do SQL Server.
Ativar a CDC no banco de dados do SQL Server
Para a replicação, ative a captura de dados de alteração (CDC) no banco de dados e na tabela que você quer replicar.
Criar e executar um job de replicação do Cloud Data Fusion
Fazer upload do driver JDBC
Faça o download do driver JDBC do SQL Server na máquina local.
Na interface da Web do Cloud Data Fusion, faça upload do driver JDBC. Use estes valores para configurar o driver JDBC:
- No campo Nome, use
sqlserver
. - No campo Class Name, digite
com.microsoft.sqlserver.jdbc.SQLServerDriver
. - No campo Versão, mantenha o padrão.
- No campo Nome, use
Criar o job
Na interface da Web do Cloud Data Fusion, clique em Replicação.
Clique em
Criar um job de replicação.Na página Criar novo job de replicação, especifique um Nome para o job de replicação e clique em Próxima.
Configure a origem:
- Selecione Microsoft SQL Server como origem.
- Em Host, digite o nome do host do servidor SQL Server que será lido.
- Em Porta, insira a porta que será usada para se conectar ao SQL Server:
1433
. - Em Nome do plug-in JDBC, selecione
sqlserver
ou o nome que você especificou ao configurar o driver JDBC. - Em Nome do banco de dados, insira
AdventureWorks2017
. - Na seção Credenciais, insira seu nome de usuário e senha para acessar o servidor do SQL Server.
Clique em Próxima.
Configure o destino:
- Selecione o destino do BigQuery.
- O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão.
- Opcional: na seção Avançado, é possível configurar o nome e o local do bucket do Cloud Storage, o intervalo de carregamento, o prefixo da tabela de preparo e o comportamento quando as tabelas ou bancos de dados são descartados.
Clique em Próxima.
Se a conexão for bem-sucedida, uma lista de tabelas
AdventureWorks2017
será exibida. Para este tutorial, selecione algumas tabelas e eventos, comoInsert
,Update
eDelete
.Opcional: configure as propriedades avançadas. Neste tutorial, use as configurações padrão.
Clique em Próxima.
Na página Analisar avaliação, clique em Visualizar mapeamentos em qualquer uma das tabelas para conferir uma avaliação dos problemas de esquema, dos recursos ausentes ou dos problemas de conectividade que podem ocorrer durante a replicação. Os problemas precisam ser resolvidos antes de continuar. Para este tutorial, se alguma das tabelas tiver problemas, volte para a etapa em que você selecionou tabelas e selecione uma tabela ou evento sem problemas.
Para mais informações sobre conversões de tipos de dados do banco de dados de origem para o destino do BigQuery, consulte Tipos de dados de replicação.
Clique em Back.
Clique em Próxima.
Revise o resumo dos detalhes do job de replicação e clique em Implantar job de replicação.
Iniciar o job
- Na página Detalhes do job de replicação, clique em Iniciar.
O job de replicação é transferido do estado Provisionando para Iniciando em Em execução. No estado em execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou (por exemplo, a tabela "Pessoas") no BigQuery. Nesse estado, o estado da tabela "Pessoas" é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela "Pessoa" são replicadas no BigQuery. O estado da tabela é listado como Replicação.
Monitorar o job
É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.
É possível monitorar as atividades do job de replicação na página Detalhes do job de replicação.
Na página Replicação, clique no Nome do job de replicação.
Clique em Monitoring.
Ver os resultados no BigQuery
O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery. Os nomes são herdados dos nomes de bancos de dados e tabelas SQL Server correspondentes.
Abra o BigQuery no console do Google Cloud.
No painel à esquerda, clique no nome do projeto para abrir uma lista de conjuntos de dados.
Selecione o conjunto de dados
adventureworks2017
e, depois, uma tabela para visualizar.
Para mais informações, consulte a documentação do BigQuery.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Depois de concluir o tutorial, exclua os recursos criados em Google Cloud.
Excluir a instância de VM
- In the Google Cloud console, go to the VM instances page.
- Select the checkbox for the instance that you want to delete.
- To delete the instance, click More actions, click Delete, and then follow the instructions.
Excluir a instância do Cloud Data Fusion
Siga as instruções para excluir a instância do Cloud Data Fusion.
Excluir o projeto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
A seguir
- Saiba mais sobre replicação no Cloud Data Fusion.
- Consulte a referência da API Replication.
- Faça o tutorial Como replicar dados do MySQL para o BigQuery.
- Faça o tutorial Como replicar dados do Oracle para o BigQuery.