Como replicar dados do MySQL para o BigQuery

Neste tutorial, mostramos como criar e implantar um job que replica continuamente dados alterados de um banco de dados MySQL para uma tabela do BigQuery.

Objetivos

Neste tutorial, você aprenderá a:

Implante o banco de dados MySQL no Compute Engine.
Configure seu banco de dados MySQL para ativar a replicação.
Criar e executar um job de replicação do Cloud Data Fusion.
Ver os resultados no BigQuery.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Quando a replicação é executada, você recebe cobranças pelo cluster do Dataproc e custos de processamento para o BigQuery. Para otimizar esses custos, recomendamos que você use os preços fixos do BigQuery.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.

Enable the APIs

Crie uma instância pública do Cloud Data Fusion na versão 6.3.0 ou posterior. Se você criar uma instância particular, configure o peering de rede VPC.
- Ao criar a instância, ative a replicação clicando em Adicionar aceleradores e marcando a caixa de seleção Replicação.
- Para ativá-la em uma instância atual, consulte Ativar replicação.

Funções exigidas

Para receber as permissões necessárias para este tutorial, consulte Controle de acesso com o IAM e Conceder permissão de usuário à conta de serviço.

Instalar o MySQL no Compute Engine

Faça o download de uma imagem do Docker do MySQL Server.
Faça upload da imagem do Docker para o Artifact Registry.
Implante a imagem do Docker em uma nova instância de VM.

Observação: para implantar a imagem na nova instância de VM, o serviço Compute Engine precisa ter o papel de leitor do Artifact Registry (roles/artifactregistry.reader).
Na página Discos do Compute Engine, altere o tamanho do disco para 500 GB e reinicie a VM.

Acessar "Discos"
Crie um firewall para a instância de VM.
Instale o banco de dados de amostra Sakila.

Ativar a replicação no banco de dados MySQL

Para ativar a replicação, configure a captura de dados alterados (CDC) no MySQL.

Criar e executar um job de replicação do Cloud Data Fusion

Fazer upload do driver JDBC

Faça o download do driver JDBC do MySQL (versão 8 ou superior) para a máquina local.
Na interface da Web do Cloud Data Fusion, faça upload do driver JDBC.

Use estes valores para configurar o driver JDBC:
- No campo Nome, use mysql.
- No campo Versão, mantenha o padrão.
- No campo Class Name, digite com.mysql.jdbc.Driver.

Crie a tarefa

Na interface da Web do Cloud Data Fusion, clique em Replicação.
Clique em Criar um job de replicação.
Na página Criar novo job de replicação, especifique o Nome de um job de replicação e clique em Próxima.
Configure a origem:
1. Selecione MySQL como a origem.
2. Em Host, digite o nome do host do servidor MySQL para ler.
3. Em Porta, insira a porta a ser usada para se conectar ao servidor MySQL: 3306.
4. Em Nome do plug-in JDBC , selecione mysql ou o nome que você especificou quando configurou o driver JDBC.
5. Em Nome do banco de dados, insira sakila.
6. Na seção Credenciais, insira seu nome de usuário e senha para acessar o servidor MySQL.
Clique em Próxima.
Configure o destino:
1. Selecione o destino do BigQuery.
2. O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão.
3. Opcional: na seção Avançado, configure o nome do bucket de preparo, o local, o intervalo de carregamento, o prefixo da tabela de preparo e o comportamento quando tabelas ou bancos de dados são descartados.
Clique em Próxima.
Se a conexão for bem-sucedida, uma lista de tabelas de banco de dados de amostra da Sakila será exibida. Para este tutorial, selecione algumas tabelas e eventos para replicar, como os de "Inserir", "Atualizar" e "Excluir".
Opcional: configure as propriedades avançadas. Neste tutorial, use as configurações padrão.
Clique em Próxima.
Na página Revisar avaliação, clique em Visualizar mapeamentos ao lado de qualquer uma das tabelas para uma avaliação de problemas de esquema, recursos ausentes ou problemas de conectividade que podem ocorrer durante a replicação. Se ocorrerem problemas, eles precisarão ser resolvidos antes de você continuar. Para este tutorial, se alguma das tabelas tiver problemas, volte para a etapa em que você selecionou tabelas e escolha tabelas ou eventos (inserções, atualizações ou exclusões) sem problemas.

Para mais informações sobre conversões de tipos de dados do banco de dados de origem para o destino do BigQuery, consulte Tipos de dados de replicação.
Clique em Próxima.
Analise os detalhes resumidos do job de replicação e clique em Implantar job de replicação.

Iniciar o job

Na página Detalhes do job de replicação, clique em Iniciar.

O job de replicação passa do estado Provisionando para Iniciando para Em execução. No estado de execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou no BigQuery. Nesse estado, o estado da tabela é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela são replicadas no BigQuery, e o estado da tabela é listado como Replicação.

Monitorar o job

É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.

É possível monitorar as atividades do job de replicação na página Detalhes do job de replicação.

Na página Replicação, clique no Nome do job de replicação.
Clique em Monitoring.

Ver os resultados no BigQuery

O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery, com nomes herdados do banco de dados MySQL e nomes da tabela correspondentes.

No console do Google Cloud, acesse a página do BigQuery.

Acessar o BigQuery
No painel esquerdo, selecione o nome do seu projeto para expandir uma lista de conjuntos de dados.
Para acessar os resultados, selecione o conjunto de dados sakila e uma tabela.

Para saber mais, consulte a documentação do Tableau.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir a instância do Cloud Data Fusion.

Excluir o projeto

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir

Saiba mais sobre replicação no Cloud Data Fusion.
Consulte a referência da API Replication.
Siga o tutorial para replicar dados do SQL Server para o BigQuery.
Faça o tutorial Como replicar dados do Oracle para o BigQuery.