Esta página foi traduzida pela API Cloud Translation.

Como replicar dados do banco de dados Oracle para o BigQuery

Neste tutorial, mostramos como implantar um job que replica continuamente os dados alterados de um banco de dados Oracle para um conjunto de dados do BigQuery usando o Cloud Data Fusion Replication. Esse recurso é fornecido pelo Datastream.

Objetivos

Neste tutorial, você aprenderá a:

Configure o banco de dados Oracle para ativar a geração de registros complementares.
Crie e execute um job de replicação do Cloud Data Fusion.
Ver os resultados no BigQuery.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Quando a replicação é executada, você é cobrado pelo cluster do Dataproc e pelo Cloud Storage, e há custos de processamento referentes ao Datastream e ao BigQuery. Para otimizar esses custos, recomendamos que você use os preços fixos do BigQuery.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

Enable the APIs

Crie uma instância pública do Cloud Data Fusion na versão 6.3.0 ou mais recente. Se você criar uma instância particular, configure o peering de rede VPC.
- Ao criar a instância, ative a replicação clicando em Add Accelerators e selecionando a caixa de seleção Replication.
- Para ativar em uma instância atual, consulte Ativar a replicação.

Funções exigidas

Para receber as permissões necessárias para se conectar a um banco de dados do Oracle, peça ao administrador para conceder a você os seguintes papéis do IAM:

Worker do Dataproc (roles/dataproc.worker) na conta de serviço do Dataproc no projeto que contém o cluster
Executor do Cloud Data Fusion na conta de serviço do Dataproc no projeto que contém o cluster
Administrador do DataStream (roles/datastream.admin) na conta de serviço do Cloud Data Fusion e do Dataproc

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Opcional: instalar o Oracle no Compute Engine

Esta seção mostra como configurar um banco de dados de exemplo. Se você já tiver um banco de dados Oracle instalado, pule esta seção.

Faça o download de uma imagem do Docker do servidor Oracle.

Para ver as limitações dessa imagem do Oracle Express Edition 11g, consulte Edições do banco de dados Oracle.
Implante a imagem do Docker em uma nova instância de VM.

Observação: para implantar a imagem na nova instância de VM, o serviço do Compute Engine precisa ter a função de leitor do Artifact Registry (roles/artifactregistry.reader).
Na página Discos do Compute Engine, altere o tamanho do disco para 500 GB e reinicie a VM.

Acessar "Discos"
Instale o esquema de amostra de RH.

Criar um peering de rede VPC ou uma regra de firewall para o servidor Oracle

Se o banco de dados Oracle não permitir o tráfego de entrada de endereços IP públicos, configure o peering de rede VPC entre a VPC do Datastream e a VPC em que o banco de dados Oracle pode ser acessado. Para mais informações, consulte Criar uma configuração de conectividade particular.

Se o banco de dados Oracle permitir o tráfego de entrada de endereços IP públicos, crie uma regra de firewall para que a instância de VM permita o tráfego de entrada de IPs públicos do Datastream.

Configurar o servidor Oracle para ativar a geração de registros complementares

Siga as etapas para configurar o banco de dados de origem da Oracle.

Criar e executar um job de replicação do Cloud Data Fusion

Criar o job

Na interface da Web do Cloud Data Fusion, clique em Replicação.
Clique em Criar um job de replicação.
Na página Criar novo job de replicação, especifique um Nome para o job de replicação e clique em Próxima.
Configure a origem:
1. Selecione Oracle (por Datastream) como a origem.
2. Em mètodo de conectividade, se seu servidor Oracle permitir o tráfego de entrada de IPs públicos do Datastream, escolha Lista de permissões de IP. Caso contrário, em Nome da conexão particular, escolha Conectividade particular (peering de VPC) e insira o nome do peering de VPC que você criou na seção Criar peering de rede VPC ou regra de firewall para o servidor Oracle.
3. Em Host, digite o nome do host do servidor Oracle que será lido.
4. Em Porta, digite a porta que será usada para se conectar ao servidor Oracle: 1521.
5. Em Identidade do sistema, digite xe (o nome do banco de dados de amostra do servidor Oracle).
6. Na seção de credenciais, digite o nome de usuário e a senha para acessar o servidor Oracle.
7. Não mude as outras propriedades.
Clique em Próxima.
Configure o destino:
1. Selecione o destino do BigQuery.
2. O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão como estão.
3. Opcional: na seção Avançado, é possível configurar o seguinte:
  - Nome e local do bucket de preparação
  - Intervalo de carregamento
  - Prefixo da tabela de preparação
  - Comportamento quando tabelas ou bancos de dados são excluídos
Clique em Próxima.
Se a conexão for bem-sucedida, uma lista de tabelas será exibida. Para este tutorial, selecione algumas tabelas.

Observação: para continuar, ative a geração de registros adicional nas tabelas selecionadas.
Clique em Próxima.
Na página Analisar avaliação, clique em Visualizar mapeamentos em qualquer uma das tabelas para ver uma avaliação dos problemas de esquema, dos recursos ausentes ou dos problemas de conectividade que podem ocorrem durante a replicação.

Se ocorrer algum problema, ele precisará ser resolvido antes de continuar. Para este tutorial, se alguma das tabelas tiver problemas, faça o seguinte:
1. Volte para a etapa em que você selecionou as tabelas.
2. Selecione uma tabela ou evento (inserções, atualizações ou exclusões) sem problemas.
Para mais informações sobre conversões de tipos de dados do banco de dados de origem para o destino do BigQuery, consulte Tipos de dados de replicação.
Clique em Back.
Clique em Próxima.
Revise o resumo dos detalhes do job de replicação e clique em Implantar job de replicação.

Iniciar o job

Na interface da Web do Cloud Data Fusion, acesse a página de detalhes do job de replicação.
Clique em Iniciar.

O job de replicação é transferido do estado Provisionando para Iniciando em Em execução. No estado em execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou no BigQuery. Nesse estado, o estado da tabela é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela são replicadas no BigQuery, e o estado da tabela é listado como Replicação.

Monitorar o job

É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.

É possível monitorar as atividades do job de replicação na página Detalhes do job de replicação.

Na página Replicação, clique no Nome do job de replicação que você quer.
Clique em Monitoring.

Ver os resultados no BigQuery

O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery. Os nomes são herdados dos nomes de bancos de dados e tabelas Oracle correspondentes.

No console do Google Cloud, acesse a página do BigQuery.
No painel à esquerda, clique no nome do projeto para abrir uma lista de conjuntos de dados.
Selecione o conjunto de dados xe e, depois, uma tabela para visualizar.

Para saber mais, consulte a documentação do Tableau.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, limpe os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir a instância de VM

No console do Google Cloud, acesse a página Instâncias de VMs.

Acessar instâncias de VM
Marque a caixa de seleção da instância que será excluída.
Para excluir a instância, clique em Excluir.

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir a instância do Cloud Data Fusion.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir

Saiba mais sobre o Datastream.
Saiba mais sobre replicação no Cloud Data Fusion.
Consulte a referência da API Replication.
Consulte a referência de replicação do Oracle.
Faça o tutorial Como replicar dados do MySQL para o BigQuery.
Siga o tutorial para replicar dados do SQL Server para o BigQuery.