Esta página foi traduzida pela API Cloud Translation.

Como replicar dados do banco de dados Oracle para o BigQuery

Neste tutorial, mostramos como implantar um job que replica continuamente os dados alterados de um banco de dados Oracle para um conjunto de dados do BigQuery usando o Cloud Data Fusion Replication. Esse recurso é desenvolvido pelo Datastream.

Objetivos

Neste tutorial, você aprenderá a:

Configure o banco de dados Oracle para ativar a geração de registros complementares.
Crie e execute um job de replicação do Cloud Data Fusion.
Ver os resultados no BigQuery.

Custos

Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.

Novos usuários do Google Cloud podem estar qualificados para um teste sem custo financeiro.

Quando a replicação é executada, você é cobrado pelo cluster do Dataproc e pelo Cloud Storage, e há custos de processamento referentes ao Datastream e o BigQuery. Para otimizar esses custos, recomendamos usar os preços fixos do BigQuery.

Antes de começar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Crie uma instância pública do Cloud Data Fusion na versão 6.3.0 ou mais recente. Se você criar uma instância particular, configure o peering de rede VPC.
- Ao criar a instância, ative a replicação clicando em Adicionar aceleradores e marcando a caixa de seleção Replicação.
- Para ativar em uma instância atual, consulte Ativar replicação.

Funções exigidas

Para receber as permissões necessárias para se conectar a um banco de dados Oracle, peça ao administrador para conceder a você os seguintes papéis do IAM:

Worker do Dataproc (roles/dataproc.worker) na conta de serviço do Dataproc no projeto que contém o cluster
Executor do Cloud Data Fusion na conta de serviço do Dataproc no projeto que contém o cluster
Administrador do DataStream (roles/datastream.admin) na conta de serviço do Cloud Data Fusion e na conta de serviço do Dataproc

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Opcional: instale o Oracle no Compute Engine

Esta seção mostra como configurar um banco de dados de exemplo. Se você já tiver um banco de dados Oracle instalado, pule esta seção.

Faça o download de uma imagem do Docker do servidor Oracle.

Para limitações desta imagem do Oracle Express Edition 11g, consulte Edições do banco de dados Oracle.
Implante a imagem do Docker em uma nova instância de VM.

Observação: para implantar a imagem na nova instância de VM, o serviço do Compute Engine precisa ter o papel de leitor do Artifact Registry (roles/artifactregistry.reader).
Na página Discos do Compute Engine, altere o tamanho do disco para 500 GB e reinicie a VM.

Acessar "Discos"
Instale o esquema de amostra de RH.

Criar um peering de rede VPC ou uma regra de firewall para o servidor Oracle

Se o banco de dados Oracle não permitir o tráfego de entrada de endereços IP públicos, configure o peering de rede VPC entre a VPC do Datastream e a VPC em que o banco de dados Oracle pode ser acessado. Para mais informações, consulte Criar uma configuração de conectividade privada.

Se o banco de dados Oracle permitir o tráfego de entrada de endereços IP públicos, crie uma regra de firewall para a instância de VM que permita o tráfego de entrada de IPs públicos do Datastream.

Configurar o servidor Oracle para ativar a geração de registros complementares

Siga as etapas para configurar o banco de dados de origem da Oracle.

Criar e executar um job de replicação do Cloud Data Fusion

Crie a tarefa

Na interface da Web do Cloud Data Fusion, clique em Replicação.
Clique em Criar um job de replicação.
Na página Criar novo job de replicação, especifique um Nome para ele e clique em Próxima.
Configure a origem:
1. Selecione Oracle (por Datastream) como a origem.
2. Em mètodo de conectividade, se seu servidor Oracle permitir o tráfego de entrada de IPs públicos do Datastream, escolha Lista de permissões de IP. Caso contrário, em Nome da conexão particular, escolha Conectividade particular (peering de VPC) e insira o nome do peering de VPC que você criou na seção Criar peering de rede VPC ou regra de firewall para o servidor Oracle.
3. Em Host, digite o nome do host do servidor Oracle que será lido.
4. Em Porta, digite a porta que será usada para se conectar ao servidor Oracle: 1521.
5. Em Identidade do sistema, digite xe (o nome do banco de dados de amostra do servidor Oracle).
6. Na seção de credenciais, digite o nome de usuário e a senha para acessar o servidor Oracle.
7. Não mude as outras propriedades.
Clique em Próxima.
Configure o destino:
1. Selecione o destino do BigQuery.
2. O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão como estão.
3. Opcional: na seção Avançado, é possível configurar o seguinte:
  - Nome e local do bucket de preparação
  - Intervalo de carga
  - Prefixo da tabela de teste
  - Comportamento quando tabelas ou bancos de dados são descartados
Clique em Próxima.
Se a conexão for bem-sucedida, uma lista de tabelas será exibida. Para este tutorial, selecione algumas tabelas.

Observação: para continuar, a geração de registros complementar precisa estar ativada nas tabelas selecionadas.
Clique em Próxima.
Na página Analisar avaliação, clique em Visualizar mapeamentos em qualquer uma das tabelas para ver uma avaliação dos problemas de esquema, dos recursos ausentes ou dos problemas de conectividade que podem ocorrem durante a replicação.

Se ocorrer algum problema, ele precisará ser resolvido antes de continuar. Para este tutorial, se alguma das tabelas tiver problemas, faça o seguinte:
1. Volte para a etapa em que você selecionou as tabelas.
2. Selecione uma tabela ou evento (inserções, atualizações ou exclusões) sem problemas.
Para mais informações sobre conversões de tipos de dados do banco de dados de origem para o destino do BigQuery, consulte Tipos de dados de replicação.
Clique em Back.
Clique em Próxima.
Revise o resumo dos detalhes do job de replicação e clique em Implantar job de replicação.

Iniciar o job

Na interface da Web do Cloud Data Fusion, acesse a página de detalhes do job de replicação.
Clique em Iniciar.

O job de replicação é transferido do estado provisionando para Iniciando em Em execução. No estado em execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou no BigQuery. Nesse estado, o estado da tabela é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela são replicadas no BigQuery, e o estado da tabela é listado como Replicação.

Monitorar o job

É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.

É possível monitorar as atividades do job de replicação na página Detalhes do job de replicação.

Na página Replicação, clique no Nome do job de replicação escolhido.
Clique em Monitoring.

Ver os resultados no BigQuery

O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery. Os nomes são herdados dos nomes de bancos de dados e tabelas Oracle correspondentes.

No console Google Cloud , acesse a página BigQuery.
No painel à esquerda, clique no nome do projeto para expandir uma lista de conjuntos de dados.
Selecione o conjunto de dados xe e, depois, uma tabela para visualizar.

Para saber mais, consulte a documentação do Tableau.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, limpe os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir a instância de VM

No console do Google Cloud , acesse a página Instâncias de VM.

Acessar instâncias de VM
Marque a caixa de seleção da instância que será excluída.
Para excluir a instância, clique em Excluir.

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir a instância do Cloud Data Fusion.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir

Saiba mais sobre o Datastream.
Saiba mais sobre replicação no Cloud Data Fusion.
Consulte a referência da API Replication.
Consulte a referência de replicação do Oracle.
Faça o tutorial Como replicar dados do MySQL para o BigQuery.
Siga o tutorial para replicar dados do SQL Server para o BigQuery.