Como replicar dados do banco de dados Oracle para o BigQuery


Neste tutorial, mostramos como implantar um job que replica continuamente os dados alterados de um banco de dados Oracle para um conjunto de dados do BigQuery usando o Cloud Data Fusion Replication. Esse recurso tem a tecnologia do Datastream.

Objetivos

Neste tutorial, você aprenderá a:

  1. Configure o banco de dados Oracle para ativar a geração de registros complementares.
  2. Criar e executar um job de replicação do Cloud Data Fusion.
  3. Ver os resultados no BigQuery.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Quando a replicação é executada, você recebe cobranças pelo cluster do Dataproc e pelo Cloud Storage, além de custos de processamento para o Datastream e o BigQuery. Para otimizar esses custos, recomendamos o preço fixo do BigQuery.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Crie uma instância pública do Cloud Data Fusion na versão 6.3.0 ou posterior. Se você criar uma instância particular, configure o peering de rede VPC.
    • Ao criar a instância, ative a replicação clicando em Adicionar aceleradores e marcando a caixa de seleção Replicação.
    • Para ativá-la em uma instância atual, consulte Ativar replicação.

Funções exigidas

Para ter as permissões necessárias para se conectar a um banco de dados Oracle, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Talvez você também consiga receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Opcional: instalar o Oracle no Compute Engine

Nesta seção, mostramos como configurar um banco de dados de exemplo. Se você já tiver um banco de dados Oracle instalado, pule esta seção.

  1. Faça o download de uma imagem do Docker do servidor Oracle.

    Para ver as limitações dessa imagem do Oracle Express Edition 11g, consulte Oracle Database Editions.

  2. Implante a imagem do Docker em uma nova instância de VM.

  3. Na página Discos do Compute Engine, altere o tamanho do disco para 500 GB e reinicie a VM.

    Acessar "Discos"

  4. Instale o esquema de amostra de RH.

Criar um peering de rede VPC ou uma regra de firewall para o servidor Oracle

Se o Oracle Database não permitir o tráfego de entrada de endereços IP públicos, configure o peering de rede VPC entre a VPC do Datastream e a VPC em que o banco de dados Oracle pode ser acessado. Para mais informações, consulte Criar uma configuração de conectividade particular.

Se o banco de dados Oracle permitir tráfego de entrada de endereços IP públicos, crie uma regra de firewall para a instância de VM a fim de permitir o tráfego de entrada de IPs públicos do Datastream.

Configurar o servidor Oracle para ativar a geração de registros complementares

Siga as etapas para configurar o banco de dados de origem da Oracle.

Criar e executar um job de replicação do Cloud Data Fusion

Crie a tarefa

  1. Na interface da Web do Cloud Data Fusion, clique em Replicação.

  2. Clique em Criar um job de replicação.

  3. Na página Criar novo job de replicação, especifique o Nome de um job de replicação e clique em Próxima.

  4. Configure a origem:

    1. Selecione Oracle (por Datastream) como a origem.

    2. Em mètodo de conectividade, se seu servidor Oracle permitir o tráfego de entrada de IPs públicos do Datastream, escolha Lista de permissões de IP. Caso contrário, em Nome da conexão particular, escolha Conectividade particular (peering de VPC) e insira o nome do peering de VPC criado na seção Criar peering de rede VPC ou regra de firewall para o servidor Oracle.

    3. Em Host, digite o nome do host do servidor Oracle a ser lido.

    4. Em Porta, insira a porta a ser usada para se conectar ao servidor Oracle: 1521.

    5. Em Identidade do sistema, digite xe (o nome do banco de dados de amostra do servidor Oracle).

    6. Na seção de credenciais, digite o nome de usuário e a senha para acessar o servidor Oracle.

    7. Não mude as outras propriedades.

  5. Clique em Próxima.

  6. Configure o destino:

    1. Selecione o destino do BigQuery.

    2. O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão como estão.

    3. Opcional: na seção Avançado, é possível configurar o seguinte:

      • Nome e local do bucket de preparo
      • Intervalo de carregamento
      • Prefixo da tabela de preparo
      • Comportamento quando tabelas ou bancos de dados são descartados
  7. Clique em Próxima.

  8. Se a conexão for bem-sucedida, uma lista de tabelas será exibida. Para este tutorial, selecione algumas tabelas.

  9. Clique em Próxima.

  10. Na página Analisar avaliação, clique em Visualizar mapeamentos em qualquer uma das tabelas para ver uma avaliação dos problemas de esquema, dos recursos ausentes ou dos problemas de conectividade que podem ocorrem durante a replicação.

    Se ocorrer algum problema, será necessário resolvê-lo antes de continuar. Neste tutorial, se alguma das tabelas tiver problemas, faça o seguinte:

    1. Volte para a etapa em que você selecionou as tabelas.
    2. Selecione uma tabela ou evento (inserções, atualizações ou exclusões) sem problemas.

    Para mais informações sobre conversões de tipos de dados do banco de dados de origem para o destino do BigQuery, consulte Tipos de dados de replicação.

  11. Clique em Back.

  12. Clique em Próxima.

  13. Analise os detalhes resumidos do job de replicação e clique em Implantar job de replicação.

Iniciar o job

  1. Na interface da Web do Cloud Data Fusion, acesse a página de detalhes do job de replicação.

  2. Clique em Iniciar.

O job de replicação passa do estado Provisionando para Iniciando para Em execução. No estado de execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou no BigQuery. Nesse estado, o estado da tabela é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela são replicadas no BigQuery, e o estado da tabela é listado como Replicação.

Monitorar o job

É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.

É possível monitorar as atividades do job de replicação na página de detalhes do job de replicação.

  1. Na página Replicação, clique no Nome do job de replicação desejado.

  2. Clique em Monitoring.

Ver os resultados no BigQuery

O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery, com nomes herdados dos nomes correspondentes do banco de dados e da tabela do Oracle.

  1. No console do Google Cloud, acesse a página do BigQuery.

  2. No painel esquerdo, clique no nome do seu projeto para abrir uma lista de conjuntos de dados.

  3. Selecione o conjunto de dados xe e, depois, uma tabela para visualizar.

Para saber mais, consulte a documentação do Tableau.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir a instância de VM

  1. No console do Google Cloud, acesse a página Instâncias de VMs.

    Acessar instâncias de VM

  2. Marque a caixa de seleção da instância que será excluída.

  3. Para excluir a instância, clique em Excluir.

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir sua instância do Cloud Data Fusion.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto, faça o seguinte:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir