Como replicar dados do banco de dados Oracle para o BigQuery

Neste tutorial, mostramos como implantar um job que replica continuamente os dados alterados de um banco de dados Oracle em um conjunto de dados do BigQuery usando o Cloud Data Fusion Replication. Este recurso tem a tecnologia do Datastream, o provedor de alterações nativo da nuvem e o serviço de replicação do Google Cloud.

Objetivos

Neste tutorial, você aprenderá a:

  1. Configure o banco de dados Oracle para ativar a geração de registros complementares.
  2. Criar e executar um job de replicação do Cloud Data Fusion
  3. Ver os resultados no BigQuery.

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, a saber:

Quando a replicação é executada, você é cobrado pelo cluster do Dataproc e pelo Cloud Storage, e há custos de processamento para o Datastream e o BigQuery. Para otimizar esses custos, recomendamos que você use o preço fixo do BigQuery.

Use a calculadora de preços para gerar uma estimativa de custos baseada na projeção de uso. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage.

    Ative as APIs

  5. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  7. Ative as APIs Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage.

    Ative as APIs

  8. Crie uma instância privada do Cloud Data Fusion na versão 6.4.0 ou superior. Ao configurar a instância:

Se você usa uma instância atual ou não vê a replicação no menu do Cloud Data Fusion, consulte Fazer upgrade para ativar a replicação.

Instalar o Oracle no Compute Engine

Esta seção (opcional) mostra como configurar um banco de dados de exemplo. Se você já tiver configurado seu próprio banco de dados em outro lugar, pule esta seção. O Datastream é compatível apenas com versões específicas do banco de dados Oracle.

  1. Faça o download de uma imagem do Docker do Oracle Server. Esta é uma edição expressa de Oracle 11g. Ele tem limitações de capacidade. Consulte Edições do banco de dados Oracle para detalhes.

  2. Faça upload da imagem do Docker para o Container Registry.

  3. Implante a imagem do Docker em uma nova instância de VM. Ao criar a VM, altere o tamanho do disco para 500 GB.

  4. Instale o esquema de amostra de RH.

Configurar o Oracle Server para ativar a geração de registros complementares

Siga as etapas para configurar o banco de dados Oracle de origem.

Conceda permissões para contas de serviço

Conceda à conta de serviço do Cloud Data Fusion e à conta de serviço do Dataproc a permissão para chamar a API Datastream e acessar o Cloud Storage.

  1. No Console do Cloud, acesse a página IAM.

    Acessar a página do IAM

  2. Na tabela de permissões, na coluna Principais, encontre a conta de serviço do Cloud Data Fusion que corresponde ao formato service-customer-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Clique em Editar, à direita da conta de serviço.

  4. Clique em Adicionar outro papel.

  5. Clique em Selecionar papel.

  6. Use a barra de pesquisa para procurar e selecionar Administrador do Datastream.

    Configuration do HBase.

  7. Clique em Save.

  8. Verifique se Administrador do Datastream aparece na coluna Papel da tabela "Permissões".

  9. Repita esta seção para conceder permissão à conta de serviço do Dataproc:

    1. No Console do Cloud, acesse a página IAM. Acessar a página do IAM

    2. Na tabela de permissões, na coluna "Principal", localize a conta de serviço da VM do Dataproc que corresponde ao formato <project-number>-compute@developer.gserviceaccount.com.

    3. Repita as etapas 3 a 8 acima.

Para mais informações sobre contas de serviço e chaves de conta de serviço, consulte Como criar e gerenciar chaves de conta de serviço.

Crie um peering de rede VPC ou uma regra de firewall para o servidor Oracle

Se o banco de dados Oracle não permitir o tráfego de entrada de IPs públicos, será necessário configurar o peering de VPC entre a VPC do Datastream e a VPC em que o banco de dados Oracle pode ser acessado. Consulte os detalhes em Criar uma configuração de conectividade privada.

Se o banco de dados Oracle permitir o tráfego de entrada de IPs públicos, crie uma regra de firewall para a instância de VM para permitir o tráfego de entrada de IPs públicos do Datastream. de dados.

Criar e executar um job de replicação do Cloud Data Fusion

  1. Na IU da Web do Cloud Data Fusion, clique em Hub no canto superior direito.

  2. Clique em Oracle via Datastream Replication Plugin e clique em Deploy.

  3. Na janela Implantar exibida, clique em Concluir.

Criar o pipeline

  1. Na IU do Cloud Data Fusion, clique no menu e navegue até a página Replicação. Clique no botão de círculo verde no canto superior direito.

  2. Na página Criar novo job de replicação, especifique um Nome do job de replicação. Como opção, especifique uma descrição.

  3. Clique em Próxima.

  4. Configure a origem:

    1. Selecione Oracle (por Datastream) como a origem.

    2. Em Connectivity Method, se seu servidor Oracle permitir o tráfego de entrada de IPs públicos do Datastream, escolha IP allowlisting. Caso contrário, em Nome da conexão privada, escolha Conectividade privada (peering de VPC) e insira o nome do peering de VPC que você criou em Criar peering de VPC ou Regra de firewall para a seção do Oracle Server.

    3. Em Host, digite o nome do host do servidor Oracle para ler.

    4. Em Port, digite a porta a ser usada para se conectar ao Oracle Server: 1521.

    5. Em Identidade do sistema, insira xe (o nome do banco de dados de amostra do servidor Oracle).

    6. Na seção de credenciais, digite o nome de usuário e a senha para acessar o Oracle Server.

    7. Não mude as outras propriedades.

  5. Clique em Next.

  6. Se a conexão for bem-sucedida, uma lista de tabelas em Esquema de amostra de RH será exibida. Neste tutorial, selecione todas as tabelas e eventos a serem replicados, incluindo os eventos "Insert", "Update" e "Delete".

  7. Clique em Next.

  8. Configure o destino:

    1. Selecione o destino do BigQuery.

    2. O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão como estão.

    3. (Opcional) Na seção Avançado, é possível configurar o nome e o local do bucket de preparo, o intervalo de carregamento, o prefixo da tabela de preparo e o comportamento quando as tabelas ou bancos de dados são descartados.

  9. Clique em Next.

  10. (Opcional) Configure as propriedades avançadas. Neste tutorial, use as configurações padrão.

  11. Clique em Next.

  12. Na página de avaliação, clique em Ver mapeamentos em qualquer uma das tabelas para acessar uma avaliação dos problemas do esquema, dos recursos ausentes ou dos problemas de conectividade. ocorrer durante a replicação. Se ocorrerem problemas, eles precisarão ser resolvidos antes de continuar. Para este tutorial, se alguma das tabelas tiver problemas, volte para a etapa em que você selecionou tabelas e, em vez disso, selecione uma tabela ou evento (inserções, atualizações ou exclusões) sem problemas.

  13. Clique em Back.

  14. Clique em Next.

  15. Revise o resumo dos detalhes do job de replicação e clique em Implantar job de replicação.

Iniciar o job

Na página Detalhes do job de replicação:

Clique em Iniciar.

O job de replicação é transferido do estado provisionando para Iniciando em Em execução. No estado em execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou no BigQuery. Nesse estado, o estado da tabela é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela são replicadas no BigQuery, e o estado da tabela é listado como Replicação.

Monitorar o job

É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.

É possível monitorar as atividades do job de replicação na página Detalhes do job de replicação.

  1. Na página Replicação, clique no Nome do job de replicação que você quer.

  2. Clique em Monitoring.

Ver os resultados no BigQuery

O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery. Os nomes são herdados dos respectivos bancos de dados e nomes de tabelas da Oracle.

  1. Abra o BigQuery no Console do Cloud.

  2. No painel esquerdo, clique no nome do projeto para expandir uma lista de conjuntos de dados.

  3. Selecione o conjunto de dados xe e selecione uma tabela para visualizar.

Para saber mais, consulte a documentação do BigQuery.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir a instância de VM

  1. No Console do Cloud, acesse a página "Instâncias de VM".

    Acessar instâncias de VM

  2. Marque a caixa de seleção da instância a ser excluída.

  3. Para excluir a instância, clique em "Excluir".

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir a instância do Cloud Data Fusion.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluir o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir