Replicação

Com o Cloud Data Fusion Replication, é possível replicar seus dados de maneira contínua e em tempo real de armazenamentos de dados operacionais, como SQL Server e MySQL, para o BigQuery.

Para usar a replicação, crie uma nova instância do Cloud Data Fusion e adicione o aplicativo ou, opcionalmente, adicione-o a uma instância atual. Consulte os tutoriais do MySQL, do SQL Server e do Oracle.

Algumas das vantagens são:

  • Uma interface simples para desenvolvedores de ETL e analistas de dados configurarem jobs de replicação.

  • Ajuda a identificar incompatibilidades de esquema, problemas de conectividade e recursos ausentes antes de iniciar a replicação e, em seguida, fornece ações corretivas.

  • É possível usar os dados operacionais mais recentes em tempo real para análise no BigQuery. Use a replicação baseada em registro diretamente no BigQuery do Microsoft SQL Server (usando o SQL Server CDC) e do MySQL (usando o Registro binário do MySQL) ,

  • A captura de dados alterados (CDC, na sigla em inglês) fornece uma representação dos dados que foram alterados em um stream, permitindo que os cálculos e o processamento se concentrem especificamente nos últimos registros alterados mais recentemente, minimizando a cobrança de saída de dados confidenciais sistemas.

  • Escalonabilidade empresarial para suporte a bancos de dados transacionais de alto volume. Cargas iniciais de dados para o BigQuery são compatíveis com replicação de instantâneos sem inatividade, para preparar o armazenamento de dados para consumir alterações continuamente. Depois que o snapshot inicial é concluído, a replicação contínua de alta capacidade das alterações é iniciada em tempo real. Na visualização pública, o recurso aceita até 50 GB de transações por hora.

  • Os painéis ajudam você a ter insights em tempo real sobre o desempenho da replicação. Isso é útil para identificar gargalos e monitorar SLAs de entrega de dados.

  • Inclui suporte para residência de dados, chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês) e VPC Service Controls. A integração do Cloud Data Fusion dentro do Google Cloud garante o mais alto nível de segurança e privacidade empresarial, disponibilizando os dados mais recentes no seu armazenamento de dados para análise.

Quando a replicação é executada, você é cobrado pelo cluster do Dataproc e gera custos de processamento para o BigQuery. Para otimizar esses custos, recomendamos que você use os preços fixos do BigQuery.

Para mais informações, consulte a página de preços do Cloud Data Fusion.

Entidades de replicação

Entity Descrição
Replicação A replicação é um recurso do Cloud Data Fusion que possibilita replicar dados continuamente de baixa latência de armazenamentos de dados operacionais para armazenamentos de dados analíticos. Crie um job de replicação configurando uma origem e um destino com transformações opcionais.
Origem Lê eventos de alteração de banco de dados, tabela ou coluna e os disponibiliza para processamento adicional em um job de replicação. Um job de replicação contém uma origem, que depende de uma solução de captura de alteração para fornecer as alterações. Pode haver várias fontes para um banco de dados, cada uma com uma solução de captura de alteração diferente. Uma fonte é um módulo conectável que usa a arquitetura de plug-in do CDAP. Se uma origem não estiver disponível para atender às suas necessidades, crie a própria implementando a interface de origem e, em seguida, faça upload dela para o CDAP ou o Cloud Data Fusion.
Target Grava as alterações recebidas de uma origem em um banco de dados de destino. Um job de replicação contém um destino. Um destino é um módulo plugável criado com a arquitetura do plug-in do CDAP. Se um destino não estiver disponível para atender às suas necessidades, crie a própria implementação da interface de destino e, em seguida, faça o upload dela para o CDAP ou o Cloud Data Fusion.
Propriedades de origem Configura a origem, incluindo detalhes da conexão, nomes de tabelas e bancos de dados de origem, credenciais e outras propriedades.
Propriedades de destino Configura o destino, incluindo detalhes da conexão, nomes de bancos de dados e tabelas de destino, credenciais e outras propriedades.
Propriedades do job de replicação Define o job de replicação, incluindo limites de falha, áreas de preparo, notificações e configurações de validação.
Rascunho Um job de replicação salvo parcialmente concluído. Quando a definição do job de replicação estiver concluída, ela poderá ser iniciada.
Eventos Altere os eventos na origem a serem replicados para o destino. Os eventos incluem inserções, atualizações, exclusões e alterações na Linguagem de definição de dados ( DDL, na sigla em inglês).
Inserir Novos registros na origem;
Atualizar Atualize os registros na origem.
Excluir Remoção de registros existentes na origem.
Alteração de DDL Um evento que contém uma alteração de esquema, como uma alteração no tipo ou no nome dos dados.
Registros Os registros operacionais de um job de replicação.
Detalhes do job de replicação Uma página de detalhes com informações do job de replicação, como o estado atual, métricas operacionais, visualização histórica ao longo do tempo, resultados de validação e a configuração.
Painel Uma página que lista o estado de todas as atividades de captura de dados alterados, incluindo capacidade, latência, taxas de falha e resultados de validação.

Ações

Ações Descrição
Implantar Criar um novo job de replicação seguindo um fluxo de IU para especificar uma origem, destino e a configuração deles.
Salvar Salvar um job de replicação parcialmente criado para retomar a criação posteriormente.
Excluir Exclusão de um job de replicação atual. Somente pipelines interrompidos podem ser excluídos.
Início Como iniciar um job de replicação. O job de replicação entrará no estado ativo se houver alterações a serem processadas. Caso contrário, ela entrará no estado de espera.
Parar Como interromper um job de replicação. O job de replicação para de processar as alterações da origem.
Ver registros Visualização de registros de um job de replicação para depuração ou outra análise.
Pesquisa Pesquisar um job de replicação pelo nome, descrição ou outros metadados do job de replicação.
Avaliar Como avaliar o impacto da replicação antes de iniciá-la. A avaliação de um job de replicação gera um relatório de avaliação que sinaliza incompatibilidades de esquema e recursos ausentes.

Monitoramento

Estados de replicadores Descrição
Implantado O job de replicação é implantado, mas não iniciado. Nesse estado, um job de replicação não replica eventos.
Inicial O job de replicação está sendo inicializado e não está pronto para replicar alterações.
Em execução O job de replicação é iniciado e está replicando as alterações.
Interrompido O job de replicação está interrompido.
Falha O job de replicação falhou devido a erros fatais.

Estados das tabelas

Conceito Descrição
Snapshots O job de replicação captura um snapshot do estado atual da tabela antes de replicar as alterações.
Replicando O job de replicação está replicando alterações da tabela de origem para a tabela de destino.
Com falha O job de replicação não consegue replicar as alterações da tabela de origem devido a um erro.

Métrica

Conceito Descrição
Inserções O número de inserções aplicadas à meta no período selecionado.
Atualizações O número de atualizações aplicadas à meta no período selecionado.
Exclusões O número de exclusões aplicadas à meta no período selecionado.
DDL O número de alterações em DDL aplicadas ao destino no período selecionado.
Capacidade O número de eventos e o número de bytes replicados para o destino no período selecionado.
Latência A latência em que os dados são replicados para o destino no período selecionado.

Componentes

Componente Descrição
Serviço supervisiona a orquestração completa de jobs de replicação e fornece recursos para projetar, implantar, gerenciar e monitorar jobs de replicação. Ele é executado dentro do projeto de locatário do Cloud Data Fusion, que está oculto para o usuário. O status é exibido na página "ADMINISTRADOR DO SISTEMA" da IU do Cloud Data Fusion.
Gerenciamento do estado O serviço gerencia o estado de cada job de replicação em um bucket do Cloud Storage no projeto do cliente. O bucket pode ser configurado quando o job de replicação é criado. Ele armazena os deslocamentos atuais e o estado da replicação de cada job de replicação.
Execução Os clusters do Dataproc fornecem o ambiente de execução dos jobs de replicação, que são executados no seu projeto. Os jobs de replicação são executados usando workers CDAP (link em inglês). O tamanho e as características do ambiente de execução são configurados com perfis do Compute Engine.
Banco de dados de origem Seu banco de dados operacional de produção que é replicado para o banco de dados de destino. Esse banco de dados pode estar no local ou no Google Cloud. O Cloud Data Fusion Replication é compatível com bancos de dados de origem MySQL, Microsoft SQL Server e Oracle.
Alterar solução de rastreamento Em vez de ser executado em um agente no banco de dados de origem, o Cloud Data Fusion precisa de uma solução de rastreamento de alterações para ler as alterações no banco de dados de origem. A solução pode ser um componente do banco de dados de origem ou uma solução de terceiros licenciada separadamente. No último caso, a solução de rastreamento de alterações é executada no local, colocada com o banco de dados de origem ou no Google Cloud. Cada origem precisa estar associada a uma solução de rastreamento de alterações.
  1. SQL Server
    • Solução compatível: SQL Server CDC (alterar tabelas de rastreamento)
    • Software adicional: não
    • Licença/custo: N/A.
    • Comentários: SQL Server 2016 disponível e posterior
  2. MySQL
  3. Oracle
Banco de dados de destino O local de destino para replicação e análise. O Cloud Data Fusion é compatível com o banco de dados de destino do BigQuery.
Authentication Os mecanismos de autenticação variam de acordo com o banco de dados de origem ou o software de rastreamento de alterações. Ao usar os recursos integrados de bancos de dados de origem, como SQL Server e MySQL, os logins de banco de dados são usados para autenticação. Ao usar um software de rastreamento de alterações, é utilizado o mecanismo de autenticação do software.

Conectividade

A tabela a seguir descreve as conexões de rede necessárias para a replicação e os mecanismos de segurança que eles usam.

De To Opcional Protocolo Rede Segurança da autenticação Finalidade
Serviço (projeto de locatário) DB de origem Sim Depende da origem de replicação. JDBC para conexão direta com o banco de dados Peering + regras de firewall + VPN/interconexão + roteador Login do banco de dados Necessárias no planejamento, não na execução, tempo Funções: listagem de tabelas, avaliação (etapas opcionais, a replicação pode continuar sem elas)
Serviço (projeto de locatário) Cloud Storage Não API Cloud VPC-SC IAM Gerenciamento de estado: deslocamentos, estados de replicação
Dataproc (seu projeto) DB de origem Não Depende da origem. JDBC para conexão direta com o banco de dados. Peering + regras de firewall + VPN/interconexão + roteador Login do banco de dados Necessário no momento da execução para ler as alterações do banco de dados de origem para replicar para o destino
Dataproc (seu projeto) Cloud Storage Não API Cloud VPC-SC IAM Gerenciamento de estado: deslocamentos, estados de replicação
Dataproc (seu projeto) BigQuery Não API Cloud VPC-SC IAM Necessárias no momento da execução para aplicar alterações do banco de dados de origem ao destino

A seguir