Vista geral da replicação

A replicação do Cloud Data Fusion permite-lhe criar cópias dos seus dados de forma contínua e em tempo real a partir de armazenamentos de dados operacionais, como o SQL Server e o MySQL, para o BigQuery.

Para usar a replicação, escolha uma das seguintes formas:

  • Crie uma nova instância do Cloud Data Fusion e adicione a app Replication.
  • Adicione a app Replication a uma instância existente.

As vantagens incluem:

  • Identifica incompatibilidades de esquemas, problemas de conetividade e funcionalidades em falta antes de iniciar a replicação e, em seguida, fornece ações corretivas.

  • Usar os dados operacionais mais recentes em tempo real para análise no BigQuery. Usa a replicação baseada em registos diretamente no BigQuery a partir do Microsoft SQL Server (com o CDC do SQL Server) e do MySQL (com o registo binário do MySQL).

  • A captura de dados de alterações (CDC) fornece uma representação dos dados que foram alterados numa stream, o que permite que os cálculos e o processamento se concentrem especificamente nos registos alterados mais recentemente. Isto minimiza os custos de dados de saída em sistemas de produção sensíveis.

  • Escalabilidade empresarial que suporta bases de dados transacionais de grande volume. Os carregamentos iniciais de dados para o BigQuery são suportados com a replicação de instantâneos sem tempo de inatividade, para preparar o armazém de dados para o consumo contínuo de alterações. Assim que a captura instantânea inicial estiver concluída, a replicação contínua de alto débito de alterações começa em tempo real.

  • Os painéis de controlo que ajudam a obter estatísticas em tempo real sobre o desempenho da replicação. É útil para identificar gargalos e monitorizar os SLAs de entrega de dados.

  • Incluindo suporte para residência de dados, chaves de encriptação geridas pelo cliente (CMEK) e VPC Service Controls. A integração do Cloud Data Fusion garante que os níveis mais elevados de segurança e privacidade empresarial são observados ao disponibilizar os dados mais recentes no seu data warehouse para análise.Google Cloud

Quando a replicação é executada, é cobrado o cluster do Dataproc e incorre em custos de processamento do BigQuery. Para otimizar estes custos, recomendamos vivamente que use os preços de taxa fixa do BigQuery.

Para mais informações, consulte a página de preços do Cloud Data Fusion.

Entidades de replicação

Entidade Descrição
Replicação A replicação é uma capacidade do Cloud Data Fusion que permite replicar dados continuamente com baixa latência de repositórios de dados operacionais para armazéns de dados analíticos. Crie uma tarefa de replicação configurando uma origem e um destino com transformações opcionais.
Origem Lê eventos de alteração de base de dados, tabela ou coluna e disponibiliza-os para processamento adicional num trabalho de replicação. Uma tarefa de replicação contém uma origem, que depende de uma solução de captura de alterações para fornecer as alterações. Pode haver várias origens para uma base de dados, cada uma com uma solução de captura de alterações diferente. Uma origem é um módulo encaixável criado com a arquitetura de plug-ins do CDAP. Se uma origem não estiver disponível para satisfazer as suas necessidades, pode criar a sua própria implementando a interface de origem e, em seguida, carregá-la para o CDAP ou o Cloud Data Fusion.
Destino Escreve as alterações recebidas de uma origem numa base de dados de destino. Uma tarefa de replicação contém um destino. Um alvo é um módulo encaixável criado com a arquitetura de plug-ins do CDAP. Se um destino não estiver disponível para satisfazer as suas necessidades, pode criar o seu próprio destino implementando a interface de destino e, em seguida, carregá-lo para o CDAP ou o Cloud Data Fusion.
Propriedades de origem Configura a origem, incluindo detalhes da associação, nomes de tabelas e bases de dados de origem, credenciais e outras propriedades.
Propriedades de destino Configura o destino, incluindo detalhes da ligação, nomes de tabelas e bases de dados de destino, credenciais e outras propriedades.
Propriedades da tarefa de replicação Configura a tarefa de replicação, incluindo os limites de falhas, áreas de preparação, notificações e definições de validação.
Rascunho Uma tarefa de replicação guardada e parcialmente concluída. Quando a definição da tarefa de replicação estiver concluída, pode ser iniciada.
Eventos Altere os eventos na origem para serem replicados no destino. Os eventos incluem inserções, atualizações, eliminações e alterações de DDL (Data Definition Language).
Inserir Adição de novos registos na origem.
Atualizar Atualização dos registos existentes na origem.
Eliminar Remoção de registos existentes na origem.
Alteração da LDD Um evento que contém uma alteração do esquema, como uma alteração no tipo de dados ou no nome.
Registos Os registos operacionais de uma tarefa de replicação.
Detalhes da tarefa de replicação Uma página de detalhes com informações sobre a tarefa de replicação, como o estado atual, as métricas operacionais, a vista do histórico ao longo do tempo, os resultados da validação e a respetiva configuração.
Painel de controlo Uma página que lista o estado de todas as atividades de captura de dados de alterações, incluindo débito, latência, taxas de falhas e resultados da validação.

Ações

Ações Descrição
Implementação Criar uma nova tarefa de replicação seguindo um fluxo de interface Web para especificar uma origem, um destino e a respetiva configuração.
Guardar Guardar uma tarefa de replicação criada parcialmente para retomar a criação mais tarde.
Eliminar Eliminar uma tarefa de replicação existente. Só é possível eliminar pipelines parados.
Iniciar A iniciar uma tarefa de replicação. Se existirem alterações a serem processadas, a tarefa de replicação entra no estado "ativa"; caso contrário, entra no estado "a aguardar".
Parar Parar um trabalho de replicação. A tarefa de replicação para de processar alterações da origem.
Ver registos Ver registos de uma tarefa de replicação para depuração ou outra análise.
Pesquisar Pesquisar uma tarefa de replicação pelo respetivo nome, descrição ou outros metadados da tarefa de replicação.
Avalie Avaliar o impacto da replicação antes de a iniciar. A avaliação de uma tarefa de replicação gera um relatório de avaliação que sinaliza incompatibilidades de esquemas e funcionalidades em falta.

Monitorização

Estados do replicador Descrição
Implementado A tarefa de replicação está implementada, mas não foi iniciada. Neste estado, uma tarefa de replicação não replica eventos.
A iniciar O trabalho de replicação está a ser inicializado e não está pronto para replicar alterações.
Em execução A tarefa de replicação é iniciada e está a replicar alterações.
A parar… A tarefa de replicação está a ser interrompida.
Parado A tarefa de replicação está parada.
Com falhas A tarefa de replicação falhou devido a erros fatais.

Estados das tabelas

Conceito Descrição
A tirar instantâneo A tarefa de replicação está a tirar um instantâneo do estado atual da tabela antes de replicar as alterações.
A replicar A tarefa de replicação está a replicar alterações da tabela de origem para a tabela de destino.
Em falha A tarefa de replicação não está a replicar as alterações da tabela de origem devido a um erro.

Métrica

Conceito Descrição
Inserções O número de inserções aplicadas ao destino no período selecionado.
Atualizações O número de atualizações aplicadas ao destino no período selecionado.
Eliminações O número de eliminações aplicadas ao destino no período de tempo selecionado.
DDLs O número de alterações de DDL aplicadas ao destino no período selecionado.
Débito O número de eventos e o número de bytes replicados para o destino no período selecionado.
Latência A latência à qual os dados são replicados para o destino no período selecionado.

Componentes

Componente Descrição
Serviço Supervisiona a orquestração integral das tarefas de replicação e oferece capacidades para conceber, implementar, gerir e monitorizar tarefas de replicação. É executado no projeto de inquilino do Cloud Data Fusion (o projeto de inquilino está oculto do utilizador). O respetivo estado é apresentado na página **Administrador do sistema** da interface Web do Cloud Data Fusion.
Gestão de estados O serviço gere o estado de cada tarefa de replicação num contentor do Cloud Storage no projeto do cliente. O contentor pode ser configurado quando a tarefa de replicação é criada. Armazena os desvios atuais e o estado de replicação de cada tarefa de replicação.
Execução Os clusters do Dataproc fornecem o ambiente de execução de tarefas de replicação, que são executadas no seu projeto. As tarefas de replicação são executadas através de trabalhadores do CDAP. O tamanho e as caraterísticas do ambiente de execução são configurados com perfis do Compute Engine.
Base de dados de origem A sua base de dados operacional de produção que é replicada na base de dados de destino. Esta base de dados pode estar localizada no local ou em Google Cloud. O Cloud Data Fusion Replication suporta bases de dados de origem MySQL, Microsoft SQL Server e Oracle.
Altere a solução de acompanhamento Em vez de ser executado num agente que é executado na base de dados de origem, o Cloud Data Fusion baseia-se numa solução de monitorização de alterações para ler as alterações na base de dados de origem. A solução pode ser um componente da base de dados de origem ou uma solução de terceiros licenciada separadamente. No último caso, a solução de monitorização de alterações é executada no local, colocada com a base de dados de origem ou em Google Cloud. Cada origem tem de estar associada a uma solução de acompanhamento de alterações.
  1. SQL Server
    • Solução suportada: CDC do SQL Server (tabelas de acompanhamento de alterações)
    • Software adicional: não
    • Licença/custo: N/A
    • Comentários: disponível no SQL Server 2016 e posterior
  2. MySQL
  3. Oracle
Base de dados de destino A localização de destino para replicação e análise. O Cloud Data Fusion suporta a base de dados de destino do BigQuery.
Autenticação Os mecanismos de autenticação variam consoante a base de dados de origem ou o software de monitorização de alterações. Quando usa as capacidades incorporadas das bases de dados de origem, como o SQL Server e o MySQL, os inícios de sessão na base de dados são usados para autenticação. Quando usa software de monitorização de alterações, é usado o mecanismo de autenticação do software.

Conetividade

A tabela seguinte descreve as ligações de rede necessárias para a replicação e os mecanismos de segurança que usam.

De Para Opcional Protocolo Rede Segurança de autenticação Finalidade
Serviço (projeto de inquilino) BD de origem Sim Depende da origem da replicação. JDBC para ligação direta à base de dados. Peering + regras de firewall + VPN/Interconnect + router Início de sessão na BD Necessário no momento da conceção, não no momento da execução Funções: lista de tabelas, avaliação (passos opcionais; a replicação pode continuar sem eles)
Serviço (projeto de inquilino) Cloud Storage Não API Cloud VPC-SC IAM Gestão de estado: desvios, estados de replicação
Dataproc (o seu projeto) BD de origem Não Depende da fonte. JDBC para ligação direta à base de dados. Peering + regras de firewall + VPN/Interconnect + router Início de sessão na BD Necessário no momento da execução para ler as alterações da base de dados de origem e replicá-las para o destino
Dataproc (o seu projeto) Cloud Storage Não API Cloud VPC-SC IAM Gestão de estado: desvios, estados de replicação
Dataproc (o seu projeto) BigQuery Não API Cloud VPC-SC IAM Necessário no momento da execução para aplicar alterações da BD de origem à BD de destino

O que se segue?