Esta página foi traduzida pela API Cloud Translation.

Vista geral da replicação

A replicação do Cloud Data Fusion permite-lhe criar cópias dos seus dados de forma contínua e em tempo real a partir de armazenamentos de dados operacionais, como o SQL Server e o MySQL, para o BigQuery.

Para usar a replicação, escolha uma das seguintes formas:

Crie uma nova instância do Cloud Data Fusion e adicione a app Replication.
Adicione a app Replication a uma instância existente.

As vantagens incluem:

Identifica incompatibilidades de esquemas, problemas de conetividade e funcionalidades em falta antes de iniciar a replicação e, em seguida, fornece ações corretivas.
Usar os dados operacionais mais recentes em tempo real para análise no BigQuery. Usa a replicação baseada em registos diretamente no BigQuery a partir do Microsoft SQL Server (com o CDC do SQL Server) e do MySQL (com o registo binário do MySQL).
A captura de dados de alterações (CDC) fornece uma representação dos dados que foram alterados numa stream, o que permite que os cálculos e o processamento se concentrem especificamente nos registos alterados mais recentemente. Isto minimiza os custos de dados de saída em sistemas de produção sensíveis.
Escalabilidade empresarial que suporta bases de dados transacionais de grande volume. Os carregamentos iniciais de dados para o BigQuery são suportados com a replicação de instantâneos sem tempo de inatividade, para preparar o armazém de dados para o consumo contínuo de alterações. Assim que a captura instantânea inicial estiver concluída, a replicação contínua de alto débito de alterações começa em tempo real.
Os painéis de controlo que ajudam a obter estatísticas em tempo real sobre o desempenho da replicação. É útil para identificar gargalos e monitorizar os SLAs de entrega de dados.
Incluindo suporte para residência de dados, chaves de encriptação geridas pelo cliente (CMEK) e VPC Service Controls. A integração do Cloud Data Fusion garante que os níveis mais elevados de segurança e privacidade empresarial são observados ao disponibilizar os dados mais recentes no seu data warehouse para análise.Google Cloud

Preços recomendados

Quando a replicação é executada, é cobrado o cluster do Dataproc e incorre em custos de processamento do BigQuery. Para otimizar estes custos, recomendamos vivamente que use os preços de taxa fixa do BigQuery.

Para mais informações, consulte a página de preços do Cloud Data Fusion.

Entidades de replicação

Entidade	Descrição
Replicação	A replicação é uma capacidade do Cloud Data Fusion que permite replicar dados continuamente com baixa latência de repositórios de dados operacionais para armazéns de dados analíticos. Crie uma tarefa de replicação configurando uma origem e um destino com transformações opcionais.
Origem	Lê eventos de alteração de base de dados, tabela ou coluna e disponibiliza-os para processamento adicional num trabalho de replicação. Uma tarefa de replicação contém uma origem, que depende de uma solução de captura de alterações para fornecer as alterações. Pode haver várias origens para uma base de dados, cada uma com uma solução de captura de alterações diferente. Uma origem é um módulo encaixável criado com a arquitetura de plug-ins do CDAP. Se uma origem não estiver disponível para satisfazer as suas necessidades, pode criar a sua própria implementando a interface de origem e, em seguida, carregá-la para o CDAP ou o Cloud Data Fusion.
Destino	Escreve as alterações recebidas de uma origem numa base de dados de destino. Uma tarefa de replicação contém um destino. Um alvo é um módulo encaixável criado com a arquitetura de plug-ins do CDAP. Se um destino não estiver disponível para satisfazer as suas necessidades, pode criar o seu próprio destino implementando a interface de destino e, em seguida, carregá-lo para o CDAP ou o Cloud Data Fusion.
Propriedades de origem	Configura a origem, incluindo detalhes da associação, nomes de tabelas e bases de dados de origem, credenciais e outras propriedades.
Propriedades de destino	Configura o destino, incluindo detalhes da ligação, nomes de tabelas e bases de dados de destino, credenciais e outras propriedades.
Propriedades da tarefa de replicação	Configura a tarefa de replicação, incluindo os limites de falhas, áreas de preparação, notificações e definições de validação.
Rascunho	Uma tarefa de replicação guardada e parcialmente concluída. Quando a definição da tarefa de replicação estiver concluída, pode ser iniciada.
Eventos	Altere os eventos na origem para serem replicados no destino. Os eventos incluem inserções, atualizações, eliminações e alterações de DDL (Data Definition Language).
Inserir	Adição de novos registos na origem.
Atualizar	Atualização dos registos existentes na origem.
Eliminar	Remoção de registos existentes na origem.
Alteração da LDD	Um evento que contém uma alteração do esquema, como uma alteração no tipo de dados ou no nome.
Registos	Os registos operacionais de uma tarefa de replicação.
Detalhes da tarefa de replicação	Uma página de detalhes com informações sobre a tarefa de replicação, como o estado atual, as métricas operacionais, a vista do histórico ao longo do tempo, os resultados da validação e a respetiva configuração.
Painel de controlo	Uma página que lista o estado de todas as atividades de captura de dados de alterações, incluindo débito, latência, taxas de falhas e resultados da validação.

Ações

Ações	Descrição
Implementação	Criar uma nova tarefa de replicação seguindo um fluxo de interface Web para especificar uma origem, um destino e a respetiva configuração.
Guardar	Guardar uma tarefa de replicação criada parcialmente para retomar a criação mais tarde.
Eliminar	Eliminar uma tarefa de replicação existente. Só é possível eliminar pipelines parados.
Iniciar	A iniciar uma tarefa de replicação. Se existirem alterações a serem processadas, a tarefa de replicação entra no estado "ativa"; caso contrário, entra no estado "a aguardar".
Parar	Parar um trabalho de replicação. A tarefa de replicação para de processar alterações da origem.
Ver registos	Ver registos de uma tarefa de replicação para depuração ou outra análise.
Pesquisar	Pesquisar uma tarefa de replicação pelo respetivo nome, descrição ou outros metadados da tarefa de replicação.
Avalie	Avaliar o impacto da replicação antes de a iniciar. A avaliação de uma tarefa de replicação gera um relatório de avaliação que sinaliza incompatibilidades de esquemas e funcionalidades em falta.

Monitorização

Estados do replicador	Descrição
Implementado	A tarefa de replicação está implementada, mas não foi iniciada. Neste estado, uma tarefa de replicação não replica eventos.
A iniciar	O trabalho de replicação está a ser inicializado e não está pronto para replicar alterações.
Em execução	A tarefa de replicação é iniciada e está a replicar alterações.
A parar…	A tarefa de replicação está a ser interrompida.
Parado	A tarefa de replicação está parada.
Com falhas	A tarefa de replicação falhou devido a erros fatais.

Estados das tabelas

Conceito	Descrição
A tirar instantâneo	A tarefa de replicação está a tirar um instantâneo do estado atual da tabela antes de replicar as alterações.
A replicar	A tarefa de replicação está a replicar alterações da tabela de origem para a tabela de destino.
Em falha	A tarefa de replicação não está a replicar as alterações da tabela de origem devido a um erro.

Métrica

Conceito	Descrição
Inserções	O número de inserções aplicadas ao destino no período selecionado.
Atualizações	O número de atualizações aplicadas ao destino no período selecionado.
Eliminações	O número de eliminações aplicadas ao destino no período de tempo selecionado.
DDLs	O número de alterações de DDL aplicadas ao destino no período selecionado.
Débito	O número de eventos e o número de bytes replicados para o destino no período selecionado.
Latência	A latência à qual os dados são replicados para o destino no período selecionado.

Componentes

Componente	Descrição
Serviço	Supervisiona a orquestração integral das tarefas de replicação e oferece capacidades para conceber, implementar, gerir e monitorizar tarefas de replicação. É executado no projeto de inquilino do Cloud Data Fusion (o projeto de inquilino está oculto do utilizador). O respetivo estado é apresentado na página Administrador do sistema da interface Web do Cloud Data Fusion.
Gestão de estados	O serviço gere o estado de cada tarefa de replicação num contentor do Cloud Storage no projeto do cliente. O contentor pode ser configurado quando a tarefa de replicação é criada. Armazena os desvios atuais e o estado de replicação de cada tarefa de replicação.
Execução	Os clusters do Dataproc fornecem o ambiente de execução de tarefas de replicação, que são executadas no seu projeto. As tarefas de replicação são executadas através de trabalhadores do CDAP. O tamanho e as caraterísticas do ambiente de execução são configurados com perfis do Compute Engine.
Base de dados de origem	A sua base de dados operacional de produção que é replicada na base de dados de destino. Esta base de dados pode estar localizada no local ou em Google Cloud. O Cloud Data Fusion Replication suporta bases de dados de origem MySQL, Microsoft SQL Server e Oracle.
Altere a solução de acompanhamento	Em vez de ser executado num agente que é executado na base de dados de origem, o Cloud Data Fusion baseia-se numa solução de monitorização de alterações para ler as alterações na base de dados de origem. A solução pode ser um componente da base de dados de origem ou uma solução de terceiros licenciada separadamente. No último caso, a solução de monitorização de alterações é executada no local, colocada com a base de dados de origem ou em Google Cloud. Cada origem tem de estar associada a uma solução de acompanhamento de alterações. SQL Server Solução suportada: CDC do SQL Server (tabelas de acompanhamento de alterações) Software adicional: não Licença/custo: N/A Comentários: disponível no SQL Server 2016 e posterior MySQL Solução suportada: Registo binário do MySQL Software adicional: não Licença/custo: N/A Comentários: N/A Oracle Solução suportada: Oracle LogMiner Software adicional: não Licença/custo: N/A Comentários: veja as versões suportadas pelo Datastream
Base de dados de destino	A localização de destino para replicação e análise. O Cloud Data Fusion suporta a base de dados de destino do BigQuery.
Autenticação	Os mecanismos de autenticação variam consoante a base de dados de origem ou o software de monitorização de alterações. Quando usa as capacidades incorporadas das bases de dados de origem, como o SQL Server e o MySQL, os inícios de sessão na base de dados são usados para autenticação. Quando usa software de monitorização de alterações, é usado o mecanismo de autenticação do software.

Conetividade

A tabela seguinte descreve as ligações de rede necessárias para a replicação e os mecanismos de segurança que usam.

De	Para	Opcional	Protocolo	Rede	Segurança de autenticação	Finalidade
Serviço (projeto de inquilino)	BD de origem	Sim	Depende da origem da replicação. JDBC para ligação direta à base de dados.	Peering + regras de firewall + VPN/Interconnect + router	Início de sessão na BD	Necessário no momento da conceção, não no momento da execução Funções: lista de tabelas, avaliação (passos opcionais; a replicação pode continuar sem eles)
Serviço (projeto de inquilino)	Cloud Storage	Não	API Cloud	VPC-SC	IAM	Gestão de estado: desvios, estados de replicação
Dataproc (o seu projeto)	BD de origem	Não	Depende da fonte. JDBC para ligação direta à base de dados.	Peering + regras de firewall + VPN/Interconnect + router	Início de sessão na BD	Necessário no momento da execução para ler as alterações da base de dados de origem e replicá-las para o destino
Dataproc (o seu projeto)	Cloud Storage	Não	API Cloud	VPC-SC	IAM	Gestão de estado: desvios, estados de replicação
Dataproc (o seu projeto)	BigQuery	Não	API Cloud	VPC-SC	IAM	Necessário no momento da execução para aplicar alterações da BD de origem à BD de destino

O que se segue?

Consulte a referência da API Replication.
Consulte os mapeamentos de tipos de dados para a replicação.

Vista geral da replicação Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.