Nesta página, você verá informações básicas sobre como se conectar às origens de dados a partir de instâncias públicas ou privadas do Cloud Data Fusion de ambientes de design e execução.
Antes de começar
A rede no Cloud Data Fusion requer um entendimento básico dos seguintes assuntos:
Projeto de locatário
O Cloud Data Fusion cria um projeto de locatário que contém os recursos e serviços necessários para gerenciar pipelines em seu nome, como quando ele executa pipelines nos clusters do Dataproc que residem no seu projeto de cliente.
O projeto de locatário não é exposto diretamente a você, mas, ao
criar uma instância particular, você usa o nome do projeto para configurar o peering
de VPC. Cada instância privada no projeto de locatário tem a própria
rede e sub-rede VPC.
O projeto pode ter várias instâncias do Cloud Data Fusion. Você
gerencia os recursos e serviços que ele contém ao acessar uma instância na
interface do Cloud Data Fusion ou na CLI do Google Cloud.
Para mais informações, consulte a documentação da infraestrutura de serviços sobre
projetos de locatário.
Projeto do cliente
O cliente cria e é proprietário deste projeto. Por padrão, o Cloud Data Fusion cria um cluster temporário do Dataproc neste projeto para executar os pipelines.
Instância do Cloud Data Fusion
Uma instância do Cloud Data Fusion é uma implantação exclusiva do Cloud Data Fusion, em que você projeta e executa pipelines. É possível criar várias instâncias em um único projeto e especificar a região Google Cloud em que as instâncias do Cloud Data Fusion serão criadas. Com base nos seus requisitos e restrições de custo, é possível criar uma instância que use a edição Desenvolvedor, Básica ou Enterprise do Cloud Data Fusion. Cada instância contém uma implantação exclusiva e independente do Cloud Data Fusion, que contém um conjunto de serviços que processa o gerenciamento do ciclo de vida do pipeline, a orquestração, a coordenada e o gerenciamento de metadados. Esses serviços são executados usando recursos de execução longa em um projeto de locatário.
Diagrama de rede
Os diagramas a seguir mostram as conexões quando você cria pipelines de dados que extraem, transformam, combinam, agregam e carregam dados de várias fontes de dados locais e na nuvem.
Consulte os diagramas sobre como controlar a saída em uma instância particular e como se conectar a uma fonte pública.
Design e execução do pipeline
O Cloud Data Fusion oferece a separação de ambientes de design e execução, que permite projetar um pipeline uma vez e, em seguida, executá-lo em vários ambientes. O ambiente de design reside no projeto de locatário, enquanto o ambiente de execução está em um ou mais projetos de cliente.
Exemplo: você projeta seu pipeline usando os serviços do Cloud Data Fusion, como o Wrangler e o Preview. Esses serviços são executados no projeto de locatário, em que o acesso aos dados é controlado pelo papel de Agente de serviço do Cloud Data Fusion gerenciado pelo Google. Em seguida, execute o pipeline no projeto do cliente para que ele use o cluster do Dataproc. No projeto do cliente, a conta de serviço padrão do Compute Engine controla o acesso aos dados. É possível configurar seu projeto para usar uma conta de serviço personalizada.
Para mais informações sobre como configurar contas de serviço, consulte Contas de serviço do Cloud Data Fusion.
Ambiente de design
Quando você cria uma instância do Cloud Data Fusion no seu projeto de cliente, o Cloud Data Fusion cria automaticamente um projeto de locatário separado, gerenciado pelo Google, para executar os serviços necessários para gerenciar o ciclo de vida dos pipelines e metadados, a interface do Cloud Data Fusion e as ferramentas de design, como o Preview e o Wrangler.
Resolução DNS no Cloud Data Fusion
Para resolver nomes de domínio no ambiente de design ao manipular e visualizar os dados que você está transferindo para Google Cloud, use o DNS Peering, disponível a partir do Cloud Data Fusion 6.7.0. Ele permite usar domínios ou nomes de host para origens e destinos, que não precisam ser reconfigurados com tanta frequência quanto endereços IP.
A resolução de DNS é recomendada no ambiente de design do Cloud Data Fusion quando você testa conexões e visualiza pipelines que usam nomes de domínio de servidores locais ou outros (como bancos de dados ou servidores FTP) em uma rede VPC particular.
Para mais informações, consulte Pareamento de DNS e Encaminhamento do Cloud DNS.
Ambiente de execução
Depois de verificar e implantar o pipeline em uma instância, execute-o manualmente ou em uma programação de tempo ou em um acionador de estado do pipeline.
Se o ambiente de execução for provisionado e gerenciado pelo Cloud Data Fusion ou pelo cliente, o ambiente vai existir no projeto do cliente.
Instâncias públicas (padrão)
A maneira mais fácil de provisionar uma instância do Cloud Data Fusion é criar uma instância pública. Ele serve como ponto de partida e fornece acesso a endpoints externos na Internet pública.
Uma instância pública no Cloud Data Fusion usa a rede VPC padrão no seu projeto.
A rede VPC padrão tem o seguinte:
- Sub-redes geradas automaticamente para cada região
- Como rotear tabelas
- regras de firewall para garantir a comunicação entre os recursos de computação;
Redes em várias regiões
Quando você cria um novo projeto, uma vantagem da rede VPC padrão é que ela preenche automaticamente uma sub-rede por região usando um intervalo de endereços IP predefinido, expresso como um bloco CIDR. Os intervalos de endereços IP começam com
10.128.0.0/20
, 10.132.0.0/20
, em todas as regiões globais do Google Cloud .
Para garantir que seus recursos de computação se conectem uns aos outros entre regiões, a rede VPC padrão define as rotas locais padrão para cada sub-rede. Ao configurar a rota padrão para a Internet (0.0.0.0/0
), você tem acesso à Internet e captura qualquer tráfego de rede não roteado.
Regras de firewall
A rede VPC padrão fornece um conjunto de regras de firewall:
Padrão | Descrição |
---|---|
Permitir icmp padrão |
Ative o protocolo icmp para a origem 0.0.0.0/0 |
Permitir padrão code | Ativar o tcp:0-65535 ; udp:0-65535 ; icmp para a origem 10.128.0.0/9 , que abrange de 10.128.0.1 mínimo a máximo de 10.255.255.254 endereços IP |
Permitir rdp padrão |
Ativar tcp:3389 para a origem 0.0.0.0/0 |
Permitir ssh padrão |
Ativar tcp:22 para a origem 0.0.0.0/0 |
Essas configurações de rede VPC padrão minimizam os pré-requisitos para configurar serviços em nuvem, incluindo o Cloud Data Fusion. Devido a preocupações com a segurança da rede, as organizações geralmente não permitem que você use a rede VPC padrão para operações comerciais. Sem a rede VPC padrão, não é possível criar uma instância pública do Cloud Data Fusion. Em vez disso, crie uma instância particular.
A rede VPC padrão não concede acesso aberto aos recursos. Em vez disso, o Identity and Access Management (IAM) controla o acesso:
- É necessário ter uma identidade validada para fazer login em Google Cloud.
- Depois de fazer login, você precisa de permissão explícita (por exemplo, o papel de leitor) para acessar os serviços Google Cloud .
Instâncias particulares
Algumas organizações exigem que todos os sistemas de produção sejam isolados de endereços IP públicos. Uma instância particular do Cloud Data Fusion atende a esse requisito em todos os tipos de configurações de rede VPC.
Private Service Connect no Cloud Data Fusion
As instâncias do Cloud Data Fusion podem precisar se conectar a recursos localizados no local, no Google Cloudou em outros provedores de nuvem. Ao usar o Cloud Data Fusion com endereços IP internos, as conexões a recursos externos são estabelecidas pela rede VPC no projetoGoogle Cloud . O tráfego pela rede não passa pela Internet pública. Quando o Cloud Data Fusion recebe acesso à VPC usando o peering de rede VPC, há limitações, que se tornam aparentes quando você usa redes em grande escala.
Com as interfaces do Private Service Connect, o Cloud Data Fusion se conecta à VPC sem usar o peering de rede da VPC. A interface do Private Service Connect é um tipo de Private Service Connect que permite que o Cloud Data Fusion inicie conexões particulares e seguras com redes VPC do consumidor. Isso não apenas oferece a flexibilidade e a facilidade de acesso (como o peering de rede VPC), mas também a autorização explícita e o controle do lado do consumidor que o Private Service Connect oferece. Para mais informações, consulte Criar uma instância privada com o Private Service Connect.
Acesso a dados em ambientes de design e execução
Em uma instância pública, a comunicação de rede acontece por meio da Internet aberta, o que não é recomendado para ambientes críticos. Para acessar suas fontes de dados com segurança, sempre execute os pipelines de uma instância privada no ambiente de execução.
Acesso a origens
Ao acessar fontes de dados, instâncias públicas e privadas:
- fazer chamadas para Google Cloud APIs usando o Acesso privado do Google;
- se comunicar com um ambiente de execução (Dataproc) por meio de peering de VPC;
A tabela a seguir compara instâncias públicas e privadas durante o design e a execução de várias fontes de dados:
Fonte de dados | Instância pública do Cloud Data Fusion (tempo de design) |
Dataproc público do Cloud Data Fusion (execução) |
Instância privada do Cloud Data Fusion (tempo de design) |
Dataproc do Cloud Data Fusion privado (execução) |
---|---|---|---|---|
Google Cloud source (depois de conceder permissões e definir regras de firewall) |
||||
Fonte no local (depois de configurar VPN/Interconexão, conceder permissões e definir regras de firewall) |
||||
Fonte de Internet pública (depois de conceder permissões e definir regras de firewall) |
A seguir
- Controle de acesso no Cloud Data Fusion
- Contas de serviço no Cloud Data Fusion
- Como criar uma instância pública
- Como criar uma instância privada