Rede

Nesta página, você verá informações básicas sobre como se conectar às origens de dados a partir de instâncias públicas ou privadas do Cloud Data Fusion de ambientes de design e execução.

Antes de começar

Nesta página, consideramos que você esteja familiarizado com estes termos:

Projeto de locatário

O Cloud Data Fusion cria um projeto de locatário para manter os recursos e serviços necessários para gerenciar pipelines em seu nome. Por exemplo: executar pipelines nos clusters do Dataproc que residam no projeto do cliente. Um projeto de locatário não é exposto aos clientes, mas quando você cria uma instância particular, talvez seja necessário usar o nome do projeto de locatário para configurar o peering de VPC.

Um projeto de locatário pode ter várias instâncias do Cloud Data Fusion. Acesse os recursos e serviços que um projeto de locatário mantém por meio de uma instância do Cloud Data Fusion a partir da IU da Web do Cloud Data Fusion ou da CLI do Google Cloud.

Para mais informações, consulte a documentação da infraestrutura de serviços sobre projetos de locatário.

Projeto do cliente

O cliente cria e é proprietário deste projeto. Por padrão, o Cloud Data Fusion cria um cluster temporário do Dataproc neste projeto para executar os pipelines do cliente.

Instância do Cloud Data Fusion

Uma instância do Cloud Data Fusion é uma implantação exclusiva do Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, crie uma instância do Cloud Data Fusion usando o Console do Google Cloud.

É possível criar várias instâncias em um único projeto do Google Cloud e especificar a região em que as instâncias do Cloud Data Fusion serão criadas.

Com base nos seus requisitos e restrições de custo, é possível criar uma instância Desenvolvedor, Básica ou Enterprise.

Cada instância do Cloud Data Fusion tem uma implantação exclusiva e independente do Cloud Data Fusion com um conjunto de serviços que processa o gerenciamento do ciclo de vida do pipeline, a orquestração, a coordenada e o gerenciamento de metadados. Esses serviços são executados usando recursos de execução longa em um projeto de locatário.

Diagrama de rede

É possível criar pipelines de dados que extraiam, transformem, combinem, agreguem e carreguem dados de várias fontes de dados locais e na nuvem.

Para as versões 6.4 e mais recentes do Cloud Data Fusion, consulte diagramas sobre como controlar a saída em uma instância particular e como se conectar a uma fonte pública.

Para as versões do Cloud Data Fusion anteriores à 6.4, o diagrama de arquitetura do sistema a seguir mostra como o Cloud Data Fusion se conecta com fontes de dados de serviços como Preview ou Wrangler em um projeto de locatário e do Dataproc em um projeto do cliente.

Diagrama de rede do Cloud Data Fusion

Vantagens de usar um projeto de locatário

Usar um projeto de locatário no Cloud Data Fusion tem as seguintes vantagens:

  • Usuários e desenvolvedores só podem usar serviços gerenciados em um projeto de locatário fornecido pela IU da Web do Cloud Data Fusion ou pela CLI do gcloud.
  • Os usuários não podem ver ou gerenciar recursos em um projeto de locatário. Portanto, eles não são cobrados nem fazem alterações não intencionais nos serviços, o que pode causar interrupções no sistema.
  • Cada serviço gerenciado no projeto de locatário tem a própria rede e sub-rede VPC.

Ambientes de design e execução

O Cloud Data Fusion oferece a separação de ambientes de design e execução, que permite projetar um pipeline uma vez e, em seguida, executá-lo em vários ambientes. O ambiente de design reside no projeto de locatário, enquanto o ambiente de execução está em um ou mais projetos de cliente.

Exemplo: você projeta seu pipeline usando os serviços do Cloud Data Fusion, como Wrangler e Preview. Esses serviços são executados no projeto de locatário, em que o acesso aos dados é controlado pelo papel de Agente de serviço do Cloud Data Fusion gerenciado pelo Google. Em seguida, execute o pipeline no projeto do cliente para que ele use o cluster do Dataproc. No projeto do cliente, o acesso aos dados é controlado pela conta de serviço padrão do Compute Engine. Configure seu projeto para usar uma conta de serviço personalizada.

Para mais informações sobre como configurar contas de serviço, consulte Contas de serviço do Cloud Data Fusion.

Ambiente de design

Quando você cria uma instância do Cloud Data Fusion no seu projeto de cliente, o Cloud Data Fusion cria automaticamente um projeto de locatário separado, gerenciado pelo Google para cada projeto de cliente. No projeto de locatário, ele executa os serviços necessários para gerenciar o ciclo de vida dos pipelines e os metadados, a IU do Cloud Data Fusion e as ferramentas de tempo de design, como o Preview e o Wrangler.

Ambiente de execução

Depois de verificar e implantar o pipeline em uma instância, execute-o manualmente ou em uma programação de tempo ou em um acionador de estado do pipeline.

Se o ambiente de execução for provisionado e gerenciado pelo Cloud Data Fusion ou pelo cliente, o ambiente existe no projeto do cliente.

Instâncias do Cloud Data Fusion

Há dois tipos de instâncias do Cloud Data Fusion com base em um modelo de acesso: uma instância pública (padrão) e uma instância privada.

Instâncias públicas (padrão)

A maneira mais fácil de provisionar uma instância do Cloud Data Fusion é criar uma instância pública. Ele serve como ponto de partida e fornece acesso a endpoints externos na Internet pública.

Uma instância pública no Cloud Data Fusion usa a rede VPC padrão no seu projeto.

A rede VPC padrão tem as seguintes características:

  • Sub-redes geradas automaticamente para cada região
  • Como rotear tabelas
  • regras de firewall para garantir a comunicação entre os recursos de computação;

Redes em várias regiões

Quando você cria um novo projeto, uma vantagem da rede VPC padrão é que ela preenche automaticamente uma sub-rede por região usando um intervalo de endereços IP predefinido, expresso como um bloco CIDR. Os intervalos de endereços IP começam com 10.128.0.0/20, 10.132.0.0/20, em todas as regiões globais do Google Cloud.

Para garantir que seus recursos de computação se conectem uns aos outros entre regiões, a rede VPC padrão define as rotas locais padrão para cada sub-rede. Ao configurar a rota padrão para a Internet (0.0.0.0/0), você tem acesso à Internet e captura qualquer tráfego de rede não roteado.

Regras de firewall

A rede VPC padrão fornece um conjunto de regras de firewall:

Padrão Descrição
Permitir icmp padrão Ative o protocolo icmp para a origem 0.0.0.0/0
Permitir padrão code Ativar o tcp:0-65535; udp:0-65535; icmp para a origem 10.128.0.0/9, que abrange de 10.128.0.1 mínimo a máximo de 10.255.255.254 endereços IP
Permitir rdp padrão Ativar tcp:3389 para a origem 0.0.0.0/0
Permitir ssh padrão Ativar tcp:22 para a origem 0.0.0.0/0

Essas configurações de rede VPC padrão minimizam os pré-requisitos para configurar serviços em nuvem, incluindo o Cloud Data Fusion. Devido a preocupações com a segurança da rede, as organizações geralmente não permitem que você use a rede VPC padrão para operações comerciais. Sem a rede VPC padrão, não é possível criar uma instância pública do Cloud Data Fusion. Em vez disso, siga as etapas para criar uma instância particular do Cloud Data Fusion.

A rede VPC padrão não concede acesso aberto aos recursos. Em vez disso, o serviço de gerenciamento de identidade e acesso (IAM) controla quem pode acessar recursos:

  • É necessário ter uma identidade validada para fazer login no Google Cloud.
  • Depois de fazer login, você precisa de permissão explícita (por exemplo, o de Leitor) para visualizar os serviços do Google Cloud.

Instâncias particulares

Algumas organizações exigem que todos os sistemas de produção sejam isolados de endereços IP públicos. Uma instância particular do Cloud Data Fusion atende a esse requisito em todos os tipos de configurações de rede VPC.

Nas versões do Cloud Data Fusion anteriores à 6.4, os ambientes de design e execução usam endereços IP particulares. Eles não usam endereços IP públicos da Internet anexados a nenhum Compute Engine do Cloud Data Fusion. Como resultado, como uma ferramenta de tempo de design, a instância de IP particular do Cloud Data Fusion não pode acessar fontes de dados na Internet pública.

Para se conectar a fontes de dados na Internet pública de uma instância particular, você cria o pipeline em uma instância pública e, para execução, movê-lo para uma instância particular em um projeto do cliente, onde você controla o nome Políticas da VPC. É necessário se conectar aos dados dos projetos usados durante o projeto e a execução.

Acesso a dados em ambientes de design e execução

Em uma instância pública, a comunicação de rede acontece por meio da Internet aberta, o que não é recomendado para ambientes críticos. Para acessar suas fontes de dados com segurança, sempre execute os pipelines de uma instância privada no ambiente de execução.

No Cloud Data Fusion versão 6.4, ao projetar seu pipeline, não é possível acessar fontes de dados na Internet aberta de uma instância privada. Em vez disso, crie o pipeline em um projeto de locatário usando uma instância pública para se conectar a origens de dados na Internet. Depois de criar o pipeline, mova-o para um projeto do cliente e execute-o em uma instância privada, para que você possa controlar políticas de VPC. Você precisa se conectar aos seus dados de ambos os projetos.

Para mais informações sobre os tipos de projetos e instâncias necessários para acessar várias fontes de dados, consulte a seção Acesso a origens.

Acesso a origens

Se seu ambiente de execução for executado em uma versão do Cloud Data Fusion abaixo de 6.4, você só poderá acessar recursos na sua rede VPC. A configuração do Cloud VPN ou do Cloud Interconnect permite acessar fontes de dados locais. As versões do Cloud Data Fusion anteriores à 6.4 só poderão acessar as origens na Internet pública se você configurar um gateway do Cloud NAT.

Ao acessar fontes de dados, instâncias públicas e privadas:

  • fazer chamadas para APIs do Google Cloud usando o Acesso privado do Google;
  • se comunicar com um ambiente de execução (Dataproc) por meio de peering de VPC;

A tabela a seguir compara instâncias públicas e privadas durante o design e a execução de várias fontes de dados:

Fonte de dados Instância pública do Cloud Data Fusion
(tempo de design)
Dataproc público do Cloud Data Fusion
(execução)
Instância privada do Cloud Data Fusion
(tempo de design)
Dataproc do Cloud Data Fusion privado
(execução)
Origem do Google Cloud
(depois de conceder permissões e definir regras de firewall)
Fonte no local
(depois de configurar VPN/Interconexão, conceder permissões e definir regras de firewall)
Fonte de Internet pública
(depois de conceder permissões e definir regras de firewall)
versões ≥ 6.4 versões < 6.4

A seguir