Rede

Nesta página, você encontra informações básicas sobre como se conectar às fontes de dados a partir de instâncias públicas ou privadas do Cloud Data Fusion a partir de ambientes de design e execução.

Antes de começar

Nesta página, presume-se que você esteja familiarizado com estes termos:

Projeto de locatário

O Cloud Data Fusion cria um projeto de locatário para manter os recursos e serviços necessários para gerenciar pipelines em seu nome. Por exemplo: executar pipelines nos clusters do Dataproc que residam no projeto do cliente. Um projeto de locatário não é exposto aos clientes, mas quando você cria uma instância particular, talvez seja necessário usar o nome do projeto de locatário para configurar o peering de VPC.

Um projeto de locatário pode ter várias instâncias do Cloud Data Fusion. Acesse os recursos e serviços que um projeto de locatário contém por meio de uma instância do Cloud Data Fusion da IU da Web do Cloud Data Fusion ou da ferramenta de linha de comando gcloud.

Para mais informações, consulte a documentação da infraestrutura de serviços sobre projetos de locatário.

Projeto do cliente

O cliente cria e é proprietário deste projeto. Por padrão, o Cloud Data Fusion cria um cluster temporário do Dataproc neste projeto para executar os pipelines do cliente.

Instância do Cloud Data Fusion

Uma instância do Cloud Data Fusion é uma implantação exclusiva do Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, crie uma instância do Cloud Data Fusion usando o Console do Google Cloud.

É possível criar várias instâncias em um único projeto do Google Cloud e especificar a região do Google Cloud em que as instâncias do Cloud Data Fusion precisam ser criadas.

Com base nos seus requisitos e restrições de custo, é possível criar uma instância Developer, Basic ou Enterprise.

Cada instância do Cloud Data Fusion contém uma implantação única e independente do Cloud Data Fusion, que contém um conjunto de serviços que gerenciam o gerenciamento do ciclo de vida do pipeline, orquestração, coordenação e gerenciamento de metadados. Esses serviços são executados usando recursos de execução longa em um projeto de locatário.

Diagrama de rede

É possível criar pipelines de dados que extraem, transformam, mesclam, agregam e carregam dados de várias origens no local e na nuvem.

Para as versões 6.4 e mais recentes do Cloud Data Fusion, consulte os diagramas para controlar a saída em uma instância particular e como se conectar a uma fonte pública.

Para as versões do Cloud Data Fusion abaixo de 6.4, o diagrama de arquitetura do sistema a seguir mostra como o Cloud Data Fusion se conecta com origens de dados de serviços como Preview ou Wrangler em um projeto de locatário e Dataproc em um projeto de cliente.

Diagrama de rede do Cloud Data Fusion

Vantagens de usar um projeto de locatário

O uso de um projeto de locatário no Cloud Data Fusion tem as seguintes vantagens:

  • Usuários e desenvolvedores só podem usar serviços gerenciados em um projeto de locatário fornecido pela IU da Web do Cloud Data Fusion ou pela ferramenta gcloud.
  • Os usuários não podem visualizar ou gerenciar recursos em um projeto de locatário. Portanto, eles não serão cobrados ou fazendo alterações não intencionais nos serviços, o que pode causar interrupções do sistema.
  • Cada serviço gerenciado no projeto de locatário tem uma rede VPC e uma sub-rede VPC.

Ambientes de projeto e execução

O Cloud Data Fusion fornece a separação de ambientes de design e execução, o que permite projetar um pipeline uma vez e executá-lo em vários ambientes. O ambiente de design reside no projeto de locatário, enquanto o ambiente de execução está em um ou mais projetos de cliente.

Exemplo: você projeta seu pipeline usando os serviços do Cloud Data Fusion, como o Wrangler e o Preview. Esses serviços são executados no projeto de locatário, em que o acesso aos dados é controlado pelo papel Agente de serviço do Cloud Data Fusion gerenciado pelo Google. Em seguida, você executa o pipeline no projeto do cliente para que ele use o cluster do Dataproc. No projeto do cliente, o acesso aos dados é controlado pela conta de serviço padrão do Compute Engine. É possível configurar seu projeto para usar uma conta de serviço personalizada.

Para mais informações sobre como configurar contas de serviço, consulte Contas de serviço do Cloud Data Fusion.

Ambiente de projeto

Quando você cria uma instância do Cloud Data Fusion no projeto do cliente, o Cloud Data Fusion cria automaticamente um projeto de locatário separado pelo Google para cada projeto de cliente. No projeto de locatário, ele executa os serviços necessários para gerenciar o ciclo de vida de pipelines e metadados, a IU do Cloud Data Fusion e ferramentas de tempo de design, como visualização e Wrangler.

Ambiente de execução

Depois de verificar e implantar o pipeline em uma instância, você executa o pipeline manualmente ou por meio de uma programação ou de um acionador de estado de pipeline.

Independentemente de o ambiente de execução ser provisionado e gerenciado pelo Cloud Data Fusion ou pelo cliente, o ambiente existe em seu projeto do cliente.

Instâncias do Cloud Data Fusion

Há dois tipos de instâncias do Cloud Data Fusion baseados em um modelo de acesso: uma instância pública (padrão) e uma particular.

Instâncias públicas (padrão)

A maneira mais fácil de provisionar uma instância do Cloud Data Fusion é criar uma instância pública. Ela serve como ponto de partida e fornece acesso a endpoints externos na Internet pública.

Uma instância pública no Cloud Data Fusion usa a rede VPC padrão no seu projeto.

A rede VPC padrão tem as seguintes características:

  • Sub-redes geradas automaticamente para cada região
  • Tabelas de roteamento
  • Regras de firewall para garantir a comunicação entre os recursos de computação

Rede em várias regiões

Quando você cria um novo projeto, um benefício da rede VPC padrão é que ela preenche automaticamente uma sub-rede por região usando um intervalo de endereços IP predefinido, expresso como um bloco de CIDR. Os intervalos de endereços IP começam com 10.128.0.0/20, 10.132.0.0/20, nas regiões globais do Google Cloud.

Para garantir que seus recursos de computação se conectem entre si por regiões, a rede VPC padrão define as rotas locais padrão para cada sub-rede. Ao configurar a rota padrão para a Internet (0.0.0.0/0), você tem acesso à Internet e captura qualquer tráfego de rede não roteado.

Regras de firewall

A rede VPC padrão oferece um conjunto de regras de firewall:

Padrão Descrição
Permissão padrão icmp Ativar protocolo icmp para a origem 0.0.0.0/0
Permissão interna padrão Ativar tcp:0-65535; udp:0-65535; icmp para a origem 10.128.0.0/9, que abrange os endereços IP mínimos de 10.128.0.1 a no máximo 10.255.255.254
Permissão padrão rdp Ativar tcp:3389 para a origem 0.0.0.0/0
Permissão padrão ssh Ativar tcp:22 para a origem 0.0.0.0/0

Essas configurações de rede VPC padrão minimizam os pré-requisitos para configurar serviços em nuvem, incluindo o Cloud Data Fusion. Devido a preocupações sobre a segurança da rede, as organizações geralmente não permitem o uso da rede VPC padrão para operações comerciais. Sem a rede VPC padrão, não é possível criar uma instância pública do Cloud Data Fusion. Em vez disso, siga as etapas para criar uma instância privada do Cloud Data Fusion.

A rede VPC padrão não concede acesso aberto a recursos. Em vez disso, o serviço Identity & Access Management (IAM) controla quem pode acessar os recursos:

  • Uma identidade validada é necessária para fazer login no Google Cloud.
  • Depois de fazer login, você precisa de permissão explícita (por exemplo, o papel de Leitor) para visualizar os serviços do Google Cloud.

Instâncias privadas

Algumas organizações exigem que todos os sistemas de produção sejam isolados de endereços IP públicos. Uma instância privada do Cloud Data Fusion atende a esse requisito em todos os tipos de configurações de rede VPC.

Nas versões do Cloud Data Fusion abaixo de 6.4, os ambientes de design e execução usam endereços IP particulares. Eles não usam endereços IP públicos de Internet conectados a qualquer Cloud Data Fusion Compute Engine. Como resultado, como uma ferramenta de tempo de design, a instância de IP privado do Cloud Data Fusion não pode acessar fontes de dados na Internet pública.

Para conectar-se a fontes de dados na Internet pública a partir de uma instância privada, projete seu pipeline em uma instância pública e, em execução, mova-o para uma instância particular em um projeto de cliente, em que você controla as políticas de VPC. É necessário se conectar aos dados dos dois projetos usados durante o projeto e a execução.

Acesso a dados em ambientes de projeto e execução

Em uma instância pública, a comunicação de rede acontece pela Internet aberta, o que não é recomendado para ambientes críticos. Para acessar suas fontes de dados com segurança, sempre execute os pipelines de uma instância privada no ambiente de execução.

No Cloud Data Fusion versão 6.4, ao projetar o pipeline, não é possível acessar fontes de dados na Internet aberta a partir de uma instância particular. Em vez disso, você cria um pipeline em um projeto de locatário usando uma instância pública para se conectar a fontes de dados na Internet. Depois de criar o pipeline, mova-o para um projeto de cliente e execute-o em uma instância particular para poder controlar as políticas de VPC. Você precisa se conectar aos dados dos dois projetos.

Para mais informações sobre os tipos de projetos e instâncias necessários para acessar várias fontes de dados, consulte a seção Acesso a fontes.

Acesso a fontes

Se o ambiente de execução for executado em uma versão do Cloud Data Fusion inferior a 6.4, só será possível acessar os recursos na sua rede VPC. Ao configurar o Cloud VPN ou o Cloud Interconnect, você acessa fontes de dados locais. As versões do Cloud Data Fusion anteriores à 6.4 só poderão acessar fontes na Internet pública se você configurar um gateway do Cloud NAT.

Ao acessar fontes de dados, instâncias públicas e privadas:

  • fazer chamadas para as APIs do Google Cloud usando o Acesso privado do Google
  • comunicar-se com um ambiente de execução (Dataproc) por meio do peering de VPC

A tabela a seguir compara instâncias públicas e privadas durante o projeto e a execução para várias fontes de dados:

Fonte de dados Instância pública do Cloud Data Fusion
(tempo de design)
Nuvem pública do Cloud Data Fusion
(execução)
Instância particular do Cloud Data Fusion
(tempo de design)
Dataproc particulares do Cloud Data Fusion
(execução)
Origem do Google Cloud
(depois de conceder permissões e definir regras de firewall)
Origem local
: depois de configurar a VPN/interconexão, conceder permissões e definir regras de firewall.
Origem da Internet pública
(depois de conceder permissões e definir regras de firewall)
versões | 6.4 versões < 6.4

A seguir