Esta página descreve como criar uma instância do Cloud Data Fusion com um endereço IP interno. Você cria a instância em uma rede VPC ou uma VPC compartilhada.
Uma instância particular do Cloud Data Fusion tem os seguintes benefícios:
As conexões com a instância são estabelecidas em uma rede VPC particular no projeto Google Cloud . O tráfego pela rede não passa pela Internet pública.
A instância pode se conectar aos recursos locais, como bancos de dados relacionais, porque sua rede local se conecta à rede VPC particularGoogle Cloud pelo Cloud VPN ou pelo Cloud Interconnect. É possível acessar com segurança seus recursos locais, como bancos de dados, pela rede particular sem abrir o acesso a Google Cloud.
Objetivos
- Configure a rede VPC ou a rede VPC compartilhada.
- Aloque um intervalo de IP que será usado para implantar a instância do Cloud Data Fusion no projeto de locatário.
- Crie a instância particular do Cloud Data Fusion.
- Configure o peering de rede VPC entre a VPC que contém a instância do Cloud Data Fusion e a VPC que contém o projeto de locatário associado.
- Para redes VPC compartilhadas, configure as permissões do Identity and Access Management (IAM).
- Se a instância particular usa o Cloud Data Fusion versão 6.2.0 ou anterior, crie uma regra de firewall.
- Permita que diferentes serviços Google Cloud se comuniquem internamente ativando o Acesso privado do Google na sub-rede do Dataproc.
Antes de começar
- Para saber mais sobre a arquitetura de implantação do Cloud Data Fusion, consulte Redes.
Configurar a rede VPC
Se você ainda não tiver feito isso, crie uma rede VPC ou uma rede VPC compartilhada.
Para configurar sua rede VPC, é necessário alocar um intervalo de endereços IP.
Aloque um intervalo de IP
Rede VPC
Se você não estiver usando uma rede VPC compartilhada, o Cloud Data Fusion vai alocar um intervalo de IP por padrão ao criar uma instância.
Rede VPC compartilhada
Para usar uma VPC compartilhada, você precisa alocar um intervalo de IP para sua instância do Cloud Data Fusion.
Para alocar um intervalo de IP à sua instância do Cloud Data Fusion, siga estas etapas:
No Console do Google Cloud, acesse a página Redes VPC.
Na coluna Nome, clique na rede VPC em que você quer criar uma instância particular do Cloud Data Fusion.
A página Detalhes da rede VPC é aberta.
Clique em Conexão de serviço privado. Se solicitado, ative a API Service Networking clicando em Ativar API.
Clique em Alocar intervalo de IP.
Dê um nome ao intervalo de IP.
Em Intervalo de IP, clique em Automático.
Especifique um tamanho de prefixo
22
.Clique em Alocar.
Criar uma instância particular
Crie a instância particular do Cloud Data Fusion em uma rede VPC ou em uma rede VPC compartilhada.
Rede VPC
Para criar a instância em uma rede VPC, use o console do Google Cloud ou o cURL.
Se você usar o console do Google Cloud para criar sua instância particular,
o Cloud Data Fusion vai alocar o intervalo de endereços IP /22
por padrão. Para
escolher um intervalo de IP diferente, use o comando cURL.
Console
Acesse a página Criar instância do Data Fusion.
Digite um nome e uma descrição para a instância.
Selecione a Região em que a instância será criada.
Selecione uma versão e uma edição do Cloud Data Fusion.
Especifique a conta de serviço do Dataproc a ser usada para executar o pipeline do Cloud Data Fusion no Dataproc. A conta padrão do Compute Engine é pré-selecionada.
Abra o menu Opções avançadas e clique em Ativar IP privado.
No campo Rede, escolha uma rede para criar a instância.
Clique em Criar. O processo de criação da instância leva até 30 minutos para ser concluído.
cURL
Para sua conveniência, é possível exportar as seguintes variáveis ou substituir esses valores diretamente nos seguintes comandos:
export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com
Para criar a instância, chame o
método
create()
:
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Substitua:
INSTANCE_ID
: a string de ID que a nova instância precisa receber.NETWORK_NAME
: o nome da rede VPC em que você quer criar a instância privada.IP_RANGE
: o intervalo de IP alocado. Para encontrar o intervalo de IP no console do Google Cloud, acesse Detalhes da rede VPC > Conexão de serviço particular > Intervalo de IP interno .
Rede VPC compartilhada
Para criar uma instância em uma rede VPC compartilhada, use o cURL, não o console do Google Cloud.
cURL
Para sua conveniência, é possível exportar as seguintes variáveis. Como alternativa, substitua esses valores diretamente nos seguintes comandos:
export PROJECT=PROJECT_ID export LOCATION=REGION export DATA_FUSION_API_NAME=datafusion.googleapis.com
Para criar a instância, chame o método
create()
:
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Substitua:
INSTANCE_ID
: a string de ID que a nova instância precisa receber.SHARED_VPC_HOST_PROJECT_ID
: o ID do projeto que hospeda a rede VPC compartilhada.NETWORK_NAME
: o nome da rede VPC em que você quer criar a instância privada.IP_RANGE
: o intervalo de IP alocado. Para encontrar o intervalo de IP no console do Google Cloud, acesse a página Detalhes da rede VPC > Conexão de serviço particular > Intervalo de IP interno.
Configurar o peering de rede VPC
Os serviços do Cloud Data Fusion que você usa no seu ambiente de design (por exemplo, Wrangler, Connection Manager e Schema Validation) iniciam conexões de rede da VPC do projeto do locatário aos sistemas de origem. O Cloud Data Fusion usa o peering de rede VPC para estabelecer a conectividade de rede com a VPC ou VPC compartilhada que contém sua instância. O peering de rede VPC permite que o Cloud Data Fusion acesse recursos na sua rede por endereços IP internos usando sua própria VPC e os controles dela. Para se conectar a um recurso em outra rede, consulte as etapas para casos de uso de conexão.
A seção a seguir descreve como criar uma configuração de peering entre sua rede e a rede do projeto de locatário do Cloud Data Fusion.
Conseguir o ID do projeto do locatário
Para criar uma configuração de peering, você precisa do ID do projeto de locatário.
Acesse a página Instâncias do Cloud Data Fusion.
Na coluna Nome da instância, selecione a instância.
Na página Detalhes da instância, copie o ID do projeto do locatário, que é necessário quando você cria uma conexão de peering nas etapas a seguir.
Criar uma conexão de peering
Acesse a página Peering de rede VPC.
Clique em Criar conexão > Continuar.
Na página Criar conexão de peering aberta, faça o seguinte:
- Digite um Nome para a conexão de peering.
- Em Sua rede VPC, selecione a rede que contém a instância do Cloud Data Fusion.
- Em Rede VPC com peering, selecione Em outro projeto.
- Em ID do projeto, digite o ID do projeto de locatário que você encontrou anteriormente neste tutorial.
Em Nome da rede VPC, selecione uma rede ou digite INSTANCE_REGION-INSTANCE_ID.
Substitua:
- INSTANCE_REGION: a região em que você criou a instância do Cloud Data Fusion.
- INSTANCE_ID: o ID da sua instância do Cloud Data Fusion.
Selecione a versão do protocolo de Internet para a conexão de peering trocar rotas IPv4 e IPv6 entre a rede VPC e a rede VPC com peering. Para mais informações, consulte Peering de rede VPC.
Selecione Exportar rotas personalizadas para que as rotas personalizadas possam ser exportadas da sua rede VPC para a rede VPC do locatário.
Escolha se as rotas de sub-rede com IPv4 público podem ser importadas ou exportadas para a rede VPC.
Clique em Criar.
O peering de rede VPC fica ativo logo após a criação.
Configurar permissões do IAM
Rede VPC
Pule esta etapa e acesse Criar uma regra de firewall.
Rede VPC compartilhada
Se você criar sua instância do Cloud Data Fusion em uma rede VPC compartilhada, será necessário conceder o papel de usuário da rede do Compute às seguintes contas de serviço. Para conceder permissões a todas as sub-redes, conceda a função ao projeto host da VPC compartilhada.
Para controlar ainda mais o acesso, conceda o papel a uma sub-rede específica e o papel de leitor de rede no projeto host.
- Conta de serviço do Cloud Data Fusion:
service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
- Conta de serviço do Dataproc:
service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com
PROJECT_NUMBER
é o número do projetoGoogle Cloud que contém sua instância do Cloud Data Fusion.
Para mais informações, consulte Conceder acesso às contas de serviço necessárias.
Criar uma regra de firewall
Crie uma regra de firewall na rede VPC que permita conexões SSH de entrada do intervalo de IP especificado quando você criou a instância particular do Cloud Data Fusion.
Esta etapa é obrigatória para versões do Cloud Data Fusion anteriores à 6.2.0. Ele permite a comunicação entre os clusters do Cloud Data Fusion e do Dataproc que executam pipelines.
É possível criar a regra de firewall usando o console do Google Cloud ou usando a CLI gcloud.
Console
Consulte Como criar regras de firewall.
gcloud
Execute este comando:
gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID
Substitua:
FIREWALL_NAME
: o nome da regra de firewall a ser criada.IP_RANGE
: o intervalo de IP alocado.NETWORK_NAME
: o nome da rede à qual a regra de firewall está anexada. É o nome da rede VPC em que você criou a instância particular.PROJECT_ID
: o ID do projeto que hospeda a rede VPC.
Etapas para casos de uso de conexão
As seções a seguir descrevem casos de uso relacionados à conexão para instâncias privadas.
ativar o Acesso privado do Google
Para acessar recursos por endereços IP internos, o Cloud Data Fusion precisa criar os clusters do Dataproc e executar os pipelines de dados em uma sub-rede com o Acesso privado do Google. É necessário ativar o Acesso privado do Google para a sub-rede que contém os clusters do Dataproc.
- Se apenas uma sub-rede estiver presente na região em que os clusters do Dataproc foram iniciados, o cluster será iniciado nessa sub-rede.
Se houver várias sub-redes em uma região, configure o Cloud Data Fusion para selecionar a sub-rede com o Acesso privado do Google para iniciar clusters do Dataproc.
Para ativar o Acesso privado do Google na sub-rede, consulte Configuração do Acesso privado do Google.
Opcional: conectar a outras fontes
Depois de criar uma instância particular no Cloud Data Fusion, você pode se conectar a outras fontes, como nos seguintes casos de uso:
- Bancos de dados e sistemas locais em execução em outras redes VPC
- Outros Google Cloud serviços em execução na própria rede no modo particular, como o Cloud SQL
- Fontes na Internet pública
Opcional: ativar o peering de DNS
Ative o peering de DNS nos seguintes casos:
- Quando o Cloud Data Fusion se conecta a sistemas por nomes de host, e não por endereços IP
- Quando o sistema de destino é implantado atrás de um balanceador de carga, como em algumas implantações do SAP
A seguir
- Saiba mais sobre os conceitos de segurança no Cloud Data Fusion.
- Saiba mais sobre como se conectar a recursos em redes externas.
- Saiba mais sobre outrosconceitos e recursos importantes do Cloud Data Fusion.
- Consulte os preços do Cloud Data Fusion.