Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Questa pagina descrive come creare un'istanza di Cloud Data Fusion con un indirizzo IP interno. Puoi creare l'istanza in una rete VPC o in una rete VPC condiviso.
Un'istanza privata di Cloud Data Fusion offre i seguenti vantaggi:
Le connessioni all'istanza vengono stabilite su una rete VPC privata nel tuo progetto Google Cloud.
Il traffico sulla rete non passa attraverso la rete internet pubblica.
L'istanza può connettersi alle risorse on-premise, ad esempio i database relazionali,
perché la rete on-premise si connette alla rete VPC privata di Google Cloud tramite
Cloud VPN o
Cloud Interconnect.
Puoi accedere in modo sicuro alle risorse on-premise, come i database, sulla rete privata senza aprire l'accesso a Google Cloud.
Obiettivi
Configura la rete VPC o la rete VPC condiviso.
Alloca un intervallo IP che verrà utilizzato per eseguire il deployment dell'istanza Cloud Data Fusion nel progetto tenant.
Crea l'istanza privata di Cloud Data Fusion.
Configura il peering di rete VPC tra il VPC che contiene l'istanza di Cloud Data Fusion e il VPC che contiene il progetto tenant associato.
Per le reti VPC condivise, configura le autorizzazioni di Identity and Access Management (IAM).
Se l'istanza privata utilizza Cloud Data Fusion versione 6.2.0 o precedenti, crea una regola firewall.
Consenti ai diversi servizi Google Cloud di comunicare internamente tra loro abilitando l'accesso privato Google sulla subnet Dataproc.
Prima di iniziare
Per saperne di più sull'architettura di deployment di Cloud Data Fusion, consulta
Networking.
Per configurare la rete VPC, devi allocare un intervallo di indirizzi IP.
Alloca un intervallo IP
Rete VPC
Se non utilizzi una rete VPC condiviso, Cloud Data Fusion alloca un intervallo IP per impostazione predefinita quando crei un'istanza.
Rete VPC condivisa
Crea un'istanza privata
Crea l'istanza privata di Cloud Data Fusion in una rete VPC o in una rete VPC condiviso.
Rete VPC
Per creare l'istanza in una rete VPC, utilizza la console Google Cloud o cURL.
Se utilizzi la console Google Cloud per creare l'istanza privata, Cloud Data Fusion alloca l'intervallo di indirizzi IP /22 per impostazione predefinita. Per scegliere un intervallo IP diverso, devi utilizzare il comando cURL.
Inserisci un nome e una descrizione per l'istanza.
Seleziona la regione in cui creare l'istanza.
Seleziona una versione ed una versione di Cloud Data Fusion.
Specifica l'account di servizio Dataproc da utilizzare per eseguire la pipeline Cloud Data Fusion in Dataproc. L'account Compute Engine predefinito è preselezionato.
Espandi il menu Opzioni avanzate e fai clic su Abilita IP privato.
Nel campo Rete, scegli una rete in cui creare l'istanza.
Fai clic su Crea. Il processo di creazione dell'istanza richiede fino a 30 minuti.
cURL
Per comodità, puoi esportare le seguenti variabili o puoi
sostituire direttamente questi valori nei seguenti comandi:
Per creare l'istanza, chiama il relativo metodo create():
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Sostituisci quanto segue:
INSTANCE_ID: la stringa ID che dovrebbe ottenere la nuova istanza.
NETWORK_NAME: il nome della rete VPC in cui vuoi creare l'istanza privata.
IP_RANGE: l'intervallo
IP che hai allocato. Per trovare l'intervallo IP nella console Google Cloud, vai a Dettagli rete VPC>Connessione privata ai servizi>Intervallo IP interno .
Rete VPC condivisa
Per creare l'istanza in una rete VPC condiviso, utilizza cURL, non la console Google Cloud.
cURL
Per comodità, puoi esportare le seguenti variabili.
In alternativa, puoi sostituire direttamente questi valori nei seguenti comandi:
NETWORK_NAME: il nome della rete VPC in cui vuoi creare l'istanza privata.
IP_RANGE: l'intervallo IP allocato.
Per trovare l'intervallo IP nella console Google Cloud, vai alla pagina Dettagli rete VPC>Connessione privata ai servizi>Intervallo IP interno.
Configurazione del peering di rete VPC
I servizi di Cloud Data Fusion che utilizzi nel tuo ambiente di progettazione (ad esempio Wrangler, Connection Manager e Convalida di schemi) avviano le connessioni di rete dal VPC del progetto tenant ai sistemi di origine. Cloud Data Fusion utilizza il peering di rete VPC per stabilire la connettività di rete al VPC o al VPC condiviso che contiene la tua istanza. Il peering di rete VPC consente a Cloud Data Fusion di accedere alle risorse nella tua rete tramite indirizzi IP interni utilizzando il tuo VPC e i relativi controlli. Per connetterti a una risorsa in un'altra rete, consulta i passaggi per i casi d'uso delle connessioni.
In Nome rete VPC, seleziona una rete o inserisci INSTANCE_REGION-INSTANCE_ID.
Sostituisci quanto segue:
INSTANCE_REGION: la regione in cui hai creato l'istanza di Cloud Data Fusion.
INSTANCE_ID: l'ID della tua istanza di Cloud Data Fusion.
Seleziona la versione di Internet Protocol per la connessione in peering al fine di scambiare le route IPv4 e IPv6 tra la tua rete VPC e la rete VPC in peering. Per ulteriori informazioni, consulta la pagina relativa al peering di rete VPC.
Seleziona Esporta route personalizzate in modo da poter esportare le route personalizzate dalla rete VPC alla rete VPC tenant.
Scegli se consentire l'importazione o l'esportazione di route di subnet con IPv4 pubblico nella tua rete VPC.
Fai clic su Crea.
Il peering di rete VPC diventa attivo poco dopo la creazione.
Se crei l'istanza Cloud Data Fusion in una rete VPC condiviso, devi concedere il ruolo Utente di rete Compute ai seguenti account di servizio. Per concedere le autorizzazioni a tutte le subnet, concedi il ruolo al progetto host del VPC condiviso.
Per controllare ulteriormente l'accesso, concedi il ruolo a una subnet specifica e il ruolo Visualizzatore rete nel progetto host.
Account di servizio Cloud Data Fusion: service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
Account di servizio Dataproc: service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com
PROJECT_NUMBER è il numero del progetto Google Cloud che contiene la tua istanza di Cloud Data Fusion.
Per ulteriori informazioni, consulta Concedere l'accesso agli account di servizio richiesti.
Crea una regola firewall
Crea una regola firewall sulla tua rete VPC che consenta le connessioni SSH in entrata dall'intervallo IP specificato al momento della creazione dell'istanza privata di Cloud Data Fusion.
Questo passaggio è obbligatorio per le versioni di Cloud Data Fusion precedenti alla 6.2.0. Consente la comunicazione tra Cloud Data Fusion e cluster Dataproc che eseguono pipeline.
NETWORK_NAME: il nome della rete a cui è associata la regola firewall. È il nome della rete VPC in cui
hai creato l'istanza privata.
PROJECT_ID: l'ID del progetto che ospita la rete VPC.
Passaggi per i casi d'uso della connessione
Le seguenti sezioni descrivono i casi d'uso relativi alla connessione per le istanze private.
Abilita l'accesso privato Google
Per accedere alle risorse tramite indirizzi IP interni,
Cloud Data Fusion deve creare i cluster Dataproc ed eseguire
le pipeline di dati in una subnet con accesso privato Google. Devi abilitare l'accesso privato Google per la subnet che contiene i cluster Dataproc.
Se è presente una sola subnet nella regione in cui vengono avviati i cluster Dataproc, il cluster viene avviato in quella subnet.
Se in una regione sono presenti più subnet, devi configurare Cloud Data Fusion per selezionare la subnet con accesso privato Google per avviare i cluster Dataproc.