Introduzione alla rete di Cloud Data Fusion

Questa pagina fornisce informazioni di base sulla connessione alle origini dati da istanze Cloud Data Fusion pubbliche o private da ambienti di progettazione ed esecuzione.

Prima di iniziare

Il networking in Cloud Data Fusion richiede una conoscenza di base di quanto segue:

Progetto tenant

Cloud Data Fusion crea un progetto tenant che contiene le risorse e i servizi necessari per gestire le pipeline per tuo conto, ad esempio quando esegue le pipeline sui cluster Dataproc che si trovano nel progetto del cliente.

Il progetto tenant non è visibile direttamente, ma quando crei un'istanza privata, utilizzi il nome del progetto per configurare il peering VPC. Ogni istanza privata nel progetto del tenant ha la propria rete e subnet VPC.

Il progetto può avere più istanze Cloud Data Fusion. Puoi gestire le risorse e i servizi in essa contenuti quando accedi a un'istanza nell'interfaccia utente di Cloud Data Fusion o in Google Cloud CLI.
Per ulteriori informazioni, consulta la documentazione di Service Infrastructure sui progetti tenant.

Progetto del cliente

Il cliente crea e possiede questo progetto. Per impostazione predefinita, Cloud Data Fusion crea un cluster Dataproc temporaneo in questo progetto per eseguire le tue pipeline.

Istanza Cloud Data Fusion

Un'istanza di Cloud Data Fusion è un deployment unico di Cloud Data Fusion, in cui puoi progettare ed eseguire pipeline. Puoi creare più istanze in un unico progetto e specificare la Google Cloud regione in cui creare le istanze Cloud Data Fusion. In base ai tuoi requisiti e ai vincoli di costo, puoi creare un'istanza che utilizzi la versione Developer, Basic o Enterprise di Cloud Data Fusion. Ogni istanza contiene un deployment Cloud Data Fusion indipendente e univoco che include un insieme di servizi che gestiscono la gestione del ciclo di vita della pipeline, l'orchestrazione, il coordinamento e la gestione dei metadati. Questi servizi vengono eseguiti utilizzando risorse a lungo termine in un progetto tenant.

Diagramma di rete

I seguenti diagrammi mostrano le connessioni quando crei pipeline di dati che estraggono, trasformano, combinano, aggregano e caricano dati da varie origini dati on-premise e cloud.

Consulta i diagrammi per controllare l'uscita in un'istanza privata e per connetterti a una sorgente pubblica.

Progettazione ed esecuzione della pipeline

Cloud Data Fusion prevede la separazione degli ambienti di progettazione ed esecuzione, che ti consente di progettare una pipeline una volta e poi eseguirla in più ambienti. L'ambiente di progettazione si trova nel progetto del tenant, mentre l'ambiente di esecuzione si trova in uno o più progetti dei clienti.

Esempio: progetti la pipeline utilizzando i servizi Cloud Data Fusion, come Wrangler e Preview. Questi servizi vengono eseguiti nel progetto tenant, in cui l'accesso ai dati è controllato dal ruolo Agente di servizio Cloud Data Fusion gestito da Google. Poi esegui la pipeline nel progetto del cliente in modo che utilizzi il tuo cluster Dataproc. Nel progetto del cliente, l'account di servizio Compute Engine predefinito controlla l'accesso ai dati. Puoi configurare il progetto in modo che utilizzi un account di servizio personalizzato.

Per ulteriori informazioni sulla configurazione dei service account, consulta Service account Cloud Data Fusion.

Ambiente di progettazione

Quando crei un'istanza Cloud Data Fusion nel progetto del cliente, Cloud Data Fusion crea automaticamente un progetto tenant separato gestito da Google per eseguire i servizi necessari per gestire il ciclo di vita delle pipeline e dei metadati, l'interfaccia utente di Cloud Data Fusion e gli strumenti di progettazione come Preview e Wrangler.

Risoluzione DNS in Cloud Data Fusion

Per risolvere i nomi di dominio nel tuo ambiente di progettazione quando esegui il wrangle e visualizza l'anteprima dei dati che stai trasferendo Google Cloud, utilizza il peering DNS (disponibile a partire da Cloud Data Fusion 6.7.0). Ti consente di utilizzare nomi di dominio o di host per origini e destinazioni, che non devi ricollegare con la stessa frequenza degli indirizzi IP.

La risoluzione DNS è consigliata nell'ambiente di progettazione in Cloud Data Fusion, quando testi le connessioni e visualizzi l'anteprima delle pipeline che utilizzano i nomi di dominio di server on-premise o di altri server (ad esempio database o server FTP) in una rete VPC privata.

Per ulteriori informazioni, consulta Peering DNS e Inoltro Cloud DNS.

Ambiente di esecuzione

Dopo aver verificato ed eseguito il deployment della pipeline in un'istanza, puoi eseguire la pipeline manualmente o in base a una pianificazione o a un attivatore dello stato della pipeline.

L'ambiente di esecuzione viene eseguito il provisioning e gestito da Cloud Data Fusion o dal cliente, ma esiste nel progetto del cliente.

Istanze pubbliche (valore predefinito)

Il modo più semplice per eseguire il provisioning di un'istanza Cloud Data Fusion è creare un'istanza pubblica. È un buon punto di partenza e fornisce accesso agli endpoint esterni sulla rete internet pubblica.

Un'istanza pubblica in Cloud Data Fusion utilizza la rete VPC predefinita del progetto.

La rete VPC predefinita ha quanto segue:

  • Subnet generate automaticamente per ogni regione
  • Tabelle di routing
  • Regole firewall per garantire la comunicazione tra le risorse di calcolo

Rete tra regioni

Quando crei un nuovo progetto, un vantaggio della rete VPC predefinita è che compila automaticamente una subnet per regione utilizzando un intervallo di indirizzi IP predefinito, espresso come blocco CIDR. Gli intervalli di indirizzi IP iniziano con 10.128.0.0/20, 10.132.0.0/20 nelle regioni Google Cloud globali.

Per assicurarti che le risorse di calcolo si connettano tra loro nelle varie regioni, la rete VPC predefinita imposta le route locali predefinite per ogni sottorete. Configurando la route predefinita per internet (0.0.0.0/0), puoi accedere a internet e acquisire qualsiasi traffico di rete non indirizzato.

Regole firewall

La rete VPC predefinita fornisce un insieme di regole firewall:

Predefinito Descrizione
Consenti predefinito icmp Attiva il protocollo icmp per l'origine 0.0.0.0/0
Consenti interno predefinito Attiva tcp:0-65535; udp:0-65535; icmp per l'origine 10.128.0.0/9, che copre gli indirizzi IP da 10.128.0.1 min a 10.255.255.254 max
Consenti predefinito rdp Attiva tcp:3389 per l'origine 0.0.0.0/0
Consenti predefinito ssh Attiva tcp:22 per l'origine 0.0.0.0/0

Queste impostazioni di rete VPC predefinite riducono al minimo i prerequisiti per la configurazione dei servizi cloud, tra cui Cloud Data Fusion. Per motivi di sicurezza della rete, le organizzazioni spesso non ti consentono di utilizzare la rete VPC predefinita per le operazioni aziendali. Senza la rete VPC predefinita, non puoi creare un'istanza Cloud Data Fusion pubblica. Al contrario, crea un'istanza privata.

La rete VPC predefinita non concede l'accesso aperto alle risorse. Al contrario, Identity and Access Management (IAM) controlla l'accesso:

  • Per accedere a Google Cloudè necessaria un'identità convalidata.
  • Dopo aver eseguito l'accesso, devi disporre dell'autorizzazione esplicita (ad esempio il ruolo visualizzatore) per visualizzare i servizi Google Cloud .

Istanze private

Alcune organizzazioni richiedono che tutti i sistemi di produzione siano isolati dagli indirizzi IP pubblici. Un'istanza privata di Cloud Data Fusion soddisfa questo requisito in tutti i tipi di impostazioni di rete VPC.

Private Service Connect in Cloud Data Fusion

Le istanze di Cloud Data Fusion potrebbero dover connettersi a risorse on-premise, su Google Cloudo su altri provider cloud. Quando utilizzi Cloud Data Fusion con indirizzi IP interni, le connessioni alle risorse esterne vengono stabilite tramite la rete VPC nel tuo progettoGoogle Cloud . Il traffico sulla rete non passa per la rete internet pubblica. Quando a Cloud Data Fusion viene fornito l'accesso al VPC tramite il peering di rete VPC, esistono limitazioni che diventano evidenti quando utilizzi reti di grandi dimensioni.

Con le interfacce Private Service Connect, Cloud Data Fusion si connette al tuo VPC senza utilizzare il peering della rete VPC. L'interfaccia Private Service Connect è un tipo di Private Service Connect che consente a Cloud Data Fusion di avviare connessioni private e sicure alle reti VPC dei consumer. Questo non solo offre flessibilità e facilità di accesso (come il peering di reti VPC), ma anche l'autorizzazione esplicita e il controllo lato consumer offerti da Private Service Connect. Per ulteriori informazioni, consulta Creare un'istanza privata con Private Service Connect.

Accesso ai dati negli ambienti di progettazione ed esecuzione

In un'istanza pubblica, la comunicazione di rete avviene tramite internet aperto, che non è consigliato per gli ambienti critici. Per accedere in modo sicuro alle tue sorgenti di dati, esegui sempre le pipeline da un'istanza privata nell'ambiente di esecuzione.

Accesso alle origini

Quando accedi alle origini dati, le istanze pubbliche e private:

  • effettuare chiamate in uscita alle Google Cloud API utilizzando l'accesso privato Google
  • comunicare con un ambiente di esecuzione (Dataproc) tramite il peering VPC

La seguente tabella confronta le istanze pubbliche e private durante la progettazione e l'esecuzione per varie origini dati:

Origini dati Istanza Cloud Data Fusion pubblica
(in fase di progettazione)
Cloud pubblico Dataproc di Cloud Data Fusion
(esecuzione)
Istanza privata di Cloud Data Fusion
(in fase di progettazione)
Dataproc di Cloud Data Fusion privato
(esecuzione)
Google Cloud source
(dopo aver concesso le autorizzazioni e impostato le regole del firewall)
Origine on-premise
(dopo aver configurato VPN/Interconnect, concesso le autorizzazioni e impostato le regole firewall)
Origine internet pubblica
(dopo aver concesso le autorizzazioni e impostato le regole firewall)

Passaggi successivi