Introduzione al networking di Cloud Data Fusion

Questa pagina fornisce informazioni di base sulla connessione alle tue origini dati da istanze Cloud Data Fusion pubbliche o private da ambienti di progettazione ed esecuzione.

Prima di iniziare

Il networking in Cloud Data Fusion richiede una conoscenza di base di quanto segue:

Progetto tenant

Cloud Data Fusion crea un progetto tenant che contiene le risorse e i servizi necessari per gestire le pipeline per tuo conto, ad esempio quando esegue le pipeline sui cluster Dataproc che risiedono nel progetto del cliente.

Il progetto tenant non ti è esposto direttamente, ma quando crei un'istanza privata, utilizzi il nome del progetto per configurare il peering VPC. Ogni istanza privata nel progetto tenant ha la propria rete e una propria subnet VPC.

Il progetto può avere più istanze di Cloud Data Fusion. Puoi gestire le risorse e i servizi archiviati quando accedi a un'istanza nell'interfaccia utente di Cloud Data Fusion o in Google Cloud CLI.
Per saperne di più, consulta la documentazione dell'Service Infrastructure sui progetti tenant.

Progetto del cliente

Il cliente crea il progetto e ne è il proprietario. Per impostazione predefinita, Cloud Data Fusion crea un cluster Dataproc temporaneo in questo progetto per eseguire le pipeline.

Istanza Cloud Data Fusion

Un'istanza di Cloud Data Fusion è un deployment univoco di Cloud Data Fusion, che consente di progettare ed eseguire pipeline. Puoi creare più istanze in un singolo progetto e specificare la regione Google Cloud in cui creare le istanze di Cloud Data Fusion. In base ai tuoi requisiti e ai tuoi vincoli di costo, puoi creare un'istanza che utilizza l'edizione Developer, Basic o Enterprise di Cloud Data Fusion. Ogni istanza contiene un deployment Cloud Data Fusion univoco e indipendente che contiene un set di servizi che gestiscono la gestione del ciclo di vita delle pipeline, l'orchestrazione, il coordinamento e la gestione dei metadati. Questi servizi vengono eseguiti utilizzando risorse a lunga esecuzione in un progetto tenant.

Diagramma di rete

Il seguente diagramma mostra le connessioni quando crei pipeline di dati che estraggono, trasformano, uniscono, aggregano e caricano i dati da varie origini dati on-premise e cloud.

In Cloud Data Fusion 6.4 e versioni successive, consulta i diagrammi per controllare il traffico in uscita in un'istanza privata e connettersi a un'origine pubblica.

Per le versioni precedenti alla 6.4, il seguente diagramma dell'architettura di sistema mostra in che modo Cloud Data Fusion si connette alle origini dati di servizi come Preview o Wrangler in un progetto tenant e Dataproc in un progetto del cliente.

Diagramma di rete di Cloud Data Fusion

Progettazione ed esecuzione della pipeline

Cloud Data Fusion offre la separazione degli ambienti di progettazione ed esecuzione, in modo da poter progettare una pipeline una sola volta e poi eseguirla in più ambienti. L'ambiente di progettazione si trova nel progetto tenant, mentre l'ambiente di esecuzione si trova in uno o più progetti del cliente.

Esempio: progetti la tua pipeline utilizzando i servizi Cloud Data Fusion, come Wrangler e Preview. Questi servizi vengono eseguiti nel progetto tenant, dove l'accesso ai dati è controllato dal ruolo Agente di servizio Cloud Data Fusion gestito da Google. Poi eseguirai la pipeline nel progetto del cliente in modo che utilizzi il cluster Dataproc. Nel progetto del cliente, l'account di servizio Compute Engine predefinito controlla l'accesso ai dati. Puoi configurare il tuo progetto in modo che utilizzi un account di servizio personalizzato.

Per ulteriori informazioni sulla configurazione degli account di servizio, consulta Account di servizio Cloud Data Fusion.

Ambiente di progettazione

Quando crei un'istanza di Cloud Data Fusion nel progetto del tuo cliente, Cloud Data Fusion crea automaticamente un progetto tenant separato gestito da Google per eseguire i servizi necessari per gestire il ciclo di vita di pipeline e metadati, l'interfaccia utente di Cloud Data Fusion e strumenti in fase di progettazione come Preview e Wrangler.

Risoluzione DNS in Cloud Data Fusion

Per risolvere i nomi di dominio nel tuo ambiente di progettazione quando esegui il wrangling e visualizza l'anteprima dei dati che stai trasferendo in Google Cloud, utilizza il peering DNS (disponibile a partire da Cloud Data Fusion 6.7.0). Consente di utilizzare domini o nomi host per origini e sink, che non è necessario riconfigurare con la stessa frequenza degli indirizzi IP.

La risoluzione DNS è consigliata nel tuo ambiente di progettazione in Cloud Data Fusion, quando testi le connessioni e visualizzi l'anteprima delle pipeline che utilizzano i nomi di dominio di server on-premise o di altri server (ad esempio database o server FTP) in una rete VPC privata.

Per ulteriori informazioni, consulta Peering DNS e Forwarding Cloud DNS.

Ambiente di esecuzione

Dopo aver verificato ed eseguito il deployment della pipeline in un'istanza, puoi eseguire la pipeline manualmente oppure in base a una pianificazione temporale o a un trigger di stato della pipeline.

Indipendentemente dal fatto che il provisioning dell'ambiente di esecuzione sia stato eseguito e gestito da Cloud Data Fusion o dal cliente, l'ambiente esiste nel progetto del cliente.

Istanze pubbliche (opzione predefinita)

Il modo più semplice per eseguire il provisioning di un'istanza di Cloud Data Fusion è creare un'istanza pubblica. Funge anche da punto di partenza e fornisce l'accesso a endpoint esterni sulla rete internet pubblica.

Un'istanza pubblica in Cloud Data Fusion utilizza la rete VPC predefinita nel progetto.

La rete VPC predefinita include quanto segue:

  • Subnet generate automaticamente per ogni regione
  • Tabelle di routing
  • Regole firewall per garantire la comunicazione tra le risorse di calcolo

Networking tra regioni

Quando crei un nuovo progetto, uno dei vantaggi della rete VPC predefinita è il completamento automatico di una subnet per regione utilizzando un intervallo di indirizzi IP predefinito, espresso come blocco CIDR. Gli intervalli di indirizzi IP iniziano con 10.128.0.0/20, 10.132.0.0/20, nelle regioni globali di Google Cloud.

Per garantire che le risorse di calcolo si connettano tra loro tra regioni, la rete VPC predefinita imposta le route locali predefinite su ogni subnet. Se imposti la route predefinita verso internet (0.0.0.0/0), puoi accedere a internet e acquisire tutto il traffico di rete non instradato.

Regole del firewall

La rete VPC predefinita fornisce un insieme di regole firewall:

Predefinito Descrizione
Consenti icmp predefinito Attiva il protocollo icmp per l'origine 0.0.0.0/0
Autorizzazione interna predefinita Attiva tcp:0-65535; udp:0-65535; icmp per l'origine 10.128.0.0/9, che copre da un minimo di 10.128.0.1 a un massimo di 10.255.255.254 indirizzi IP
Consenti rdp predefinito Attiva tcp:3389 per l'origine 0.0.0.0/0
Consenti ssh predefinito Attiva tcp:22 per l'origine 0.0.0.0/0

Queste impostazioni di rete VPC predefinite riducono al minimo i prerequisiti per la configurazione dei servizi cloud, tra cui Cloud Data Fusion. A causa di problemi relativi alla sicurezza della rete, spesso le organizzazioni non consentono l'utilizzo della rete VPC predefinita per le operazioni aziendali. Senza la rete VPC predefinita, non puoi creare un'istanza pubblica di Cloud Data Fusion. Crea un'istanza privata.

La rete VPC predefinita non concede accesso libero alle risorse. ma Identity and Access Management (IAM) controlla invece l'accesso:

  • Per accedere a Google Cloud è necessaria un'identità convalidata.
  • Dopo aver eseguito l'accesso, devi disporre di un'autorizzazione esplicita (ad esempio, il ruolo Visualizzatore) per visualizzare i servizi Google Cloud.

Istanze private

Alcune organizzazioni richiedono che tutti i sistemi di produzione siano isolati dagli indirizzi IP pubblici. Un'istanza privata di Cloud Data Fusion soddisfa questo requisito in tutti i tipi di impostazioni di rete VPC.

Istanze private nella versione 6.4 e precedenti

Nelle versioni di Cloud Data Fusion precedenti alla 6.4, gli ambienti di progettazione ed esecuzione utilizzano solo indirizzi IP interni. Non utilizzano indirizzi IP della rete internet pubblica collegati a Compute Engine di Cloud Data Fusion. L'istanza privata di Cloud Data Fusion come strumento in fase di progettazione non può accedere alle origini dati sulla rete internet pubblica.

Progetta invece la pipeline in un'istanza pubblica. Poi, per l'esecuzione, spostalo in un'istanza privata di un progetto del cliente, dove controlli i criteri VPC del progetto. Devi connetterti ai dati di entrambi i progetti.

Accesso ai dati in ambienti di progettazione ed esecuzione

In un'istanza pubblica, la comunicazione di rete avviene su internet aperto, il che è sconsigliato per ambienti critici. Per accedere in modo sicuro alle origini dati, esegui sempre le pipeline da un'istanza privata nel tuo ambiente di esecuzione.

In Cloud Data Fusion versione 6.4, quando progetti la pipeline, non puoi accedere alle origini dati su internet da un'istanza privata. Puoi invece progettare la pipeline in un progetto tenant utilizzando un'istanza pubblica per la connessione alle origini dati su internet. Dopo aver creato la pipeline, spostala in un progetto del cliente ed eseguila in un'istanza privata, in modo da poter controllare i criteri VPC. Devi connetterti ai dati di entrambi i progetti.

Accesso alle origini

Se il tuo ambiente di esecuzione viene eseguito in una versione di Cloud Data Fusion precedente alla 6.4, puoi accedere alle risorse solo all'interno della tua rete VPC. Configura Cloud VPN o Cloud Interconnect per accedere alle origini dati on-premise. Le versioni di Cloud Data Fusion precedenti alla 6.4 possono accedere alle origini sulla rete internet pubblica solo se configuri un gateway Cloud NAT.

Quando accedi a origini dati, istanze pubbliche e private:

  • effettuare chiamate in uscita alle API Google Cloud utilizzando l'accesso privato Google
  • comunicare con un ambiente di esecuzione (Dataproc) tramite peering VPC

La seguente tabella mette a confronto le istanze pubbliche e private durante la progettazione e l'esecuzione per varie origini dati:

Origini dati Istanza Cloud Data Fusion pubblica
(design-time)
Dataproc Public Cloud Data Fusion
(esecuzione)
Istanza Private Cloud Data Fusion
(design-time)
Dataproc privato su Cloud Data Fusion
(esecuzione)
Origine Google Cloud
(dopo aver concesso le autorizzazioni e impostato le regole firewall)
Origine on-premise
(dopo aver configurato VPN/Interconnect, concesso le autorizzazioni e impostato le regole firewall)
Origine internet pubblica
(dopo aver concesso le autorizzazioni e impostato le regole firewall)
versioni ≥ 6.4 versioni < 6.4

Passaggi successivi