Introduzione al networking di Cloud Data Fusion

Questa pagina fornisce informazioni di base sulla connessione alle origini dati da istanze Cloud Data Fusion pubbliche o private da ambienti di progettazione ed esecuzione.

Prima di iniziare

Il networking in Cloud Data Fusion richiede una conoscenza di base di quanto segue:

Progetto tenant

Cloud Data Fusion crea un progetto tenant che contiene le risorse e i servizi necessari per gestire le pipeline per tuo conto, ad esempio quando esegue pipeline sui cluster Dataproc che risiedono nel progetto del cliente.

Il progetto tenant non è esposto direttamente a te, ma quando crei un'istanza privata utilizzi il nome del progetto per configurare il peering VPC. Ogni istanza privata nel progetto tenant ha la propria rete VPC e la propria subnet.

Il progetto può avere più istanze Cloud Data Fusion. Puoi gestire le risorse e i servizi contenuti al suo interno quando accedi a un'istanza nella UI di Cloud Data Fusion o in Google Cloud CLI.
Per saperne di più, consulta la documentazione dell'Service Infrastructure sui progetti tenant.

Progetto cliente

Il cliente crea e possiede questo progetto. Per impostazione predefinita, Cloud Data Fusion crea un cluster Dataproc temporaneo in questo progetto per eseguire le tue pipeline.

Istanza Cloud Data Fusion

Un'istanza Cloud Data Fusion è un deployment unico di Cloud Data Fusion, in cui progetti ed esegui le pipeline. Puoi creare più istanze in un singolo progetto e specificare la regione Google Cloud in cui creare le istanze Cloud Data Fusion. In base ai tuoi requisiti e ai vincoli di costo, puoi creare un'istanza che utilizza la versione Developer, Basic o Enterprise di Cloud Data Fusion. Ogni istanza contiene un deployment Cloud Data Fusion univoco e indipendente contenente un set di servizi in grado di gestire la gestione, l'orchestrazione, il coordinamento e la gestione dei metadati del ciclo di vita della pipeline. Questi servizi vengono eseguiti utilizzando risorse a lunga esecuzione in un progetto tenant.

Diagramma di rete

I seguenti diagrammi mostrano le connessioni durante la creazione di pipeline di dati che estraggono, trasformano, combinano, aggregano e caricano i dati da varie origini dati on-premise e cloud.

Consulta i diagrammi per controllare il traffico in uscita in un'istanza privata e la connessione a un'origine pubblica.

Progettazione ed esecuzione della pipeline

Cloud Data Fusion fornisce una separazione degli ambienti di progettazione ed esecuzione, che consente di progettare una pipeline una volta sola e quindi di eseguirla in più ambienti. L'ambiente di progettazione risiede nel progetto tenant, mentre l'ambiente di esecuzione si trova in uno o più progetti del cliente.

Esempio: progetti la tua pipeline utilizzando i servizi Cloud Data Fusion, come Wrangler e Preview. Questi servizi vengono eseguiti nel progetto tenant, dove l'accesso ai dati è controllato dal ruolo Agente di servizio Cloud Data Fusion gestito da Google. Devi quindi eseguire la pipeline nel progetto del cliente, in modo che utilizzi il cluster Dataproc. Nel progetto del cliente, l'account di servizioo Compute Engine predefinito controlla l'accesso ai dati. Puoi configurare il progetto per usare un account di servizio personalizzato.

Per ulteriori informazioni sulla configurazione degli account di servizio, consulta Account di servizio Cloud Data Fusion.

Ambiente di progettazione

Quando crei un'istanza Cloud Data Fusion nel progetto del tuo cliente, Cloud Data Fusion crea automaticamente un progetto tenant separato, gestito da Google, per eseguire i servizi necessari per gestire il ciclo di vita di pipeline e metadati, la UI di Cloud Data Fusion e strumenti di progettazione come Preview e Wrangler.

Risoluzione DNS in Cloud Data Fusion

Per risolvere i nomi di dominio nel tuo ambiente in fase di progettazione quando esegui il wrangling e l'anteprima dei dati che stai trasferendo in Google Cloud, utilizza il peering DNS (disponibile a partire da Cloud Data Fusion 6.7.0). Consente di utilizzare domini o host per origini e sink, che non è necessario riconfigurare con la stessa frequenza degli indirizzi IP.

La risoluzione DNS è consigliata nell'ambiente in fase di progettazione in Cloud Data Fusion, quando testi le connessioni e l'anteprima delle pipeline che utilizzano nomi di dominio di server on-premise o di altri server (ad esempio database o server FTP) in una rete VPC privata.

Per ulteriori informazioni, consulta Peering DNS e Forwarding di Cloud DNS.

Ambiente di esecuzione

Dopo aver verificato ed eseguito il deployment della pipeline in un'istanza, puoi eseguirla manualmente oppure in base a una pianificazione temporale o a un attivatore dello stato della pipeline.

Sia che il provisioning e la gestione dell'ambiente di esecuzione venga eseguito da Cloud Data Fusion o dal cliente, l'ambiente esiste nel progetto del cliente.

Istanze pubbliche (impostazione predefinita)

Il modo più semplice per eseguire il provisioning di un'istanza Cloud Data Fusion è creare un'istanza pubblica. È anche un punto di partenza e consente di accedere a endpoint esterni sulla rete internet pubblica.

Un'istanza pubblica in Cloud Data Fusion usa la rete VPC predefinita nel progetto.

La rete VPC predefinita include quanto segue:

  • Subnet generate automaticamente per ogni regione
  • Tabelle di routing
  • Regole firewall per garantire la comunicazione tra le risorse di calcolo

Networking tra regioni

Quando crei un nuovo progetto, un vantaggio della rete VPC predefinita è che compila automaticamente una subnet per regione utilizzando un intervallo di indirizzi IP predefinito, espresso come blocco CIDR. Gli intervalli di indirizzi IP iniziano con 10.128.0.0/20, 10.132.0.0/20, nelle regioni globali di Google Cloud.

Per garantire che le risorse di calcolo si connettano tra loro nelle regioni, la rete VPC predefinita imposta le route locali predefinite per ogni subnet. Se configuri la route predefinita a internet (0.0.0.0/0), puoi accedere a internet e acquisire tutto il traffico di rete non instradato.

Regole firewall

La rete VPC predefinita fornisce un insieme di regole firewall:

Predefinita Descrizione
Autorizzazione predefinita icmp Attiva il protocollo icmp per l'origine 0.0.0.0/0
Autorizzazione interna predefinita Abilita tcp:0-65535; udp:0-65535; icmp per l'origine 10.128.0.0/9, che copre da un minimo di 10.128.0.1 a un massimo di 10.255.255.254 indirizzi IP
Autorizzazione predefinita rdp Attiva tcp:3389 per l'origine 0.0.0.0/0
Autorizzazione predefinita ssh Attiva tcp:22 per l'origine 0.0.0.0/0

Queste impostazioni di rete VPC predefinite riducono al minimo i prerequisiti per la configurazione dei servizi cloud, tra cui Cloud Data Fusion. Per motivi di sicurezza di rete, le organizzazioni spesso non consentono di utilizzare la rete VPC predefinita per le operazioni aziendali. Senza la rete VPC predefinita, non puoi creare un'istanza pubblica di Cloud Data Fusion. Puoi invece creare un'istanza privata.

La rete VPC predefinita non concede accesso libero alle risorse. Al contrario, Identity and Access Management (IAM) controlla l'accesso:

  • Per accedere a Google Cloud è necessaria un'identità convalidata.
  • Dopo aver eseguito l'accesso, ti serve un'autorizzazione esplicita (ad esempio, il ruolo Visualizzatore) per visualizzare i servizi Google Cloud.

Istanze private

Alcune organizzazioni richiedono che tutti i loro sistemi di produzione siano isolati dagli indirizzi IP pubblici. Un'istanza privata di Cloud Data Fusion soddisfa questo requisito in tutti i tipi di impostazioni della rete VPC.

Accesso ai dati negli ambienti di progettazione ed esecuzione

In un'istanza pubblica, la comunicazione di rete avviene su internet aperto, il che è sconsigliato per gli ambienti critici. Per accedere in modo sicuro alle origini dati, esegui sempre le pipeline da un'istanza privata nel tuo ambiente di esecuzione.

Accesso alle origini

Quando accedi alle origini dati e alle istanze pubbliche e private:

  • effettuare chiamate in uscita alle API Google Cloud utilizzando l'accesso privato Google
  • comunicare con un ambiente di esecuzione (Dataproc) tramite peering VPC

La tabella seguente confronta le istanze pubbliche e private durante la progettazione e l'esecuzione per diverse origini dati:

Origini dati Istanza Cloud Data Fusion pubblica
(tempo di progettazione)
Dataproc pubblico Cloud Data Fusion
(esecuzione)
Istanza Cloud Data Fusion privata
(tempo di progettazione)
Dataproc privato Cloud Data Fusion
(esecuzione)
Origine Google Cloud
(dopo aver concesso le autorizzazioni e impostato le regole firewall)
Origine on-premise
(dopo aver configurato la VPN/Interconnect, concedi le autorizzazioni e impostato le regole firewall)
Origine internet pubblica
(dopo aver concesso le autorizzazioni e impostato le regole firewall)

Passaggi successivi