Introduzione al networking di Cloud Data Fusion

Questa pagina fornisce informazioni di base sulla connessione alle origini dati da istanze Cloud Data Fusion pubbliche o private ambienti di esecuzione.

Prima di iniziare

Il networking in Cloud Data Fusion richiede una conoscenza di base seguenti:

Progetto tenant

Cloud Data Fusion crea un progetto tenant che contiene le risorse e i servizi necessari per gestire le pipeline per tuo conto, ad esempio esegue pipeline sui cluster Dataproc che risiedono nel tuo per il progetto del cliente.

Il progetto tenant non è esposto direttamente a te, ma quando crei un'istanza privata, usi il nome del progetto per configurare VPC e il peering. Ogni istanza privata nel progetto tenant ha il proprio tra la rete VPC e la subnet.

Il progetto può avere più istanze Cloud Data Fusion. Tu e gestire le risorse e i servizi di cui dispone quando accedi a un'istanza la UI di Cloud Data Fusion o Google Cloud CLI.
Per ulteriori informazioni, consulta la documentazione dell'Service Infrastructure progetti tenant.

Progetto cliente

Il cliente crea e possiede questo progetto. Per impostazione predefinita, Cloud Data Fusion crea un cluster Dataproc temporaneo in questo progetto per eseguire le tue pipeline.

Istanza Cloud Data Fusion

Un'istanza Cloud Data Fusion è un deployment unico Cloud Data Fusion, dove progetti ed esegui le pipeline. Puoi creare più istanze in un singolo progetto e specificare Regione Google Cloud in cui creare Cloud Data Fusion di Compute Engine. In base ai tuoi requisiti e ai tuoi vincoli di costo, puoi creare che utilizza l'oggetto Sviluppatore, Basic o Enterprise di Cloud Data Fusion. Ogni istanza contiene un servizio Cloud Data Fusion univoco e indipendente che contiene un set di servizi che gestiscono il ciclo di vita della pipeline gestione, orchestrazione, coordinamento e gestione dei metadati. Questi vengono eseguiti utilizzando risorse a lunga esecuzione in un progetto tenant.

Diagramma di rete

I seguenti diagrammi mostrano le connessioni durante la creazione di pipeline di dati che estrarre, trasformare, combinare, aggregare e caricare i dati origini dati cloud.

Consulta i diagrammi per il controllo del traffico in uscita in un'istanza privata e la connessione a una fonte pubblica.

Progettazione ed esecuzione della pipeline

Cloud Data Fusion fornisce la separazione degli ambienti di progettazione ed esecuzione, che ti consente di progettare una pipeline una volta sola e poi di eseguirla in più ambienti cloud-native. L’ambiente di progettazione risiede nel tenant mentre l'ambiente di esecuzione si trova in uno o più progetti del cliente.

Esempio: progetti la tua pipeline utilizzando i servizi Cloud Data Fusion, come Wrangler e Anteprima. Questi servizi vengono eseguiti nel progetto tenant, dove l'accesso i dati sono controllati dall'autorità di gestione Agente di servizio Cloud Data Fusion ruolo. Poi esegui la pipeline nel progetto del cliente, in modo che utilizzi nel tuo cluster Dataproc. Nel progetto del cliente, il valore predefinito L'account di servizio Compute Engine controlla l'accesso ai dati. Puoi configurare per utilizzare un account di servizio personalizzato.

Per ulteriori informazioni sulla configurazione degli account di servizio, consulta Account di servizio Cloud Data Fusion.

Ambiente di progettazione

Quando crei un'istanza Cloud Data Fusion nel progetto del cliente, Cloud Data Fusion crea automaticamente un tenant separato, gestito da Google per eseguire i servizi necessari per gestire il ciclo di vita delle pipeline metadati, la UI di Cloud Data Fusion e strumenti in fase di progettazione come Anteprima e Wrangler.

Risoluzione DNS in Cloud Data Fusion

Risolvere i nomi di dominio nel tuo ambiente in fase di progettazione quando esegui il wrangling visualizza l'anteprima dei dati che stai trasferendo in Google Cloud, utilizza il peering DNS (disponibile a partire da Cloud Data Fusion 6.7.0). Ti consente di usare le proprietà per origini e sink, cosa che non è necessario riconfigurare con la stessa frequenza e gli indirizzi IP esterni.

La risoluzione DNS è consigliata nell'ambiente in fase di progettazione Cloud Data Fusion, quando testi le connessioni e visualizzi in anteprima le pipeline che utilizzano nomi di dominio di server on-premise o di altri server (come database o server FTP), in una rete VPC privata.

Per ulteriori informazioni, vedi Peering DNS e Inoltro di Cloud DNS.

Ambiente di esecuzione

Dopo aver verificato ed eseguito il deployment della pipeline in un'istanza, esegui il comando manualmente o in base a una pianificazione temporale o allo stato di pipeline trigger.

Indica se viene eseguito il provisioning e la gestione dell'ambiente di esecuzione Cloud Data Fusion o il cliente, l'ambiente esiste nel cliente. progetto.

Istanze pubbliche (impostazione predefinita)

Il modo più semplice per eseguire il provisioning di un'istanza Cloud Data Fusion è creare un'istanza pubblica. È anche un punto di partenza e consente di accedere a endpoint esterni sulla rete internet pubblica.

Un'istanza pubblica in Cloud Data Fusion utilizza il valore predefinito rete VPC nel tuo progetto.

La rete VPC predefinita include quanto segue:

  • Subnet generate automaticamente per ogni regione
  • Tabelle di routing
  • Regole firewall per garantire la comunicazione tra le risorse di calcolo

Networking tra regioni

Quando crei un nuovo progetto, un vantaggio del VPC predefinito è che compila automaticamente una subnet per regione utilizzando un indirizzo IP di indirizzi IP, espresso come blocco CIDR. Gli intervalli di indirizzi IP iniziano con 10.128.0.0/20, 10.132.0.0/20, nelle regioni globali di Google Cloud.

Per assicurarti che le risorse di calcolo si connettano tra loro in regioni diverse, la rete VPC predefinita imposta le route locali predefinite una subnet. Configurando la route predefinita verso internet (0.0.0.0/0), ottieni l'accesso a internet e di acquisire tutto il traffico di rete non instradato.

Regole firewall

La rete VPC predefinita fornisce un insieme di regole firewall:

Predefinito Descrizione
Autorizzazione predefinita icmp Attiva il protocollo icmp per l'origine 0.0.0.0/0
Autorizzazione interna predefinita Attiva tcp:0-65535; udp:0-65535; icmp per l'origine 10.128.0.0/9, che copre da un minimo di 10.128.0.1 a un massimo di 10.255.255.254 indirizzi IP
Autorizzazione predefinita rdp Attiva tcp:3389 per l'origine 0.0.0.0/0
Autorizzazione predefinita ssh Attiva tcp:22 per l'origine 0.0.0.0/0

Queste impostazioni di rete VPC predefinite riducono al minimo i prerequisiti per configurazione dei servizi cloud, incluso Cloud Data Fusion. A causa di dubbi sulla sicurezza della rete, le organizzazioni spesso non consentono di usare una rete VPC per le operazioni aziendali. Senza il valore predefinito rete VPC, non puoi creare una rete Cloud Data Fusion pubblica in esecuzione in un'istanza Compute Engine. Invece, per creare un'istanza privata.

La rete VPC predefinita non concede accesso libero alle risorse. Al contrario, Identity and Access Management (IAM) controlla l'accesso:

  • Per accedere a Google Cloud è necessaria un'identità convalidata.
  • Dopo aver eseguito l'accesso, ti serve un'autorizzazione esplicita (ad esempio, Visualizzatore) per visualizzare i servizi Google Cloud.

Istanze private

Alcune organizzazioni richiedono che tutti i loro sistemi di produzione siano isolati da indirizzi IP pubblici. Un'istanza privata di Cloud Data Fusion soddisfa in tutti i tipi di impostazioni della rete VPC.

Accesso ai dati negli ambienti di progettazione ed esecuzione

In un'istanza pubblica, la comunicazione di rete avviene su reti internet aperte, il che non è consigliato per ambienti critici. Per accedere in sicurezza ai dati ed eseguire sempre le pipeline da un'istanza privata completamente gestito di Google Cloud.

Accesso alle origini

Quando accedi alle origini dati e alle istanze pubbliche e private:

  • effettuare chiamate in uscita alle API Google Cloud utilizzando l'accesso privato Google
  • comunicare con un ambiente di esecuzione (Dataproc) Peering VPC

La tabella seguente mette a confronto le istanze pubbliche e private durante la progettazione per varie origini dati:

Origini dati Istanza Cloud Data Fusion pubblica
(tempo di progettazione)
Dataproc pubblico Cloud Data Fusion
(esecuzione)
Istanza Cloud Data Fusion privata
(tempo di progettazione)
Dataproc di Cloud Data Fusion privato
(esecuzione)
Origine Google Cloud
(dopo aver concesso le autorizzazioni e impostato il firewall )
Origine on-premise
(dopo aver configurato la VPN/Interconnect, concedi autorizzazioni e imposta regole firewall)
Sorgente internet pubblica
(dopo aver concesso le autorizzazioni e impostato il firewall )

Passaggi successivi