Configurazione dell'accesso alla rete per Dataproc Metastore

Questa pagina fornisce indicazioni dettagliate sulla configurazione dell'accesso alla rete per le istanze Dataproc Metastore. La configurazione corretta della rete è essenziale per consentire ai cluster Dataproc e ai workload Dataproc Serverless di comunicare in modo sicuro e privato con il servizio Dataproc Metastore gestito.

Concetti di networking chiave

Le istanze Dataproc Metastore in genere si trovano all'interno di una rete del producer di servizi gestita da Google e comunicano con la tua rete Virtual Private Cloud utilizzando la connettività privata. Comprendere i seguenti concetti è fondamentale per una configurazione riuscita:

  • Virtual Private Cloud condiviso:se i cluster Dataproc o i carichi di lavoro Dataproc Serverless si trovano in un progetto di servizio che utilizza una rete Virtual Private Cloud condivisa da un progetto host, verifica che le configurazioni di rete appropriate siano state eseguite nel progetto host. Per ulteriori informazioni, consulta la panoramica del virtual private cloud condiviso.
  • Accesso privato Google:le istanze Dataproc Metastore spesso si basano sull'accesso privato Google per la comunicazione privata con la rete Virtual Private Cloud. In questo modo le istanze di macchine virtuali (VM) nel tuo Virtual Private Cloud possono connettersi alle API e ai servizi Google utilizzando indirizzi IP interni. Per saperne di più, consulta Accesso privato Google.
  • Peering di rete VPC:questo meccanismo consente la connettività IP privata tra due reti Virtual Private Cloud, consentendo alle risorse di una rete di comunicare con le risorse dell'altra utilizzando indirizzi IP interni. Dataproc Metastore stabilisce una connessione di peering di rete VPC gestita alla tua rete Virtual Private Cloud nell'ambito della configurazione. Per ulteriori informazioni, consulta peering di rete VPC.
  • Regole firewall:sono necessarie regole firewall appropriate per consentire il traffico tra i tuoi workload Dataproc e l'istanza Dataproc Metastore.
  • Risoluzione DNS di Cloud DNS:verifica che la risoluzione DNS sia configurata correttamente all'interno della rete Virtual Private Cloud per risolvere l'URI dell'endpoint Dataproc Metastore nel relativo indirizzo IP privato.

Passaggi di configurazione

Per verificare l'accesso di rete corretto per l'istanza Dataproc Metastore, segui questi passaggi:

1. Configura l'accesso privato ai servizi

Dataproc Metastore utilizza l'accesso privato al servizio per stabilire una connessione privata tra la tua rete Virtual Private Cloud e la reteproducer di servizii gestita da Google in cui si trova l'istanza Dataproc Metastore.

  • Verifica la connessione Private Service Access:
    1. Nella console Google Cloud , vai a Rete Virtual Private Cloud > Peering di reti VPC.
    2. Verifica che esista una connessione di peering denominata servicenetworking-googleapis-com e che il suo stato sia ACTIVE.
    3. Se questa connessione non è presente o non è attiva, segui le istruzioni riportate in Configurazione dell'accesso privato ai servizi. Ciò include l'allocazione di un intervallo di indirizzi IP per la rete del producer di servizi.

2. Configurare le regole firewall

Verifica che le regole firewall nella tua rete Virtual Private Cloud (o nel progetto host Virtual Private Cloud condiviso, se applicabile) consentano il traffico necessario.

  • Regola in uscita dal workload a Metastore:
    • Verifica che una regola firewall in uscita consenta il traffico TCP in uscita dal tuo cluster Dataproc o dai workload Dataproc Serverless all'intervallo di indirizzi IP della tua istanza Dataproc Metastore sulla porta 9083. Questa è la porta predefinita per Hive Metastore.
    • Se utilizzi l'accesso privato ai servizi, questo traffico verrà instradato in modo privato.
  • Regole in entrata (meno comuni per client-to-Metastore):
    • In genere, non è necessario configurare regole di ingresso nel tuo virtual private cloud per il traffico da un'istanza Dataproc Metastore al tuo workload, poiché la comunicazione in genere ha origine dal workload. Tuttavia, verifica che regole in entrata eccessivamente restrittive non blocchino inavvertitamente le risposte necessarie.

3. Verifica la risoluzione DNS

I carichi di lavoro Dataproc devono risolvere l'URI dell'endpoint Dataproc Metastore nel suo indirizzo IP privato.

  • Peering DNS o zone private:se utilizzi server DNS personalizzati o zone DNS private di Cloud DNS, verifica che le query DNS per l'endpoint Dataproc Metastore (ad es. your-metastore-endpoint.us-central1.dataproc.cloud.google.com) vengano inoltrati o risolti correttamente nell'intervallo IP privato utilizzato da Private Service Access.
  • Test della risoluzione DNS: da una VM all'interno della stessa subnet del carico di lavoro Dataproc, utilizza nslookup o dig per verificare che l'endpoint Dataproc Metastore venga risolto in un indirizzo IP privato.

Risoluzione dei problemi di connettività di rete

Se riscontri problemi di connettività dopo aver configurato l'accesso alla rete, prova a risolverli seguendo questi passaggi:

Passaggi successivi