Configurer l'accès au réseau pour Dataproc Metastore

Cette page fournit des conseils détaillés sur la configuration de l'accès réseau pour vos instances Dataproc Metastore. Une configuration réseau correcte est essentielle pour que les clusters Dataproc et les charges de travail Dataproc sans serveur communiquent de manière sécurisée et privée avec votre service Dataproc Metastore géré.

Concepts clés de mise en réseau

Les instances Dataproc Metastore résident généralement dans un réseau de producteurs de services géré par Google et communiquent avec votre réseau cloud privé virtuel à l'aide d'une connectivité privée. Il est essentiel de comprendre les concepts suivants pour réussir la configuration :

  • Cloud privé virtuel partagé : si vos clusters Dataproc ou vos charges de travail Dataproc sans serveur se trouvent dans un projet de service qui utilise un réseau de cloud privé virtuel partagé à partir d'un projet hôte, vérifiez que les configurations réseau appropriées sont effectuées dans le projet hôte. Pour en savoir plus, consultez la présentation du cloud privé virtuel partagé.
  • Accès privé à Google : les instances Dataproc Metastore s'appuient souvent sur l'accès privé à Google pour communiquer de manière privée avec votre réseau Virtual Private Cloud. Cela permet aux instances de machine virtuelle (VM) de votre cloud privé virtuel de se connecter aux API et services Google à l'aide d'adresses IP internes. Pour en savoir plus, consultez Accès privé à Google.
  • Appairage de réseaux VPC : ce mécanisme permet la connectivité IP privée entre deux réseaux de cloud privé virtuel, ce qui permet aux ressources d'un réseau de communiquer avec les ressources de l'autre à l'aide d'adresses IP internes. Lors de sa configuration, Dataproc Metastore établit une connexion d'appairage de réseau VPC gérée à votre réseau de cloud privé virtuel. Pour en savoir plus, consultez la section Appairage de réseaux VPC.
  • Règles de pare-feu : des règles de pare-feu appropriées sont nécessaires pour autoriser le trafic entre vos charges de travail Dataproc et l'instance Dataproc Metastore.
  • Résolution Cloud DNS : vérifiez que la résolution DNS est correctement configurée dans votre réseau de cloud privé virtuel pour résoudre l'URI du point de terminaison Dataproc Metastore en son adresse IP privée.

Étapes de configuration

Pour vérifier que votre instance Dataproc Metastore dispose d'un accès réseau approprié, procédez comme suit :

1. Configurer l'accès aux services privés

Dataproc Metastore utilise Private Service Access pour établir une connexion privée entre votre réseau de cloud privé virtuel et le réseau du producteur de services géré par Google où réside votre instance Dataproc Metastore.

  • Valider une connexion d'accès aux services privés :
    1. Dans la console Google Cloud , accédez à Réseau de cloud privé virtuel > Appairage de réseaux VPC.
    2. Vérifiez qu'une connexion d'appairage nommée servicenetworking-googleapis-com existe et que son état est ACTIVE.
    3. Si cette connexion est manquante ou inactive, suivez les instructions de la section Configurer l'accès aux services privés. Cela inclut l'allocation d'une plage d'adresses IP pour le réseau du producteur de services.

2. Configurer les règles de pare-feu

Vérifiez que les règles de pare-feu de votre réseau de cloud privé virtuel (ou du projet hôte de cloud privé virtuel partagé, le cas échéant) autorisent le trafic nécessaire.

  • Règle de sortie de la charge de travail vers le metastore :
    • Vérifiez qu'une règle de pare-feu de sortie autorise le trafic TCP sortant de votre cluster Dataproc ou de vos charges de travail Dataproc sans serveur vers la plage d'adresses IP de votre instance Dataproc Metastore sur le port 9083. Il s'agit du port par défaut pour Hive Metastore.
    • Si vous utilisez l'accès aux services privés, ce trafic sera acheminé de manière privée.
  • Règles d'entrée (moins courantes pour les clients vers le metastore) :
    • En règle générale, vous n'avez pas besoin de configurer de règles d'entrée sur votre cloud privé virtuel pour le trafic depuis l'instance Dataproc Metastore vers votre charge de travail, car la communication provient généralement de la charge de travail. Toutefois, vérifiez qu'aucune règle d'entrée trop restrictive ne bloque par inadvertance les réponses nécessaires.

3. Vérifier la résolution DNS

Vos charges de travail Dataproc doivent résoudre l'URI du point de terminaison Dataproc Metastore en son adresse IP privée.

  • Appairage DNS ou zones privées : si vous utilisez des serveurs DNS personnalisés ou des zones Cloud DNS privées, vérifiez que les requêtes DNS pour le point de terminaison Dataproc Metastore (par exemple, your-metastore-endpoint.us-central1.dataproc.cloud.google.com) sont correctement transférées ou résolues vers la plage d'adresses IP privées utilisée par l'accès aux services privés.
  • Tester la résolution DNS : à partir d'une VM du même sous-réseau que votre charge de travail Dataproc, utilisez nslookup ou dig pour vérifier que le point de terminaison Dataproc Metastore est résolu en adresse IP privée.

Résoudre les problèmes de connectivité réseau

Si vous rencontrez des problèmes de connectivité après avoir configuré l'accès au réseau, suivez les étapes de dépannage ci-dessous :

Étapes suivantes