Configura acceso a Internet y reglas de firewall

En esta página, se explica cómo proporcionar rutas y definir las reglas de firewall de Google Cloud Platform (GCP) para la red asociada a tus trabajos de Cloud Dataflow.

Nota: La red default tiene opciones de configuración que permiten la ejecución de trabajos de Cloud Dataflow. Sin embargo, otros servicios también pueden usar esta red. Asegúrate de que tus cambios a default sean compatibles con todos tus servicios. De forma alternativa, crea una red independiente para Cloud Dataflow.

Acceso a Internet para Cloud Dataflow

Las máquinas virtuales (VM) de trabajador de Cloud Dataflow necesitan poder comunicarse con las API y los servicios de GCP. Puedes configurar las VM de trabajador con una dirección IP externa para que cumplan con los requisitos de acceso a Internet o puedes usar el Acceso privado a Google.

Con el Acceso privado a Google, las VM que solo tienen direcciones IP internas pueden acceder a determinadas IP públicas para GCP y los servicios. Lee Cómo configurar el Acceso privado a Google para obtener más información sobre los requisitos de las reglas de enrutamiento y firewall y los pasos de configuración.

Los trabajos que acceden a las API y los servicios fuera de GCP requieren acceso a Internet. Por ejemplo, los trabajos del SDK de Python necesitan acceso al índice de paquetes de Python (PyPI). En este caso, debes configurar VM de trabajadores con direcciones IP externas o usar una solución de traducción de direcciones de red, como Cloud NAT. Lee el artículo sobre cómo administrar las dependencias de canalización de Python en el sitio web de Apache Beam para obtener más detalles.

Limitaciones del DNS

Cloud Dataflow no admite las direcciones IP virtuales restricted.googleapis.com ni private.googleapis.com porque no es compatible con la personalización del DNS.

Reglas de firewall

Con las reglas de firewall, puedes permitir o rechazar el tráfico hacia tus VM y desde ellas. En esta página, suponemos que estás familiarizado con el funcionamiento de las reglas de firewall de GCP como se describe en las páginas Descripción general de las reglas de firewall y Usar reglas de firewall, incluidas las reglas de firewall implícitas.

Reglas de firewall que requiere Cloud Dataflow

Cloud Dataflow requiere que las VM de trabajador se comuniquen entre sí mediante puertos TCP específicos en la red de VPC que especificaste en tus opciones de canalización. Debes configurar las reglas de firewall en tu red de VPC para permitir este tipo de comunicación.

Algunas redes de VPC, como la red default creada de forma automática, incluyen una regla default-allow-internal que cumple con los requisitos de firewall de Cloud Dataflow.

Debido a que todas las VM de trabajadores tienen una etiqueta de red con el valor dataflow, puedes crear una regla de firewall más específica para Cloud Dataflow. Un propietario, editor oadministrador de seguridad del proyecto puede usar el siguiente comando de gcloud para crear una regla de permiso de entrada que permita el tráfico en los puertos TCP 12345 y 12346 de las VM con la etiqueta de red dataflow a las VM con la misma etiqueta:

gcloud compute firewall-rules create FIREWALL_RULE_NAME \
    --network NETWORK \
    --action allow \
    --direction DIRECTION \
    --target-tags dataflow \
    --source-tags dataflow \
    --priority 0 \
    --rules tcp:12345-12346

En el ejemplo anterior, reemplaza las siguientes variables:

  • FIREWALL_RULE_NAME por un nombre para la regla de firewall
  • NETWORK por el nombre de la red que usan las VM de trabajadores
  • DIRECTION por la dirección de la regla de firewall

Para obtener orientación sobre las reglas de firewall, consulta Usar reglas de firewall. Para ver los puertos TCP específicos que usa Cloud Dataflow, puedes consultar el manifiesto del contenedor del proyecto. El manifiesto del contenedor especifica de manera explícita los puertos para asignar puertos de host al contenedor. También puedes ver la configuración y la actividad de red si abres una sesión SSH en uno de tus trabajadores y ejecutas iproute2. Lee la página sobre iproute2 para obtener más información.

Acceso SSH a las VM de trabajador

Cloud Dataflow no requiere SSH; sin embargo, SSH es útil para la solución de problemas.

Si tu VM de trabajador tiene una dirección IP externa, puedes conectarte a la VM a través de GCP Console o con la herramienta de la línea de comandos de gcloud. Para conectarte con SSH, debes tener una regla de firewall que permita conexiones entrantes en el puerto TCP 22 de al menos la dirección IP del sistema en el que ejecutas gcloud o el sistema que ejecuta el navegador web que usas para acceder a GCP Console.

Si necesitas conectarte a una VM de trabajador que solo tiene una dirección IP interna, consulta la sección sobre cómo conectarse a instancias que no tienen direcciones IP externas.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.