Redes

En esta página, se proporciona información de segundo plano sobre la conexión a tus fuentes de datos desde instancias públicas o privadas de Cloud Data Fusion desde entornos de diseño y ejecución.

Antes de comenzar

En esta página, se supone que estás familiarizado con estos términos:

Proyecto de inquilino

Cloud Data Fusion crea un proyecto de usuario que contiene los recursos y los servicios que necesita para administrar canalizaciones en tu nombre. Por ejemplo: ejecutar canalizaciones en tus clústeres de Dataproc que residen en tu proyecto de cliente. Un proyecto de usuario no está expuesto a los clientes, pero cuando creas una instancia privada, es posible que debas usar el nombre del proyecto de usuario para configurar el intercambio de tráfico de VPC.

Un proyecto de usuario puede tener varias instancias de Cloud Data Fusion. Puedes acceder a los recursos y servicios que tiene un proyecto de usuario a través de una instancia de Cloud Data Fusion desde la IU web de Cloud Data Fusion o la CLI de Google Cloud.

Para obtener más información, consulta la documentación de Infraestructura de servicios sobre los proyectos de usuario.

Proyecto de cliente

El cliente crea y posee este proyecto. Según la configuración predeterminada, Cloud Data Fusion crea un clúster efímero de Dataproc en este proyecto para ejecutar las canalizaciones de los clientes.

Instancia de Cloud Data Fusion

Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion. Para comenzar a usar Cloud Data Fusion, debes crear una instancia de Cloud Data Fusion mediante Google Cloud Console.

Puedes crear varias instancias en un solo proyecto de Google Cloud y especificar la región de Google Cloud en la que deseas crear tus instancias de Cloud Data Fusion.

Según tus requisitos y restricciones de costos, puedes crear una instancia de Desarrollador, básica o empresarial.

Cada instancia de Cloud Data Fusion contiene una implementación independiente y única Cloud Data Fusion que contiene un conjunto de servicios que controlan la administración del ciclo de vida de las canalizaciones, la organización, la coordinación y la administración de metadatos. Estos servicios se ejecutan mediante recursos de larga duración en un proyecto de usuario.

Diagrama de red

Puedes compilar canalizaciones de datos que extraigan, transformen, combinen, agreguen y carguen datos de varias fuentes de datos locales y en la nube.

En las versiones 6.4 y posteriores de Cloud Data Fusion, consulta los diagramas para controlar la salida en una instancia privada y conectarte a una fuente pública.

Para las versiones de Cloud Data Fusion anteriores a la 6.4, en el siguiente diagrama de arquitectura del sistema se muestra cómo Cloud Data Fusion se conecta con fuentes de datos de servicios como Vista previa o Wrangler en un proyecto de usuario y Dataproc en un proyecto de cliente.

Diagrama de red de Cloud Data Fusion

Ventajas de usar un proyecto de usuario

Usar un proyecto de usuario en Cloud Data Fusion tiene las siguientes ventajas:

  • Los usuarios y desarrolladores solo pueden usar servicios administrados en un proyecto de usuario proporcionado por la IU web de Cloud Data Fusion o la CLI de gcloud.
  • Los usuarios no pueden ver ni administrar recursos en un proyecto de usuario, por lo que no se les cobrará ni se realizarán cambios no deseados en los servicios, lo que podría provocar interrupciones del sistema.
  • Cada servicio administrado en el proyecto de usuario tiene su propia red y subred de VPC.

Entornos de diseño y ejecución

Cloud Data Fusion proporciona una separación de los entornos de diseño y ejecución, lo que te permite diseñar una canalización una vez y, luego, ejecutarla en varios entornos. El entorno de diseño reside en el proyecto de usuario, mientras que el entorno de ejecución se encuentra en uno o más proyectos de clientes.

Ejemplo: Diseñas tu canalización con los servicios de Cloud Data Fusion, como Wrangler y Vista previa. Esos servicios se ejecutan en el proyecto de usuario, en el que la función de Agente de servicios de Cloud Data Fusion administrada por Google controla el acceso a los datos. Luego, ejecuta la canalización en tu proyecto de cliente para que use tu clúster de Dataproc. En el proyecto del cliente, el acceso a los datos se controla mediante la cuenta de servicio predeterminada de Compute Engine. Puedes configurar tu proyecto para usar una cuenta de servicio personalizada.

Para obtener más información sobre la configuración de cuentas de servicio, consulta cuentas de servicio de Cloud Data Fusion.

Entorno de diseño

Cuando creas una instancia de Cloud Data Fusion en el proyecto de cliente, Cloud Data Fusion crea automáticamente un proyecto de usuario independiente administrado por Google para cada proyecto de cliente. En el proyecto de usuario, ejecuta los servicios necesarios para administrar el ciclo de vida de las canalizaciones y los metadatos, la IU de Cloud Data Fusion y las herramientas de tiempo de diseño como Vista previa y Wrangler.

Entorno de ejecución

Después de verificar e implementar tu canalización en una instancia, ejecuta la canalización de forma manual o según un programa de tiempo o un activador de estado de la canalización.

Ya sea que Cloud Data Fusion o el cliente aprovisionen y administren el entorno de ejecución, el entorno existe en el proyecto de cliente.

Instancias de Cloud Data Fusion

Hay dos tipos de instancias de Cloud Data Fusion según un modelo de acceso: una instancia pública (predeterminada) y una instancia privada.

Instancias públicas (opción predeterminada)

La forma más fácil de aprovisionar una instancia de Cloud Data Fusion es crear una instancia pública. Sirve como punto de partida y proporciona acceso a extremos externos en la Internet pública.

Una instancia pública en Cloud Data Fusion usa la red de VPC predeterminada del proyecto.

La red de VPC predeterminada tiene las siguientes características:

  • Subredes generadas automáticamente para cada región
  • Enruta tablas
  • Reglas de firewall para garantizar la comunicación entre tus recursos de procesamiento

Herramientas de redes entre regiones

Cuando creas un proyecto nuevo, un beneficio de la red de VPC predeterminada es que propaga de forma automática una subred por región con un rango de direcciones IP predefinido, expresado como un bloque CIDR. Los rangos de direcciones IP comienzan con 10.128.0.0/20, 10.132.0.0/20, en todas las regiones globales de Google Cloud.

Para garantizar que tus recursos de procesamiento se conecten entre sí en todas las regiones, la red de VPC predeterminada establece las rutas locales predeterminadas para cada subred. Cuando configuras la ruta predeterminada a Internet (0.0.0.0/0), obtienes acceso a Internet y capturas el tráfico de red sin enrutar.

Reglas de firewall

La red de VPC predeterminada proporciona un conjunto de reglas de firewall:

Predeterminado Descripción
Permite de forma predeterminada icmp Habilita el protocolo icmp para 0.0.0.0/0 de destino
Default allow internal Habilita tcp:0-65535, udp:0-65535, icmp para 10.128.0.0/9 de destino, que abarca una cantidad mínima de 10.128.0.1 a una cantidad máxima de 10.255.255.254 direcciones IP)
Permite de forma predeterminada rdp Habilita tcp:3389 para 0.0.0.0/0 de destino
Permite de forma predeterminada ssh Habilita tcp:22 para 0.0.0.0/0 de destino

Esta configuración predeterminada de la red de VPC minimiza los requisitos para configurar servicios de nube, incluido Cloud Data Fusion. Debido a las inquietudes relacionadas con la seguridad de la red, las organizaciones no suelen permitirte usar la red de VPC predeterminada para las operaciones empresariales. Sin la red de VPC predeterminada, no puedes crear una instancia pública de Cloud Data Fusion. En su lugar, sigue los pasos para crear una instancia privada de Cloud Data Fusion.

La red de VPC predeterminada no otorga acceso abierto a los recursos. En cambio, el servicio de administración de identidades y accesos (IAM) controla quién puede acceder a los recursos:

  • Se requiere una identidad validada para acceder a Google Cloud.
  • Después de acceder, necesitas un permiso explícito (por ejemplo, la función de visualizador) para ver los servicios de Google Cloud.

Instancias privadas

Algunas organizaciones requieren que todos sus sistemas de producción estén aislados de las direcciones IP públicas. Una instancia privada de Cloud Data Fusion cumple con ese requisito en todo tipo de configuración de red de VPC.

En las versiones de Cloud Data Fusion anteriores a la 6.4, los entornos de diseño y ejecución usan direcciones IP privadas. No usan direcciones IP públicas de Internet que no están conectadas a ningún Compute Engine de Cloud Data Fusion. Como resultado, como una herramienta de tiempo de diseño, la instancia de IP privada de Cloud Data Fusion no puede acceder a las fuentes de datos en la Internet pública.

Para conectarte a fuentes de datos en la Internet pública desde una instancia privada, diseña tu canalización en una instancia pública y, luego, para su ejecución, muévela a una instancia privada en un proyecto de cliente, en el que controlas las políticas de VPC. Debes conectarte a los datos desde los proyectos que usas durante el diseño y la ejecución.

Acceso a los datos en entornos de diseño y ejecución

En una instancia pública, la comunicación de red se realiza a través de Internet abierta, lo que no se recomienda para entornos críticos. Para acceder de forma segura a tus fuentes de datos, ejecuta siempre tus canalizaciones desde una instancia privada en tu entorno de ejecución.

En la versión 6.4 de Cloud Data Fusion, cuando diseñas tu canalización, no puedes acceder a las fuentes de datos en la Internet abierta desde una instancia privada. En su lugar, debes diseñar tu canalización en un proyecto de usuario mediante una instancia pública para conectarte a las fuentes de datos en Internet. Después de compilar tu canalización, muévela a un proyecto de cliente y ejecútala en una instancia privada para que puedas controlar las políticas de VPC. Debes conectarte a tus datos desde ambos proyectos.

Si quieres obtener más información sobre los tipos de instancias y proyectos necesarios para acceder a varias fuentes de datos, consulta la sección Acceso a las fuentes.

Acceso a las fuentes

Si tu entorno de ejecución se ejecuta en una versión de Cloud Data Fusion anterior a la 6.4, solo puedes acceder a los recursos dentro de tu red de VPC. Configurar Cloud VPN o Cloud Interconnect te permite acceder a las fuentes de datos locales. Las versiones de Cloud Data Fusion anteriores a la 6.4 solo pueden acceder a las fuentes en la Internet pública si configuras una puerta de enlace de Cloud NAT.

Cuando accedas a fuentes de datos, instancias públicas y privadas, haz lo siguiente:

  • Realiza llamadas salientes a las API de Google Cloud mediante el Acceso privado a Google
  • Comunícate con un entorno de ejecución (Dataproc) a través del intercambio de tráfico de VPC

En la siguiente tabla, se comparan instancias públicas y privadas durante el diseño y la ejecución de varias fuentes de datos:

Fuente de datos Instancia pública de Cloud Data Fusion
(tiempo de diseño)
Dataproc público de Cloud Data Fusion
(ejecución)
Instancia privada de Cloud Data Fusion
(tiempo de diseño)
Dataproc privado de Cloud Data Fusion Dataproc
(ejecución)
Fuente de Google Cloud
(después de otorgar permisos y configurar reglas de firewall)
Fuente local
(después de configurar la VPN/la interconexión, otorgar permisos y establecer reglas de firewall)
Fuente de Internet pública
(después de otorgar permisos y configurar reglas de firewall)
versiones ≥ 6.4 versiones < 6.4

¿Qué sigue?