Introducción a las herramientas de redes de Cloud Data Fusion

En esta página, se proporciona información de segundo plano sobre la conexión a tus fuentes de datos desde instancias públicas o privadas de Cloud Data Fusion desde entornos de diseño y ejecución.

Antes de comenzar

Herramientas de redes en Cloud Data Fusion requiere conocimientos básicos de lo siguiente:

Proyecto de inquilino

Cloud Data Fusion crea un proyecto de usuario que contiene los recursos y servicios necesarios para administrar las canalizaciones en tu nombre, como cuando ejecuta canalizaciones en los clústeres de Dataproc que residen en tu proyecto de cliente.

El proyecto de usuario no se expone de forma directa, pero, cuando creas una instancia privada, debes usar el nombre del proyecto para configurar el intercambio de tráfico de VPC. Cada instancia privada en el proyecto de usuario tiene su propia red de VPC y subred.

El proyecto puede tener varias instancias de Cloud Data Fusion. Tú administras los recursos y servicios que contiene cuando accedes a una instancia en la IU de Cloud Data Fusion o Google Cloud CLI.
Para obtener más información, consulta la documentación de Service Infrastructure sobre proyectos de usuario.

Proyecto del cliente

El cliente crea y posee este proyecto. De forma predeterminada, Cloud Data Fusion crea un clúster efímero de Dataproc en este proyecto para ejecutar las canalizaciones.

Instancia de Cloud Data Fusion

Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion, en la que diseñas y ejecutas canalizaciones. Puedes crear varias instancias en un solo proyecto y especificar la región de Google Cloud en la que se crearán las instancias de Cloud Data Fusion. Según tus requisitos y restricciones de costos, puedes crear una instancia que use la edición Developer, Basic o Enterprise de Cloud Data Fusion. Cada instancia contiene una implementación independiente y única de Cloud Data Fusion que contiene un conjunto de servicios que se encargan de la administración del ciclo de vida de la canalización, la organización, la coordinación y la administración de metadatos. Estos servicios se ejecutan con recursos de larga duración en un proyecto de usuario.

Diagrama de red

En los siguientes diagramas, se muestran las conexiones cuando compilas canalizaciones de datos que extraen, transforman, combinan, agregan y cargan datos de varias fuentes de datos locales y en la nube.

Consulta los diagramas para controlar la salida en una instancia privada y conectarse a una fuente pública.

Diseño y ejecución de la canalización

Cloud Data Fusion proporciona una separación de los entornos de diseño y ejecución, lo que te permite diseñar una canalización una vez y, luego, ejecutarla en varios entornos. El entorno de diseño reside en el proyecto de usuario, mientras que el entorno de ejecución se encuentra en uno o más proyectos de clientes.

Ejemplo: Diseña tu canalización con los servicios de Cloud Data Fusion, como Wrangler y Preview. Esos servicios se ejecutan en el proyecto de usuario, en el que el acceso a los datos se controla mediante el rol del agente de servicio de Cloud Data Fusion administrado por Google. Luego, ejecuta la canalización en tu proyecto de cliente para que use tu clúster de Dataproc. En el proyecto del cliente, la cuenta de servicio de Compute Engine controla el acceso a los datos. Puedes configurar tu proyecto para que use una cuenta de servicio personalizada.

Para obtener más información sobre la configuración de cuentas de servicio, consulta cuentas de servicio de Cloud Data Fusion.

Entorno de diseño

Cuando creas una instancia de Cloud Data Fusion en el proyecto de tu cliente, Cloud Data Fusion crea de forma automática un proyecto de usuario separado administrado por Google a fin de ejecutar los servicios necesarios para administrar el ciclo de vida de las canalizaciones y los metadatos, la IU de Cloud Data Fusion y las herramientas de diseño, como Preview y Wrangler.

Resolución de DNS en Cloud Data Fusion

Para resolver los nombres de dominio en tu entorno de diseño cuando derives y obtén una vista previa de los datos que transfieres a Google Cloud, usa el intercambio de tráfico de DNS (disponible a partir de Cloud Data Fusion 6.7.0). Te permite usar nombres de dominio o host para fuentes y receptores, que no necesitas volver a configurar con tanta frecuencia como las direcciones IP.

Se recomienda la resolución de DNS en tu entorno de diseño en Cloud Data Fusion, cuando pruebas conexiones y obtienes vistas previas de las canalizaciones que usan nombres de dominio de otros servidores locales o de otros (como bases de datos o servidores FTP) en una red de VPC privada.

Para obtener más información, consulta Intercambio de tráfico de DNS y Reenvío de Cloud DNS.

Entorno de ejecución

Después de verificar e implementar tu canalización en una instancia, ejecuta la canalización de forma manual o según un programa de tiempo o un activador de estado de la canalización.

Ya sea que Cloud Data Fusion o el cliente aprovisionen y administren el entorno de ejecución, el entorno existe en el proyecto del cliente.

Instancias públicas (opción predeterminada)

La forma más fácil de aprovisionar una instancia de Cloud Data Fusion es crear una instancia pública. Sirve como punto de partida y proporciona acceso a extremos externos en la Internet pública.

Una instancia pública en Cloud Data Fusion usa la red de VPC predeterminada del proyecto.

La red de VPC predeterminada tiene las siguientes características:

  • Subredes generadas automáticamente para cada región
  • Enruta tablas
  • Reglas de firewall para garantizar la comunicación entre tus recursos de procesamiento

Herramientas de redes entre regiones

Cuando creas un proyecto nuevo, un beneficio de la red de VPC predeterminada es que propaga de forma automática una subred por región con un rango de direcciones IP predefinido, expresado como un bloque CIDR. Los rangos de direcciones IP comienzan con 10.128.0.0/20, 10.132.0.0/20, en todas las regiones globales de Google Cloud.

Para garantizar que tus recursos de procesamiento se conecten entre sí en todas las regiones, la red de VPC predeterminada establece las rutas locales predeterminadas para cada subred. Cuando configuras la ruta predeterminada a Internet (0.0.0.0/0), obtienes acceso a Internet y capturas el tráfico de red sin enrutar.

Reglas de firewall

La red de VPC predeterminada proporciona un conjunto de reglas de firewall:

Predeterminado Descripción
Permite de forma predeterminada icmp Habilita el protocolo icmp para 0.0.0.0/0 de destino
Default allow internal Habilita tcp:0-65535; udp:0-65535; icmp para la fuente 10.128.0.0/9, que abarca desde un mínimo de 10.128.0.1 hasta un máximo de 10.255.255.254 direcciones IP.
Permite de forma predeterminada rdp Habilita tcp:3389 para 0.0.0.0/0 de destino
Permite de forma predeterminada ssh Habilita tcp:22 para 0.0.0.0/0 de destino

Esta configuración predeterminada de la red de VPC minimiza los requisitos para configurar servicios de nube, incluido Cloud Data Fusion. Debido a inquietudes sobre la seguridad de la red, las organizaciones a menudo no te permiten usar la red de VPC predeterminada para las operaciones comerciales. Sin la red de VPC predeterminada, no puedes crear una instancia pública de Cloud Data Fusion. En su lugar, crea una instancia privada.

La red de VPC predeterminada no otorga acceso abierto a los recursos. En su lugar, Identity and Access Management (IAM) controla el acceso:

  • Se requiere una identidad validada para acceder a Google Cloud.
  • Después de acceder, necesitas permiso explícito (por ejemplo, la función de visualizador) para ver los servicios de Google Cloud.

Instancias privadas

Algunas organizaciones requieren que todos sus sistemas de producción estén aislados de las direcciones IP públicas. Una instancia privada de Cloud Data Fusion cumple con ese requisito en todo tipo de configuración de red de VPC.

Acceso a los datos en entornos de diseño y ejecución

En una instancia pública, la comunicación de red se realiza a través de Internet abierta, lo que no se recomienda para entornos críticos. Para acceder de forma segura a tus fuentes de datos, ejecuta siempre tus canalizaciones desde una instancia privada en tu entorno de ejecución.

Acceso a las fuentes

Cuando accedas a fuentes de datos, instancias públicas y privadas, haz lo siguiente:

  • Realiza llamadas salientes a las API de Google Cloud mediante el Acceso privado a Google
  • Comunícate con un entorno de ejecución (Dataproc) a través del intercambio de tráfico de VPC

En la siguiente tabla, se comparan instancias públicas y privadas durante el diseño y la ejecución de varias fuentes de datos:

Fuente de datos Instancia pública de Cloud Data Fusion
(tiempo de diseño)
Dataproc público de Cloud Data Fusion
(ejecución)
Instancia privada de Cloud Data Fusion
(tiempo de diseño)
Dataproc privado de Cloud Data Fusion Dataproc
(ejecución)
Fuente de Google Cloud
(después de otorgar permisos y configurar reglas de firewall)
Fuente local
(después de configurar la VPN/la interconexión, otorgar permisos y establecer reglas de firewall)
Fuente de Internet pública
(después de otorgar permisos y configurar reglas de firewall)

¿Qué sigue?