Introducción a las herramientas de redes de Cloud Data Fusion

En esta página, se proporciona información de segundo plano sobre la conexión a tus fuentes de datos desde instancias públicas o privadas de Cloud Data Fusion desde entornos de diseño y ejecución.

Antes de comenzar

Para usar las herramientas de redes en Cloud Data Fusion, debes tener conocimientos básicos de lo siguiente:

Proyecto de inquilino

Cloud Data Fusion crea un proyecto de usuario que contiene los recursos y los servicios necesarios para administrar canalizaciones en tu nombre, como cuando ejecuta canalizaciones en los clústeres de Dataproc que se encuentran en tu proyecto de cliente.

El proyecto de usuario no se expone directamente, pero, cuando creas una instancia privada, usas el nombre del proyecto para configurar el intercambio de tráfico entre VPC. Cada instancia privada en el proyecto de usuario tiene su propia red y subred de VPC.

El proyecto puede tener varias instancias de Cloud Data Fusion. Administras los recursos y servicios que contiene cuando accedes a una instancia en la IU de Cloud Data Fusion o Google Cloud CLI.
Para obtener más información, consulta la documentación de Infraestructura de servicios sobre proyectos de usuario.

Proyecto del cliente

El cliente crea y posee este proyecto. De forma predeterminada, Cloud Data Fusion crea un clúster efímero de Dataproc en este proyecto para ejecutar tus canalizaciones.

Instancia de Cloud Data Fusion

Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion, en la que diseñas y ejecutas canalizaciones. Puedes crear varias instancias en un solo proyecto y especificar la región de Google Cloud en la que deseas crear las instancias de Cloud Data Fusion. Según tus requisitos y restricciones de costos, puedes crear una instancia que use la edición Desarrollador, básica o empresarial de Cloud Data Fusion. Cada instancia contiene una implementación única e independiente de Cloud Data Fusion que contiene un conjunto de servicios que controlan la administración del ciclo de vida de las canalizaciones, la organización, la coordinación y la administración de metadatos. Estos servicios se ejecutan mediante recursos de larga duración en un proyecto de usuario.

Diagrama de red

En los siguientes diagramas, se muestran las conexiones cuando compilas canalizaciones de datos que extraen, transforman, combinan, agregan y cargan datos de varias fuentes de datos locales y en la nube.

Consulta los diagramas para controlar la salida en una instancia privada y conectarte a una fuente pública.

Diseño y ejecución de canalizaciones

Cloud Data Fusion proporciona una separación de los entornos de diseño y ejecución, lo que te permite diseñar una canalización una vez y, luego, ejecutarla en varios entornos. El entorno de diseño reside en el proyecto de usuario, mientras que el entorno de ejecución se encuentra en uno o más proyectos de clientes.

Ejemplo: Diseñas tu canalización con los servicios de Cloud Data Fusion, como Wrangler y Preview. Esos servicios se ejecutan en el proyecto de usuario, en el que la función de Agente de servicios de Cloud Data Fusion administrada por Google controla el acceso a los datos. Luego, ejecuta la canalización en tu proyecto de cliente para que use tu clúster de Dataproc. En el proyecto del cliente, la cuenta de servicio predeterminada de Compute Engine controla el acceso a los datos. Puedes configurar tu proyecto para usar una cuenta de servicio personalizada.

Para obtener más información sobre la configuración de cuentas de servicio, consulta cuentas de servicio de Cloud Data Fusion.

Entorno de diseño

Cuando creas una instancia de Cloud Data Fusion en tu proyecto de cliente, Cloud Data Fusion crea automáticamente un proyecto de usuario independiente administrado por Google para ejecutar los servicios necesarios para administrar el ciclo de vida de las canalizaciones y los metadatos, la IU de Cloud Data Fusion y las herramientas de tiempo de diseño como Preview y Wrangler.

Resolución de DNS en Cloud Data Fusion

Para resolver nombres de dominio en tu entorno de tiempo de diseño cuando manipulas y obtienes una vista previa de los datos que transfieres a Google Cloud, usa el intercambio de tráfico de DNS (disponible a partir de Cloud Data Fusion 6.7.0). Te permite usar nombres de dominio o de host para fuentes y receptores, que no es necesario volver a configurar con tanta frecuencia como las direcciones IP.

Se recomienda la resolución de DNS en tu entorno de tiempo de diseño en Cloud Data Fusion cuando pruebas conexiones y obtienes una vista previa de las canalizaciones que usan nombres de dominio de servidores locales o de otros servidores (como bases de datos o servidores FTP) en una red de VPC privada.

Para obtener más información, consulta PEER de DNS y Reenvío de Cloud DNS.

Entorno de ejecución

Después de verificar e implementar tu canalización en una instancia, ejecuta la canalización de forma manual o según un programa de tiempo o un activador de estado de la canalización.

Ya sea que Cloud Data Fusion o el cliente aprovisionen y administren el entorno de ejecución, el entorno existe en el proyecto de cliente.

Instancias públicas (opción predeterminada)

La forma más fácil de aprovisionar una instancia de Cloud Data Fusion es crear una instancia pública. Sirve como punto de partida y proporciona acceso a extremos externos en la Internet pública.

Una instancia pública en Cloud Data Fusion usa la red de VPC predeterminada del proyecto.

La red de VPC predeterminada tiene lo siguiente:

  • Subredes generadas automáticamente para cada región
  • Enruta tablas
  • Reglas de firewall para garantizar la comunicación entre tus recursos de procesamiento

Herramientas de redes entre regiones

Cuando creas un proyecto nuevo, un beneficio de la red de VPC predeterminada es que propaga de forma automática una subred por región con un rango de direcciones IP predefinido, expresado como un bloque CIDR. Los rangos de direcciones IP comienzan con 10.128.0.0/20, 10.132.0.0/20, en todas las regiones globales. Google Cloud

Para garantizar que tus recursos de procesamiento se conecten entre sí en todas las regiones, la red de VPC predeterminada establece las rutas locales predeterminadas para cada subred. Cuando configuras la ruta predeterminada a Internet (0.0.0.0/0), obtienes acceso a Internet y capturas el tráfico de red sin enrutar.

Reglas de firewall

La red de VPC predeterminada proporciona un conjunto de reglas de firewall:

Predeterminada Descripción
Permite de forma predeterminada icmp Habilita el protocolo icmp para 0.0.0.0/0 de destino
Default allow internal Habilita tcp:0-65535, udp:0-65535, icmp para 10.128.0.0/9 de origen, que abarca una cantidad mínima de 10.128.0.1 a una cantidad máxima de 10.255.255.254 direcciones IP
Permite de forma predeterminada rdp Habilita tcp:3389 para 0.0.0.0/0 de destino
Permite de forma predeterminada ssh Habilita tcp:22 para 0.0.0.0/0 de destino

Esta configuración predeterminada de la red de VPC minimiza los requisitos para configurar servicios de nube, incluido Cloud Data Fusion. Debido a las inquietudes relacionadas con la seguridad de la red, las organizaciones no suelen permitirte usar la red de VPC predeterminada para las operaciones empresariales. Sin la red de VPC predeterminada, no puedes crear una instancia pública de Cloud Data Fusion. En su lugar, crea una instancia privada.

La red de VPC predeterminada no otorga acceso abierto a los recursos. En cambio, la administración de identidades y accesos (IAM) controla el acceso:

  • Se requiere una identidad validada para acceder a Google Cloud.
  • Después de acceder, necesitas un permiso explícito (por ejemplo, el rol de visor) para ver los servicios de Google Cloud .

Instancias privadas

Algunas organizaciones requieren que todos sus sistemas de producción estén aislados de las direcciones IP públicas. Una instancia privada de Cloud Data Fusion cumple con ese requisito en todo tipo de configuración de red de VPC.

Private Service Connect en Cloud Data Fusion

Es posible que las instancias de Cloud Data Fusion deban conectarse a recursos ubicados de forma local, en Google Cloudo en otros proveedores de servicios en la nube. Cuando usas Cloud Data Fusion con direcciones IP internas, las conexiones a los recursos externos se establecen a través de la red de VPC en tu proyectoGoogle Cloud . El tráfico de la red no pasa por la Internet pública. Cuando se le otorga acceso a Cloud Data Fusion a tu VPC mediante el intercambio de tráfico entre redes de VPC, existen limitaciones, que se hacen evidentes cuando usas redes a gran escala.

Con las interfaces de Private Service Connect, Cloud Data Fusion se conecta a tu VPC sin usar el intercambio de tráfico entre redes de VPC. La interfaz de Private Service Connect es un tipo de Private Service Connect que proporciona una forma para que Cloud Data Fusion inicie conexiones privadas y seguras a redes de VPC de consumidor. Esto no solo proporciona flexibilidad y facilidad de acceso (como el intercambio de tráfico entre redes de VPC), sino que también proporciona la autorización explícita y el control del consumidor que ofrece Private Service Connect. Para obtener más información, consulta Cómo crear una instancia privada con Private Service Connect.

Acceso a los datos en entornos de diseño y ejecución

En una instancia pública, la comunicación de red se realiza a través de Internet abierta, lo que no se recomienda para entornos críticos. Para acceder de forma segura a tus fuentes de datos, ejecuta siempre tus canalizaciones desde una instancia privada en tu entorno de ejecución.

Acceso a las fuentes

Cuando accedas a fuentes de datos, instancias públicas y privadas, haz lo siguiente:

  • Realiza llamadas salientes a las APIs de Google Cloud con el Acceso privado a Google
  • Comunícate con un entorno de ejecución (Dataproc) a través del intercambio de tráfico de VPC

En la siguiente tabla, se comparan instancias públicas y privadas durante el diseño y la ejecución de varias fuentes de datos:

Fuente de datos Instancia pública de Cloud Data Fusion
(tiempo de diseño)
Dataproc público de Cloud Data Fusion
(ejecución)
Instancia privada de Cloud Data Fusion
(tiempo de diseño)
Dataproc privado de Cloud Data Fusion Dataproc
(ejecución)
Google Cloud fuente
(después de otorgar permisos y configurar reglas de firewall)
Fuente local
(después de configurar la VPN/la interconexión, otorgar permisos y establecer reglas de firewall)
Fuente de Internet pública
(después de otorgar permisos y configurar reglas de firewall)

¿Qué sigue?