Introducción a las herramientas de redes de Cloud Data Fusion

En esta página, se proporciona información de segundo plano sobre la conexión a tus fuentes de datos desde instancias públicas o privadas de Cloud Data Fusion desde entornos de diseño y ejecución.

Antes de comenzar

Herramientas de redes en Cloud Data Fusion requiere un conocimiento básico de la lo siguiente:

Proyecto de inquilino

Cloud Data Fusion crea un proyecto de usuario que contiene los recursos. y servicios necesarios para administrar canalizaciones en tu nombre, como cuando ejecuta canalizaciones en los clústeres de Dataproc que se encuentran en tu proyecto del cliente.

El proyecto de usuario no se expone directamente a ti, pero cuando creas una instancia privada, usas el nombre del proyecto para configurar VPC intercambio de tráfico entre redes de VPC. Cada instancia privada en el proyecto de usuario tiene su propia red de VPC y subred.

El proyecto puede tener varias instancias de Cloud Data Fusion. Tú administrar los recursos y servicios que contiene cuando accedes a una instancia en la IU de Cloud Data Fusion o Google Cloud CLI.
Para obtener más información, consulta la documentación de Service Infrastructure sobre proyectos de usuario.

Proyecto del cliente

El cliente crea y posee este proyecto. De forma predeterminada, Cloud Data Fusion crea un clúster efímero de Dataproc en este proyecto para ejecutar tus canalizaciones.

Instancia de Cloud Data Fusion

Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion, donde se diseñan y ejecutan canalizaciones. Puedes crear varias instancias en un solo proyecto y especificar la Región de Google Cloud en la que se creará Cloud Data Fusion individuales. Según tus requisitos y restricciones de costos, puedes crear una que usa el Desarrolladores, básicos o empresariales de Cloud Data Fusion. Cada instancia contiene una instancia de Cloud Data Fusion independiente y única. implementación que contiene un conjunto de servicios que manejan el ciclo de vida de la canalización gestión, organización, coordinación y gestión de metadatos. Estos se ejecutan con recursos de larga duración en un proyecto de usuario.

Diagrama de red

En los siguientes diagramas, se muestran las conexiones cuando compilas canalizaciones de datos que extraer, transformar, combinar, agregar y cargar datos de diversas fuentes locales y fuentes de datos en la nube.

Consulta los diagramas controlar la salida en una instancia privada y conectarse a una fuente pública.

Diseño y ejecución de la canalización

Cloud Data Fusion proporciona una separación de los entornos de diseño y ejecución, lo que te permite diseñar una canalización una vez y, luego, ejecutarla en varios entornos. El entorno de diseño reside en el proyecto de usuario, mientras que el entorno de ejecución se encuentra en uno o más proyectos de clientes.

Ejemplo: Diseña tu canalización con los servicios de Cloud Data Fusion, como Wrangler y vista previa. Esos servicios se ejecutan en el proyecto de usuario, donde el acceso a los datos son controlados por la entidad Agente de servicio de Cloud Data Fusion en el área de la seguridad en la nube. Luego, ejecuta la canalización en tu proyecto de cliente para que use tu clúster de Dataproc. En el proyecto del cliente, la configuración La cuenta de servicio de Compute Engine controla el acceso a los datos. Puedes configurar tu proyecto para usar una cuenta de servicio personalizada.

Para obtener más información sobre la configuración de cuentas de servicio, consulta cuentas de servicio de Cloud Data Fusion.

Entorno de diseño

Cuando creas una instancia de Cloud Data Fusion en el proyecto de tu cliente, Cloud Data Fusion crea automáticamente un usuario independiente administrado por Google proyecto para ejecutar los servicios necesarios para administrar el ciclo de vida de las canalizaciones y metadatos, la IU de Cloud Data Fusion y herramientas de diseño como Preview y Wrangler.

Resolución de DNS en Cloud Data Fusion

Resolver nombres de dominio en su entorno de diseño cuando gestione y obtener una vista previa de los datos que transfieres a Google Cloud, usa el intercambio de tráfico de DNS (disponible a partir de Cloud Data Fusion 6.7.0). Te permite usar dominios o nombres de host para fuentes y receptores, que no necesitas volver a configurar con tanta frecuencia direcciones IP internas.

Se recomienda la resolución de DNS en el entorno de tiempo de diseño Cloud Data Fusion, cuando pruebes conexiones y obtengas una vista previa de las canalizaciones que usan nombres de dominio de servidores locales o de otros servidores (como bases de datos o servidores FTP), en una red de VPC privada.

Para obtener más información, consulta Intercambio de tráfico de DNS y Reenvío de Cloud DNS.

Entorno de ejecución

Después de verificar e implementar tu canalización en una instancia, ejecuta la canalización de forma manual o según un programa de tiempo o un activador de estado de la canalización.

Si el entorno de ejecución está aprovisionado y administrado por Cloud Data Fusion o el cliente, el entorno existe en tu cliente en un proyecto final.

Instancias públicas (opción predeterminada)

La forma más fácil de aprovisionar una instancia de Cloud Data Fusion es crear una instancia pública. Sirve como punto de partida y proporciona acceso a extremos externos en la Internet pública.

Una instancia pública en Cloud Data Fusion usa la red de VPC predeterminada del proyecto.

La red de VPC predeterminada tiene las siguientes características:

  • Subredes generadas automáticamente para cada región
  • Enruta tablas
  • Reglas de firewall para garantizar la comunicación entre tus recursos de procesamiento

Herramientas de redes entre regiones

Cuando creas un proyecto nuevo, un beneficio de la red de VPC predeterminada es que propaga de forma automática una subred por región con un rango de direcciones IP predefinido, expresado como un bloque CIDR. Los rangos de direcciones IP comienzan con 10.128.0.0/20, 10.132.0.0/20, en todas las regiones globales de Google Cloud.

Para garantizar que tus recursos de procesamiento se conecten entre sí en todas las regiones, la red de VPC predeterminada establece las rutas locales predeterminadas para cada subred. Cuando configuras la ruta predeterminada a Internet (0.0.0.0/0), obtienes acceso a Internet y capturas el tráfico de red sin enrutar.

Reglas de firewall

La red de VPC predeterminada proporciona un conjunto de reglas de firewall:

Predeterminada Descripción
Permite de forma predeterminada icmp Habilita el protocolo icmp para 0.0.0.0/0 de destino
Default allow internal Habilitar tcp:0-65535. udp:0-65535; icmp para la fuente 10.128.0.0/9, que abarca desde un mínimo de 10.128.0.1 hasta un máximo de 10.255.255.254 direcciones IP
Permite de forma predeterminada rdp Habilita tcp:3389 para 0.0.0.0/0 de destino
Permite de forma predeterminada ssh Habilita tcp:22 para 0.0.0.0/0 de destino

Esta configuración predeterminada de la red de VPC minimiza los requisitos para configurar servicios de nube, incluido Cloud Data Fusion. Debido a inquietudes sobre la seguridad de redes, las organizaciones no suelen permitirte usar el red de VPC para operaciones comerciales. Sin la configuración predeterminada red de VPC, no puedes crear una red pública de instancia. En cambio, crear una instancia privada

La red de VPC predeterminada no otorga acceso abierto a los recursos. En su lugar, Identity and Access Management (IAM) controla el acceso:

  • Se requiere una identidad validada para acceder a Google Cloud.
  • Después de acceder, necesitas un permiso explícito (por ejemplo, Visualizador) para ver los servicios de Google Cloud.

Instancias privadas

Algunas organizaciones requieren que todos sus sistemas de producción estén aislados de las direcciones IP públicas. Una instancia privada de Cloud Data Fusion cumple con ese requisito en todo tipo de configuración de red de VPC.

Private Service Connect en Cloud Data Fusion

Es posible que las instancias de Cloud Data Fusion deban conectarse a recursos ubicados de forma local, en Google Cloud o en otros proveedores de servicios en la nube. Al usar Cloud Data Fusion con direcciones IP internas, conexiones a externas se establecen a través de la red de VPC en tu proyecto de Google Cloud. El tráfico de la red no pasa por la por la Internet pública. Cuando se proporciona acceso a Cloud Data Fusion a tu VPC mediante el intercambio de tráfico entre redes de VPC, existen limitaciones, que se hacen evidentes cuando usas redes a gran escala.

Con interfaces de Private Service Connect, Cloud Data Fusion se conecta a tu VPC sin usar el intercambio de tráfico entre redes de VPC. La interfaz de Private Service Connect un tipo de Private Service Connect que le proporciona a Cloud Data Fusion una forma de iniciar acciones privadas y seguras conexiones a redes de VPC del consumidor. Esto no solo proporciona la flexibilidad y facilita el acceso (como el intercambio de tráfico entre redes de VPC), pero también brinda la autorización y control del lado del consumidor que que ofrece Private Service Connect. Para obtener más información, consulta Crear una instancia privada con Private Service Connect

Acceso a los datos en entornos de diseño y ejecución

En una instancia pública, la comunicación de red se realiza a través de Internet abierta, lo que no se recomienda para entornos críticos. Para acceder de forma segura a tus fuentes de datos, ejecuta siempre tus canalizaciones desde una instancia privada en tu entorno de ejecución.

Acceso a las fuentes

Cuando accedas a fuentes de datos, instancias públicas y privadas, haz lo siguiente:

  • Realiza llamadas salientes a las API de Google Cloud mediante el Acceso privado a Google
  • Comunícate con un entorno de ejecución (Dataproc) a través del intercambio de tráfico de VPC

En la siguiente tabla, se comparan instancias públicas y privadas durante el diseño y la ejecución de varias fuentes de datos:

Fuente de datos Instancia pública de Cloud Data Fusion
(tiempo de diseño)
Dataproc público de Cloud Data Fusion
(ejecución)
Instancia privada de Cloud Data Fusion
(tiempo de diseño)
Dataproc privado de Cloud Data Fusion Dataproc
(ejecución)
Fuente de Google Cloud
(después de otorgar permisos y configurar reglas de firewall)
Fuente local
(después de configurar la VPN/la interconexión, otorgar permisos y establecer reglas de firewall)
Fuente de Internet pública
(después de otorgar permisos y configurar reglas de firewall)

¿Qué sigue?