En esta página, se proporciona información de segundo plano sobre la conexión a tus fuentes de datos desde instancias públicas o privadas de Cloud Data Fusion desde entornos de diseño y ejecución.
Antes de comenzar
Para usar las herramientas de redes en Cloud Data Fusion, debes tener conocimientos básicos de lo siguiente:
Proyecto de inquilino
Cloud Data Fusion crea un proyecto de usuario que contiene los recursos.
y servicios necesarios para administrar canalizaciones en tu nombre, como cuando
ejecuta canalizaciones en los clústeres de Dataproc que se encuentran en tu
proyecto del cliente.
El proyecto de usuario no se expone directamente a ti, pero cuando
creas una instancia privada, usas el nombre del proyecto para configurar VPC
intercambio de tráfico entre redes de VPC. Cada instancia privada en el proyecto de usuario tiene su propia
red de VPC y subred.
El proyecto puede tener varias instancias de Cloud Data Fusion. Tú
administrar los recursos y servicios que contiene cuando accedes a una instancia en
la IU de Cloud Data Fusion o Google Cloud CLI.
Para obtener más información, consulta la documentación de Infraestructura de servicios sobre
proyectos de usuario.
Proyecto del cliente
El cliente crea y posee este proyecto. De forma predeterminada, Cloud Data Fusion crea un clúster efímero de Dataproc en este proyecto para ejecutar tus canalizaciones.
Instancia de Cloud Data Fusion
Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion, en la que diseñas y ejecutas canalizaciones. Puedes crear varias instancias en un solo proyecto y especificar la región de Google Cloud en la que deseas crear las instancias de Cloud Data Fusion. Según tus requisitos y restricciones de costos, puedes crear una que usa el Desarrolladores, básicos o empresariales de Cloud Data Fusion. Cada instancia contiene una instancia de Cloud Data Fusion independiente y única. implementación que contiene un conjunto de servicios que manejan el ciclo de vida de la canalización gestión, organización, coordinación y gestión de metadatos. Estos servicios se ejecutan mediante recursos de larga duración en un proyecto de usuario.
Diagrama de red
En los siguientes diagramas, se muestran las conexiones cuando compilas canalizaciones de datos que extraer, transformar, combinar, agregar y cargar datos de diversas fuentes locales y fuentes de datos en la nube.
Consulta los diagramas para controlar la salida en una instancia privada y conectarte a una fuente pública.
Diseño y ejecución de canalizaciones
Cloud Data Fusion proporciona una separación de los entornos de diseño y ejecución, lo que te permite diseñar una canalización una vez y, luego, ejecutarla en varios entornos. El entorno de diseño reside en el proyecto de usuario, mientras que el entorno de ejecución se encuentra en uno o más proyectos de clientes.
Ejemplo: Diseñas tu canalización con los servicios de Cloud Data Fusion, como Wrangler y Preview. Esos servicios se ejecutan en el proyecto de usuario, donde el acceso a los datos son controlados por el control de acceso Agente de servicio de Cloud Data Fusion en el área de la seguridad en la nube. Luego, ejecuta la canalización en tu proyecto de cliente para que use tu clúster de Dataproc. En el proyecto del cliente, la cuenta de servicio predeterminada de Compute Engine controla el acceso a los datos. Puedes configurar tu proyecto para usar una cuenta de servicio personalizada.
Para obtener más información sobre la configuración de cuentas de servicio, consulta cuentas de servicio de Cloud Data Fusion.
Entorno de diseño
Cuando creas una instancia de Cloud Data Fusion en tu proyecto de cliente, Cloud Data Fusion crea automáticamente un proyecto de usuario independiente administrado por Google para ejecutar los servicios necesarios para administrar el ciclo de vida de las canalizaciones y los metadatos, la IU de Cloud Data Fusion y las herramientas de tiempo de diseño como Preview y Wrangler.
Resolución de DNS en Cloud Data Fusion
Para resolver nombres de dominio en tu entorno de tiempo de diseño cuando vinculas y obtienes una vista previa de los datos que transfieres a Google Cloud, usa el intercambio de DNS (disponible a partir de la versión 6.7.0 de Cloud Data Fusion). Te permite usar dominios o nombres de host para fuentes y receptores, que no necesitas volver a configurar con tanta frecuencia direcciones IP internas.
Se recomienda la resolución de DNS en tu entorno de tiempo de diseño en Cloud Data Fusion cuando pruebas conexiones y obtienes una vista previa de las canalizaciones que usan nombres de dominio de servidores locales o de otros servidores (como bases de datos o servidores FTP) en una red de VPC privada.
Para obtener más información, consulta Asociación de DNS y Reenvío de Cloud DNS.
Entorno de ejecución
Después de verificar e implementar tu canalización en una instancia, ejecuta la canalización de forma manual o según un programa de tiempo o un activador de estado de la canalización.
Si el entorno de ejecución está aprovisionado y administrado por Cloud Data Fusion o el cliente, el entorno existe en tu cliente en un proyecto final.
Instancias públicas (opción predeterminada)
La forma más fácil de aprovisionar una instancia de Cloud Data Fusion es crear una instancia pública. Sirve como punto de partida y proporciona acceso a extremos externos en la Internet pública.
Una instancia pública en Cloud Data Fusion usa la red de VPC predeterminada del proyecto.
La red de VPC predeterminada tiene las siguientes características:
- Subredes generadas automáticamente para cada región
- Enruta tablas
- Reglas de firewall para garantizar la comunicación entre tus recursos de procesamiento
Herramientas de redes entre regiones
Cuando creas un proyecto nuevo, un beneficio de la red de VPC predeterminada es que propaga de forma automática una subred por región con un rango de direcciones IP predefinido, expresado como un bloque CIDR. Los rangos de direcciones IP comienzan con 10.128.0.0/20
, 10.132.0.0/20
, en todas las regiones globales de Google Cloud.
Para garantizar que tus recursos de procesamiento se conecten entre sí en todas las regiones, la red de VPC predeterminada establece las rutas locales predeterminadas para cada subred. Cuando configuras la ruta predeterminada a Internet (0.0.0.0/0
), obtienes acceso a Internet y capturas el tráfico de red sin enrutar.
Reglas de firewall
La red de VPC predeterminada proporciona un conjunto de reglas de firewall:
Predeterminada | Descripción |
---|---|
Permite de forma predeterminada icmp |
Habilita el protocolo icmp para 0.0.0.0/0 de destino |
Default allow internal | Habilita tcp:0-65535 , udp:0-65535 , icmp para 10.128.0.0/9 de origen, que abarca una cantidad mínima de 10.128.0.1 a una cantidad máxima de 10.255.255.254 direcciones IP |
Permite de forma predeterminada rdp |
Habilita tcp:3389 para 0.0.0.0/0 de destino |
Permite de forma predeterminada ssh |
Habilita tcp:22 para 0.0.0.0/0 de destino |
Esta configuración predeterminada de la red de VPC minimiza los requisitos para configurar servicios de nube, incluido Cloud Data Fusion. Debido a las inquietudes relacionadas con la seguridad de la red, las organizaciones no suelen permitirte usar la red de VPC predeterminada para las operaciones empresariales. Sin la configuración predeterminada red de VPC, no puedes crear una red pública de instancia. Más bien, crear una instancia privada
La red de VPC predeterminada no otorga acceso abierto a los recursos. En cambio, la administración de identidades y accesos (IAM) controla el acceso:
- Se requiere una identidad validada para acceder a Google Cloud.
- Después de acceder, necesitas un permiso explícito (por ejemplo, Visualizador) para ver los servicios de Google Cloud.
Instancias privadas
Algunas organizaciones requieren que todos sus sistemas de producción estén aislados de las direcciones IP públicas. Una instancia privada de Cloud Data Fusion cumple con ese requisito en todo tipo de configuración de red de VPC.
Private Service Connect en Cloud Data Fusion
Es posible que las instancias de Cloud Data Fusion deban conectarse a recursos ubicados de forma local, en Google Cloud o en otros proveedores de servicios en la nube. Cuando uses Cloud Data Fusion con direcciones IP internas, conexiones a externas se establecen a través de la red de VPC en tu proyecto de Google Cloud. El tráfico de la red no pasa por la por la Internet pública. Cuando se proporciona acceso a Cloud Data Fusion a tu VPC mediante el intercambio de tráfico entre redes de VPC, existen limitaciones, que se hacen evidentes cuando usas redes a gran escala.
Con las interfaces de Private Service Connect, Cloud Data Fusion se conecta a tu VPC sin usar el intercambio de tráfico entre redes de VPC. La interfaz de Private Service Connect un tipo de Private Service Connect que le proporciona a Cloud Data Fusion una forma de iniciar acciones privadas y seguras conexiones a redes de VPC del consumidor. Esto no solo proporciona la flexibilidad y la facilidad de acceso (como el intercambio de tráfico entre redes de VPC), sino también la autorización explícita y el control del consumidor que ofrece Private Service Connect. Para obtener más información, consulta Crear una instancia privada con Private Service Connect
Acceso a los datos en entornos de diseño y ejecución
En una instancia pública, la comunicación de red se realiza a través de Internet abierta, lo que no se recomienda para entornos críticos. Para acceder de forma segura a tus fuentes de datos, ejecuta siempre tus canalizaciones desde una instancia privada en tu entorno de ejecución.
Acceso a las fuentes
Cuando accedas a fuentes de datos, instancias públicas y privadas, haz lo siguiente:
- Realiza llamadas salientes a las API de Google Cloud mediante el Acceso privado a Google
- Comunícate con un entorno de ejecución (Dataproc) a través del intercambio de tráfico de VPC
En la siguiente tabla, se comparan instancias públicas y privadas durante el diseño y la ejecución de varias fuentes de datos:
Fuente de datos | Instancia pública de Cloud Data Fusion (tiempo de diseño) |
Dataproc público de Cloud Data Fusion (ejecución) |
Instancia privada de Cloud Data Fusion (tiempo de diseño) |
Dataproc privado de Cloud Data Fusion Dataproc (ejecución) |
---|---|---|---|---|
Fuente de Google Cloud (después de otorgar permisos y configurar reglas de firewall) |
||||
Fuente local (después de configurar la VPN/la interconexión, otorgar permisos y establecer reglas de firewall) |
||||
Fuente de Internet pública (después de otorgar permisos y configurar reglas de firewall) |
¿Qué sigue?
- Control de acceso en Cloud Data Fusion
- Cuentas de servicio en Cloud Data Fusion
- Crea una instancia pública
- Crea una instancia privada