Redes

En esta página, se proporciona información general sobre cómo conectarse a tus fuentes de datos desde instancias públicas o privadas de Cloud Data Fusion desde entornos de diseño y ejecución.

Antes de comenzar

En esta página, se asume que estás familiarizado con estos términos:

Proyecto de inquilino

Cloud Data Fusion crea un proyecto de usuario que contiene los recursos y los servicios que necesita para administrar canalizaciones en tu nombre. Por ejemplo: ejecutar canalizaciones en tus clústeres de Dataproc que residen en tu proyecto de cliente. Un proyecto de usuario no está expuesto a los clientes, pero cuando creas una instancia privada, es posible que debas usar el nombre del proyecto de usuario para configurar el intercambio de tráfico de VPC.

Un proyecto de usuario puede tener varias instancias de Cloud Data Fusion. Puedes acceder a los recursos y servicios que un proyecto de usuario conserva a través de una instancia de Cloud Data Fusion desde la IU web de Cloud Data Fusion o la herramienta de línea de comandos de gcloud.

Para obtener más información, consulta la documentación de Infraestructura de servicios sobre los proyectos de usuario.

Proyecto de cliente

El cliente crea y posee este proyecto. De forma predeterminada, Cloud Data Fusion crea un clúster de Dataproc efímero en este proyecto para ejecutar las canalizaciones del cliente.

Instancia de Cloud Data Fusion

Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion. Para comenzar con Cloud Data Fusion, debes crear una instancia de Cloud Data Fusion con Google Cloud Console.

Puedes crear varias instancias en un solo proyecto de Google Cloud y especificar la región de Google Cloud en la que deseas crear tus instancias de Cloud Data Fusion.

Según tus requisitos y restricciones de costos, puedes crear una instancia de desarrollador, básico o empresarial.

Cada instancia de Cloud Data Fusion contiene una implementación única y independiente de Cloud Data Fusion que contiene un conjunto de servicios que controlan la administración del ciclo de vida de la canalización, la organización, la coordinación y la administración de metadatos. Estos servicios se ejecutan mediante recursos de larga duración en un proyecto de usuario.

Diagrama de red

Puedes compilar canalizaciones de datos que extraigan, transformen, combinen y agreguen datos de varias fuentes locales y de datos en la nube.

Para las versiones 6.4 y superiores de Cloud Data Fusion, consulta los diagramas de control de las salidas en una instancia privada y conéctate a una fuente pública.

Para las versiones de Cloud Data Fusion inferiores a 6.4, el siguiente diagrama de arquitectura del sistema muestra cómo Cloud Data Fusion se conecta con fuentes de datos de servicios como Preview o Wrangler en un proyecto de instancia y Dataproc en un proyecto de cliente.

Diagrama de red de Cloud Data Fusion

Ventajas de usar un proyecto de usuario

Usar un proyecto de usuario en Cloud Data Fusion tiene las siguientes ventajas:

  • Los usuarios y los desarrolladores solo pueden usar servicios administrados en un proyecto de usuario que se proporciona mediante la IU web de Cloud Data Fusion o la herramienta de gcloud.
  • Los usuarios no pueden ver ni administrar recursos en un proyecto de usuario, por lo que no se les cobrarán ni realicen cambios no deseados en los servicios, lo que podría causar interrupciones del sistema.
  • Cada servicio administrado en el proyecto de instancia tiene su propia red de VPC y subred.

Entornos de diseño y ejecución

Cloud Data Fusion ofrece separación de entornos de diseño y ejecución, que te permiten diseñar una canalización una vez y, luego, ejecutarla en varios entornos. El entorno de diseño reside en el proyecto de instancia, mientras que el entorno de ejecución está en uno o más proyectos de clientes.

Ejemplo: Diseña tu canalización con los servicios de Cloud Data Fusion, como Wrangler y vista previa. Esos servicios se ejecutan en el proyecto de instancia, en el que el acceso a los datos se controla mediante la función de agente de servicios de Cloud Data Fusion administrado por Google. Luego, ejecuta la canalización en tu proyecto de cliente para que use tu clúster de Dataproc. En el proyecto de cliente, el acceso a los datos se controla mediante la cuenta de servicio predeterminada de Compute Engine. Puedes configurar el proyecto para usar una cuenta de servicio personalizada.

Para obtener más información sobre la configuración de las cuentas de servicio, consulta Cuentas de servicio de Cloud Data Fusion.

Entorno de diseño

Cuando creas una instancia de Cloud Data Fusion en tu proyecto de cliente, Cloud Data Fusion crea automáticamente un proyecto de instancia administrado por Google para cada proyecto del cliente de forma automática. En el proyecto de inquilino, ejecuta los servicios necesarios para administrar el ciclo de vida de las canalizaciones y los metadatos, la IU de Cloud Data Fusion y las herramientas de tiempo de diseño como la vista previa y Wrangler.

Entorno de ejecución

Después de verificar y, luego, implementar tu canalización en una instancia, ejecuta la canalización de forma manual o se ejecuta según un programa de tiempo o un activador de estado de la canalización.

El entorno existe en el proyecto de cliente, ya sea que aprovisione o administre el entorno de ejecución.

Instancias de Cloud Data Fusion

Hay dos tipos de instancias de Cloud Data Fusion en función de un modelo de acceso: una instancia pública (predeterminada) y una instancia privada.

Instancias públicas (predeterminada)

La forma más fácil de aprovisionar una instancia de Cloud Data Fusion es crear una instancia pública. Sirve como un punto de partida y proporciona acceso a extremos externos en la Internet pública.

Una instancia pública en Cloud Data Fusion usa la red de VPC predeterminada en tu proyecto.

La red de VPC predeterminada tiene las siguientes características:

  • Subredes generadas automáticamente para cada región
  • Enrutar tablas
  • Reglas de firewall para garantizar la comunicación entre tus recursos de procesamiento

Herramientas de redes entre regiones

Cuando creas un proyecto nuevo, un beneficio de la red de VPC predeterminada es que propaga automáticamente una subred por región con un rango de direcciones IP predefinido, expresado como un bloque CIDR. Los rangos de direcciones IP comienzan con 10.128.0.0/20, 10.132.0.0/20, en todas las regiones globales de Google Cloud.

A fin de garantizar que tus recursos de procesamiento se conecten entre sí entre las regiones, la red de VPC predeterminada establece las rutas locales predeterminadas para cada subred. Cuando configuras la ruta predeterminada a Internet (0.0.0.0/0), obtienes acceso a Internet y capturas el tráfico de red no enrutado.

Reglas de firewall

La red de VPC predeterminada proporciona un conjunto de reglas de firewall:

Predeterminada Descripción
Permitir predeterminado icmp Habilitar el protocolo icmp para el origen 0.0.0.0/0
Permitir predeterminado Habilitar tcp:0-65535; udp:0-65535; icmp para la fuente 10.128.0.0/9, que abarca un mínimo de 10.128.0.1 a un máximo de 10.255.255.254 direcciones IP)
Permitir predeterminado rdp Habilitar tcp:3389 para el origen 0.0.0.0/0
Permitir predeterminado ssh Habilitar tcp:22 para el origen 0.0.0.0/0

Esta configuración de red de VPC predeterminada minimiza los requisitos previos para configurar servicios en la nube, incluido Cloud Data Fusion. Debido a las inquietudes sobre la seguridad de red, las organizaciones a menudo no te permiten usar la red de VPC predeterminada para las operaciones empresariales. Sin la red de VPC predeterminada, no puedes crear una instancia pública de Cloud Data Fusion. En su lugar, sigue los pasos para crear una instancia privada de Cloud Data Fusion.

La red de VPC predeterminada no otorga acceso abierto a los recursos. En cambio, el servicio de administración de identidades y accesos (IAM) puede acceder a los recursos:

  • Se requiere una identidad validada para acceder a Google Cloud.
  • Después de acceder, necesitas permiso explícito (por ejemplo, la función de visualizador) para ver los servicios de Google Cloud.

Instancias privadas

Algunas organizaciones requieren que todos sus sistemas de producción estén aislados de las direcciones IP públicas. Una instancia privada de Cloud Data Fusion cumple ese requisito en todos los tipos de configuraciones de red de VPC.

En las versiones de Cloud Data Fusion inferiores a 6.4, los entornos de diseño y ejecución usan direcciones IP privadas. No usan direcciones IP de Internet públicas conectadas a cualquier Compute Engine de Cloud Data Fusion. Como resultado, como una herramienta de tiempo de diseño, la instancia de IP privada de Cloud Data Fusion no puede acceder a las fuentes de datos en la Internet pública.

Para conectarte a fuentes de datos en la Internet pública desde una instancia privada, debes diseñar tu canalización en una instancia pública y, luego, moverla a una instancia privada en un proyecto de cliente, donde controlas el Políticas de VPC. Debes conectarte a tus datos de los dos proyectos que usas durante el diseño y la ejecución.

Acceso a datos en entornos de diseño y ejecución

En una instancia pública, la comunicación de red se realiza a través de la Internet abierta, lo que no se recomienda para entornos críticos. Para acceder a tus fuentes de datos de forma segura, ejecuta siempre tus canalizaciones desde una instancia privada en tu entorno de ejecución.

En la versión 6.4 de Cloud Data Fusion, cuando diseñas tu canalización, no puedes acceder a fuentes de datos en la Internet abierta desde una instancia privada. En cambio, diseña tu canalización en un proyecto de instancia con una instancia pública para conectarte a fuentes de datos en Internet. Después de crear tu canalización, trasládala a un proyecto de cliente y ejecútala en una instancia privada para poder controlar las políticas de VPC. Debes conectarte a los datos de ambos proyectos.

Si deseas obtener más información sobre los tipos de instancias y proyectos necesarios para acceder a varias fuentes de datos, consulta la sección Acceso a fuentes.

Acceso a las fuentes

Si tu entorno de ejecución se ejecuta en una versión de Cloud Data Fusion inferior a 6.4, solo puedes acceder a los recursos dentro de tu red de VPC. Configurar Cloud VPN o Cloud Interconnect te permite acceder a fuentes de datos locales. Las versiones de Cloud Data Fusion anteriores a 6.4 solo pueden acceder a fuentes en la Internet pública si configuras una puerta de enlace de Cloud NAT.

Cuando se accede a fuentes de datos, instancias públicas y privadas:

  • Realizar llamadas salientes a las API de Google Cloud con el Acceso privado a Google
  • comunicarse con un entorno de ejecución (Dataproc) a través del intercambio de tráfico de VPC

En la siguiente tabla, se comparan instancias públicas y privadas durante el diseño y la ejecución de varias fuentes de datos:

Fuente de datos Instancia pública de Cloud Data Fusion
(tiempo de diseño)
Dataproc público de Cloud Data Fusion
(ejecución)
Instancia privada de Cloud Data Fusion
(tiempo de diseño)
Dataproc privado de Cloud Data Fusion
(ejecución)
Fuente de Google Cloud
(después de otorgar permisos y configurar reglas de firewall)
Fuente local
(después de configurar VPN/interconexión, otorgar permisos y configurar reglas de firewall)
Fuente de Internet pública
(después de otorgar permisos y establecer reglas de firewall)
versiones ≥ 6.4 versiones < 6.4

¿Qué sigue?