En esta página se proporciona información general sobre cómo conectarse a sus fuentes de datos desde instancias públicas o privadas de Cloud Data Fusion en entornos de diseño y de ejecución.
Antes de empezar
Para usar las redes en Cloud Data Fusion, es necesario tener conocimientos básicos de lo siguiente:
Proyecto de cliente
Cloud Data Fusion crea un proyecto de arrendatario que contiene los recursos y los servicios necesarios para gestionar los flujos de procesamiento en tu nombre. Por ejemplo, cuando ejecuta flujos de procesamiento en los clústeres de Dataproc que se encuentran en tu proyecto de cliente.
El proyecto de inquilino no se te muestra directamente, pero cuando
creas una instancia privada, usas el nombre del proyecto para configurar el
emparejamiento de VPC. Cada instancia privada del proyecto de inquilino tiene su propia red VPC y subred.
El proyecto puede tener varias instancias de Cloud Data Fusion. Puedes gestionar los recursos y servicios que contiene cuando accedes a una instancia en la interfaz de usuario de Cloud Data Fusion o en la CLI de Google Cloud.
Para obtener más información, consulta la documentación de Service Infrastructure sobre los
proyectos de propietario.
Proyecto de cliente
El cliente crea este proyecto y es su propietario. De forma predeterminada, Cloud Data Fusion crea un clúster de Dataproc efímero en este proyecto para ejecutar tus flujos de procesamiento.
Instancia de Cloud Data Fusion
Una instancia de Cloud Data Fusion es una implementación única de Cloud Data Fusion en la que diseñas y ejecutas flujos de procesamiento. Puedes crear varias instancias en un solo proyecto y especificar la Google Cloud región en la que se crearán las instancias de Cloud Data Fusion. En función de tus requisitos y limitaciones de costes, puedes crear una instancia que use la edición Developer, Basic o Enterprise de Cloud Data Fusion. Cada instancia contiene una implementación única e independiente de Cloud Data Fusion que incluye un conjunto de servicios que gestionan el ciclo de vida de los flujos de procesamiento, la orquestación, la coordinación y la gestión de metadatos. Estos servicios se ejecutan con recursos de larga duración en un proyecto de cliente.
Diagrama de red
En los siguientes diagramas se muestran las conexiones que se establecen al crear flujos de datos que extraen, transforman, combinan, agregan y cargan datos de varias fuentes de datos locales y en la nube.
Consulta los diagramas para controlar el tráfico de salida en una instancia privada y conectarse a una fuente pública.
Diseño y ejecución de la canalización
Cloud Data Fusion ofrece entornos de diseño y de ejecución independientes, lo que te permite diseñar un flujo de procesamiento una vez y, después, ejecutarlo en varios entornos. El entorno de diseño se encuentra en el proyecto del arrendatario, mientras que el entorno de ejecución está en uno o varios proyectos del cliente.
Por ejemplo, diseñas tu flujo de procesamiento con servicios de Cloud Data Fusion, como Wrangler y Vista previa. Estos servicios se ejecutan en el proyecto de inquilino, donde el acceso a los datos se controla mediante el rol agente de servicio de Cloud Data Fusion, gestionado por Google. A continuación, ejecuta la canalización en tu proyecto de cliente para que utilice tu clúster de Dataproc. En el proyecto del cliente, la cuenta de servicio predeterminada de Compute Engine controla el acceso a los datos. Puedes configurar tu proyecto para que use una cuenta de servicio personalizada.
Para obtener más información sobre cómo configurar cuentas de servicio, consulta Cuentas de servicio de Cloud Data Fusion.
Entorno de diseño
Cuando creas una instancia de Cloud Data Fusion en tu proyecto de cliente, Cloud Data Fusion crea automáticamente un proyecto de inquilino independiente gestionado por Google para ejecutar los servicios necesarios para gestionar el ciclo de vida de las canalizaciones y los metadatos, la interfaz de usuario de Cloud Data Fusion y las herramientas de tiempo de diseño, como Vista previa y Wrangler.
Resolución de DNS en Cloud Data Fusion
Para resolver nombres de dominio en tu entorno de tiempo de diseño cuando manipules y previsualices los datos que vas a transferir a Google Cloud, usa el peering de DNS (disponible a partir de Cloud Data Fusion 6.7.0). Te permite usar dominios o nombres de host para las fuentes y los receptores, que no tienes que volver a configurar con tanta frecuencia como las direcciones IP.
Se recomienda la resolución de DNS en tu entorno de tiempo de diseño de Cloud Data Fusion cuando pruebes conexiones y previsualices las canalizaciones que usen nombres de dominio de servidores locales u otros servidores (como bases de datos o servidores FTP) en una red VPC privada.
Para obtener más información, consulta los artículos sobre peerings de DNS y reenvío de Cloud DNS.
Entorno de ejecución
Después de verificar e implementar tu canalización en una instancia, puedes ejecutarla manualmente o se ejecutará según una programación o un activador de estado de la canalización.
Tanto si el entorno de ejecución lo aprovisiona y gestiona Cloud Data Fusion como si lo hace el cliente, el entorno se encuentra en el proyecto del cliente.
Instancias públicas (predeterminadas)
La forma más sencilla de aprovisionar una instancia de Cloud Data Fusion es crear una instancia pública. Funciona bien como punto de partida y proporciona acceso a endpoints externos en Internet público.
Una instancia pública de Cloud Data Fusion usa la red VPC predeterminada de tu proyecto.
La red de VPC predeterminada tiene lo siguiente:
- Subredes generadas automáticamente para cada región
- Tablas de enrutamiento
- Reglas de cortafuegos para asegurar la comunicación entre tus recursos informáticos
Redes entre regiones
Cuando creas un proyecto, una de las ventajas de la red VPC predeterminada es que rellena automáticamente una subred por región con un intervalo de direcciones IP predefinido, expresado como un bloque CIDR. Los intervalos de direcciones IP empiezan por 10.128.0.0/20
y 10.132.0.0/20
en las Google Cloud regiones globales.
Para asegurarte de que tus recursos informáticos se conecten entre sí en diferentes regiones, la red de VPC predeterminada define las rutas locales predeterminadas de cada subred. Si configuras la ruta predeterminada a Internet (0.0.0.0/0
), podrás acceder a Internet y capturar el tráfico de red sin enrutar.
Reglas de cortafuegos
La red de VPC predeterminada proporciona un conjunto de reglas de cortafuegos:
Predeterminado | Descripción |
---|---|
Permitir de forma predeterminada icmp |
Habilitar el protocolo icmp para la fuente 0.0.0.0/0 |
Permitir de forma predeterminada (interno) | Habilita tcp:0-65535 , udp:0-65535 y icmp para la fuente 10.128.0.0/9 , que abarca las direcciones IP de 10.128.0.1 a 10.255.255.254 . |
Permitir de forma predeterminada rdp |
Habilitar tcp:3389 en la fuente 0.0.0.0/0 |
Permitir de forma predeterminada ssh |
Habilitar tcp:22 en la fuente 0.0.0.0/0 |
Estos ajustes predeterminados de la red de VPC minimizan los requisitos previos para configurar servicios en la nube, incluido Cloud Data Fusion. Debido a problemas de seguridad de la red, las organizaciones no suelen permitir que se use la red VPC predeterminada para las operaciones empresariales. Si no tienes una red de VPC predeterminada, no puedes crear una instancia pública de Cloud Data Fusion. En su lugar, crea una instancia privada.
La red de VPC predeterminada no concede acceso abierto a los recursos. En su lugar, la gestión de identidades y accesos (IAM) controla el acceso:
- Para iniciar sesión en Google Cloud, debes tener una identidad validada.
- Una vez que hayas iniciado sesión, necesitarás un permiso explícito (por ejemplo, el rol Lector) para ver los servicios de Google Cloud .
Instancias privadas
Algunas organizaciones requieren que todos sus sistemas de producción estén aislados de las direcciones IP públicas. Una instancia privada de Cloud Data Fusion cumple ese requisito en todo tipo de configuraciones de red de VPC.
Private Service Connect en Cloud Data Fusion
Es posible que las instancias de Cloud Data Fusion tengan que conectarse a recursos ubicados en entornos on-premise, en Google Cloudo en otros proveedores de servicios en la nube. Cuando se usa Cloud Data Fusion con direcciones IP internas, las conexiones a recursos externos se establecen a través de la red de VPC de tu proyectoGoogle Cloud . El tráfico de la red no pasa por la red pública de Internet. Cuando se le da acceso a Cloud Data Fusion a tu VPC mediante el emparejamiento entre redes de VPC, hay limitaciones que se hacen evidentes cuando usas redes a gran escala.
Con las interfaces de Private Service Connect, Cloud Data Fusion se conecta a tu VPC sin usar el peering de redes de VPC. La interfaz de Private Service Connect es un tipo de Private Service Connect que permite a Cloud Data Fusion iniciar conexiones privadas y seguras con redes de VPC de consumidores. De esta forma, no solo se ofrece la flexibilidad y la facilidad de acceso (como el peering de redes de VPC), sino también la autorización explícita y el control del lado del consumidor que ofrece Private Service Connect. Para obtener más información, consulta Crear una instancia privada con Private Service Connect.
Acceso a los datos en entornos de diseño y ejecución
En una instancia pública, la comunicación de red se produce a través de Internet, lo que no se recomienda en entornos críticos. Para acceder de forma segura a tus fuentes de datos, ejecuta siempre tus canalizaciones desde una instancia privada en tu entorno de ejecución.
Acceso a las fuentes
Al acceder a fuentes de datos, instancias públicas y privadas:
- hacer llamadas salientes a las APIs de Google Cloud con Acceso privado de Google
- Comunicarse con un entorno de ejecución (Dataproc) mediante el emparejamiento de VPCs
En la siguiente tabla se comparan las instancias públicas y privadas durante el diseño y la ejecución de varias fuentes de datos:
Fuentes de datos | Instancia pública de Cloud Data Fusion (tiempo de diseño) |
Dataproc de Data Fusion de nube pública (ejecución) |
Instancia privada de Cloud Data Fusion (tiempo de diseño) |
Dataproc de Cloud Data Fusion privado (ejecución) |
---|---|---|---|---|
Google Cloud source (después de conceder permisos y configurar las reglas del cortafuegos) |
||||
Fuente local (después de configurar la VPN o la interconexión, conceder permisos y definir reglas de cortafuegos) |
||||
Fuente de Internet pública (después de conceder permisos y definir reglas de cortafuegos) |
Siguientes pasos
- Control de acceso en Cloud Data Fusion
- Cuentas de servicio en Cloud Data Fusion
- Crear una instancia pública
- Crear una instancia privada