Migra datos de Amazon Redshift con VPC

Resumen

En este documento, se explica cómo migrar datos de Amazon Redshift a BigQuery mediante una red de nube privada virtual (VPC).

Si deseas transferir datos de tu instancia de Redshift a través de IP públicas, puedes migrar tus datos de Redshift a BigQuery con estas instrucciones.

Si tienes una instancia privada de Amazon Redshift en AWS, puedes migrar esos datos a BigQuery mediante el intercambio de tráfico de VPC. Para habilitar esta función, debes especificar la VPC y el rango de IP reservado cuando configures la migración.

  • Deberás configurar una red privada virtual (VPN) entre la red de VPC de Amazon Redshift y la red de VPC de Google Cloud.
  • A través de la VPN, el agente de migración que se ejecuta en la VPC de Google Cloud activará una operación de descarga de Amazon Redshift a un área de etapa de pruebas en un depósito de Amazon S3.
  • Luego, el Servicio de transferencia de datos de BigQuery transfiere los datos del depósito de Amazon S3 a BigQuery.

En el siguiente diagrama, se muestran las comunicaciones de VPC y el flujo general de datos entre una instancia privada de Amazon Redshift y BigQuery durante una migración.

Antes de comenzar

En esta sección, se describe el proceso paso a paso de configuración de una migración de datos de una instancia privada de Amazon Redshift a BigQuery. Estos son los pasos:

  • Requisitos de Google Cloud: cumple con los requisitos previos y establece permisos en Google Cloud.
  • Configura una VPN entre Google Cloud y Amazon Redshift
  • Otorga acceso a tu clúster de Amazon Redshift.
  • Otorga acceso a tu depósito de Amazon S3 que usarás para habilitar a etapa los datos de manera temporal. Toma nota del par de claves de acceso, para usarlo en un paso posterior.
  • Configura la migración con el Servicio de transferencia de datos de BigQuery. Necesitarás:
    • El VPC y el rango de IP reservado en Amazon Redshift.
    • La URL de JDBC de Amazon Redshift. Sigue estas instrucciones para obtener la URL de JDBC.
    • El nombre de usuario y la contraseña de tu base de datos de Amazon Redshift.
    • El par de claves de acceso de AWS que obtendrás del paso: Otorga acceso a tu depósito de S3.
    • El URI del depósito de Amazon S3. Te recomendamos que configures una política de ciclo de vida para este depósito a fin de evitar cargos innecesarios. La fecha de caducidad recomendada es de 24 horas a fin de permitir el tiempo suficiente para transferir todos los datos a BigQuery.

Permisos necesarios

Antes de crear una transferencia de Amazon Redshift, haz lo siguiente:

  1. Asegúrate de que la persona que crea la transferencia tenga los siguientes permisos obligatorios en BigQuery:

    • Los permisos bigquery.transfers.update para crear la transferencia
    • Los permisos bigquery.datasets.update en el conjunto de datos de destino

    La función predefinida de IAM bigquery.admin incluye los permisos bigquery.transfers.update y bigquery.datasets.update. Para obtener más información sobre las funciones de IAM en el Servicio de transferencia de datos de BigQuery, consulta la referencia del control de acceso.

  2. Consulta la documentación de Amazon S3 y asegúrate de tener configurados los permisos necesarios para habilitar la transferencia. Como mínimo, los datos de origen de Amazon S3 deben estar sujetos a la política administrada de AWS AmazonS3ReadOnlyAccess.

  3. Para compilar el intercambio de tráfico de VPC, el servicio usará las credenciales de usuario de Google Cloud de la persona que configuró la transferencia. Asegúrate de que la persona que crea la transferencia tenga los permisos necesarios para crear la conexión de intercambio de tráfico de VPC mediante la asignación de los permisos de IAM adecuados para crear y borrar el intercambio de tráfico de red de VPC.

  • Los permisos para crear intercambio de tráfico de VPC son los siguientes: compute.networks.addPeering

    • Los permisos para borrar el intercambio de tráfico de VPC son los siguientes: compute.networks.removePeering

    Las funciones predefinidas de IAM project.owner, project.editor y network.admin incluyen los permisos compute.networks.addPeering y compute.networks.removePeering de forma predeterminada.

Requisitos de Google Cloud

Sigue las instrucciones de migración estándar de Amazon Redshift para cumplir con los requisitos de Google Cloud.

Configura la VPN

  1. Configura una red de VPC de Google Cloud en tu proyecto de Google Cloud.

  2. Configura la VPN Sigue las instrucciones de esta guía para configurar una VPN entre la red de VPC de tu proyecto de Google Cloud y la VPC de Amazon Redshift. Precaución: El servicio usa el nombre de tu red de VPC como el nombre de conexión de intercambio de tráfico de VPC, por lo que debes asegurarte de que no haya ninguna conexión de intercambio de tráfico de VPC existente con ese nombre.

  3. Otorga permisos para realizar el intercambio de tráfico de VPC en Google Cloud. Asegúrate de tener los permisos necesarios para crear la conexión de intercambio de tráfico de VPC. Consulta Permisos necesarios.

  4. Antes de continuar, asegúrate de que tu red de VPC de Google Cloud exista en tu proyecto de Google Cloud y de que ya esté conectada a Redshift a través de la VPN.

Otorga acceso a tu clúster de Amazon Redshift

Sigue las instrucciones de Amazon para permitir la lista de rangos de IP de tu clúster privado de Amazon Redshift. En un paso posterior, definirás el rango de IP privado en esta red de VPC, cuando configures la transferencia.

Otorga acceso a tu depósito de Amazon S3

Sigue las instrucciones de migración estándar de Amazon Redshift para otorgar acceso a tu depósito de Amazon S3.

Control de cargas de trabajo con una cola de migración independiente (opcional)

Puedes definir una cola de Amazon Redshift con fines de migración para limitar y separar los recursos usados en la migración. Esta cola de migración se puede configurar con un recuento máximo de consultas simultáneas. Luego, puedes asociar un grupo de usuarios de migración determinado a la cola y usar esas credenciales mediante la configuración de la migración para transferir datos a BigQuery. El servicio de transferencia solo tendrá acceso a la cola de migración.

Configura una transferencia de Amazon Redshift

Sigue las instrucciones de migración estándar de Amazon Redshift a fin de configurar una transferencia de Amazon Redshift con la siguiente diferencia para las instancias privadas de Amazon Redshift:

  • En el campo de configuración de la transferencia de la URL de conexión de JDBC, ingresarás el campo de VPC y de rango de IP reservado de la instancia privada de Amazon Redshift.
  • Si no proporcionas estos datos, la configuración de transferencia se establecerá como una migración estándar de Amazon Redshift.

Para ingresar la VPC y el rango de IP reservado, haz lo siguiente:

  1. En el campo de VPC y de rango de IP reservado, especifica el nombre de tu red de VPC y el rango de IP privado esperado como un bloque de CIDR a fin de aprovisionar la infraestructura de migración.

    Campo de CIDR de la migración de Amazon Redshift

    • El formulario es VPC_network_name:CIDR, por ejemplo: my_vpc:10.251.1.0/24.
    • Usa rangos de direcciones de red de VPC estándar privadas en la notación de CIDR que comiencen con 10.x.x.x.
    • El rango de IP privado se usa para aprovisionar la infraestructura de migración, así que asegúrate de lo siguiente:
      • De que el rango de IP sea lo suficientemente amplio (que tenga más de 10 direcciones IP)
      • De que el rango de IP no se superponga con ninguna subred en tu red de VPC de Google Cloud ni en la red de VPC de Amazon Redshift.
    • Si tienes varias transferencias configuradas para la misma instancia de Amazon Redshift, asegúrate de usar el mismo valor VPC_network_name:CIDR en cada una, de modo que varias transferencias puedan reutilizar la misma infraestructura de migración.

Cuotas y límites

En la migración de instancias privadas de Amazon Redshift con la VPC, se ejecutan agentes de migración en una sola infraestructura de instancia. Debido a los límites de recursos de procesamiento, se permiten, como máximo, 5 ejecuciones simultáneas de transferencias.

Se aplican las mismas cuotas y los mismos límites que para las Migraciones estándar desde Amazon Redshift.

Qué sigue