En esta página se explica cómo iniciar y gestionar una migración gestionada de Dataproc Metastore.
Puedes configurar una migración con las APIs de Dataproc Metastore.
Antes de empezar
- Consulta cómo funciona una migración gestionada.
- Configura los requisitos previos de la migración gestionada.
Iniciar migración
Cuando ejecutas una migración inicial, Dataproc Metastore se conecta a Cloud SQL y usa Cloud SQL como base de datos backend. Durante este proceso, Dataproc Metastore ejecuta una canalización que copia datos de Cloud SQL a su propia base de datos (Spanner).
Dataproc Metastore sigue usando Cloud SQL como backend y replica los datos hasta que se llama al proceso de migración completa.
Antes de iniciar una migración, asegúrate de que has configurado los requisitos previos de la migración gestionada.
Consideraciones previas a la migración
Un servicio de Dataproc Metastore solo puede ejecutar una migración a la vez.
Una migración permanece activa hasta que completas el proceso de migración. No hay un plazo para completar la migración. Por ejemplo, puede tardar 1 día, 30 días o un año.
Las copias de seguridad programadas no están restringidas durante una migración. Sin embargo, es posible que la copia de seguridad esté incompleta. Para evitar problemas, inhabilita las copias de seguridad programadas mientras se esté realizando la migración.
Una migración de inicio activa los siguientes cambios de estado:
- Dataproc Metastore pasa al estado
MIGRATING
. - El estado de ejecución de la migración pasa a
RUNNING
. La fase de ejecución de la migración pasa a
REPLICATION
.
Consola
Empezar
En la Google Cloud consola, abre la página Dataproc Metastore:
En la página Dataproc Metastore, haz clic en el nombre del servicio al que quieras migrar.
Se abrirá la página Detalles del servicio.
En la parte superior de la página, haz clic en Migrar datos.
Se abre la página Crear migración en la pestaña Conectividad y se muestran los ajustes de configuración de Cloud SQL database configuration for Dataproc Metastore (Configuración de la base de datos de Cloud SQL para Dataproc Metastore).
Configuración de la base de datos de Cloud SQL para DPMS
En Nombre de conexión de la instancia, introduce el nombre de conexión de la instancia de la base de datos de Cloud SQL con el siguiente formato:
project_id:region:instance_name
.En el campo Dirección IP, introduce la dirección IP necesaria para conectarte a la instancia de Cloud SQL.
En el campo Puerto, introduce 3306.
En Nombre de la base de datos de Hive, introduce el nombre de la base de datos que se usa como backend del almacén de metadatos de Hive autogestionado.
En el campo Nombre de usuario, introduce el nombre de usuario que usas para conectar Cloud SQL a Hive Metastore.
En el campo Contraseña, introduce la contraseña que usas para conectar Cloud SQL a Hive Metastore.
Servicio de proxy SOCKS5
En el campo Proxy Subnet (Subred proxy), introduzca una subred de tipo Regular. La subred debe estar presente en la red de VPC de Cloud SQL. Esta subred se usa para implementar el servicio de proxy SOCKS5 intermedio.
En el campo Subred NAT, introduce una subred de tipo Private Service Connect. Esta subred debe estar presente en la red de VPC de Cloud SQL y se usa para publicar el servicio de proxy SOCKS5 mediante Private Service Connect.
Haz clic en Continuar.
Se abrirá la pestaña Captura de datos de cambios (CDC) y se mostrarán los ajustes de configuración de la base de datos de Cloud SQL para Datastream.
Configuración de la base de datos de Cloud SQL para el flujo de datos
En el campo Nombre de usuario, introduce el nombre de usuario que usas para iniciar sesión en la CDC de Cloud SQL que usa Datastream.
En el campo Password (Contraseña), introduce la contraseña que usas para iniciar sesión en el CDC de Cloud SQL que usa Datastream.
En el campo Red de VPC, introduce la red de la misma VPC que la instancia de Cloud SQL que usa Datastream para establecer una conexión privada con el CDC.
En el campo Intervalo de IPs de subred, introduce un intervalo de IPs de subred de al menos
/29
. Datastream usa esta IP para establecer el emparejamiento con la red de VPC.En el campo Subred del proxy inverso, introduce la subred que has creado en la misma red de VPC que Cloud SQL. Datastream usa esta subred. La subred se usa para alojar una conexión de proxy inverso para la CDC de Datastream. La subred debe configurarse en la misma región que el servicio Dataproc Metastore.
Configuración de GCS
En ID de segmento, selecciona la ruta de Cloud Storage para almacenar los datos de CDC durante la migración.
En el campo Ruta raíz, introduce la ruta raíz del segmento de Cloud Storage. Los datos de eventos de la secuencia se escriben en esta ruta.
Haz clic en Crear.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type:application/json" \
-X POST -d \
'{
"migration_execution": {
"cloud_sql_migration_config": {
"cloud_sql_connection_config": {
"instance_connection_name": INSTANCE_CONNECTION_NAME,
"hive_database_name": "HIVE_DATABASE_NAME",
"ip_address": "IP_ADDRESS",
"port": 3306,
"username": "CONNECTION_USERNAME",
"password": "CONNECTION_PASSWORD",
"proxy_subnet": "PROXY_SUBNET",
"nat_subnet": "NAT_SUBNET"
},
"cdc_config": {
"username": "CDC_USENAME",
"password": "CDC_PASSWORD",
"vpc_network": "VPC_NETWORK",
"subnet_ip_range": "SUBNET_IP_RANGE",
"reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
"bucket": "BUCKET_NAME",
"root_path": "ROOT_PATH",
}
}
}
}' \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration
Haz los cambios siguientes:
SERVICE
: el nombre o el ID de tu servicio de Dataproc Metastore.PROJECT_ID
: el ID del proyecto en el que se encuentra tu servicio Dataproc Metastore. Google CloudLOCATION
: la Google Cloud región en la que se encuentra tu servicio Dataproc Metastore.
Configuración de Cloud SQL Migration
INSTANCE_CONNECTION_NAME
: el nombre de la conexión de la instancia de la base de datos de Cloud SQL, con el siguiente formato:PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID
.HIVE_DATABASE_NAME
: el nombre de la base de datos de Hive autogestionada conectada a Cloud SQL.IP_ADDRESS
: la dirección IP necesaria para conectarse a la instancia de Cloud SQL.CONNECTION_USERNAME
: el nombre de usuario que usas para conectar Cloud SQL a Hive Metastore.CONNECTION_PASSWORD
la contraseña que usas para conectar Cloud SQL a Hive MetastorePROXY_SUBNET
: la subred que se usa en la red VPC de Cloud SQL. Esta subred aloja un proxy intermedio para proporcionar conectividad entre redes transitivas.NAT_SUBNET
: una subred de Private Service Connect que proporciona una conexión desde el servicio Dataproc Metastore para acceder al proxy intermedio. El tamaño de la subred debe tener una longitud de prefijo de /29 como mínimo y estar en el intervalo IPv4.
Configuración de CDC
CDC_USERNAME
: nombre de usuario que usa el servicio Datastream para iniciar sesión en Cloud SQL.CDC_PASSWORD
: la contraseña que usa el servicio Datastream para iniciar sesión en Cloud SQL.VPC_NETWORK
: una red en la misma red VPC que la instancia de Cloud SQL que usa Datastream para establecer una conexión privada con el CDC.SUBNET_IP_RANGE
: un intervalo de IPs de subred de al menos /29 que usa Datastream para establecer el peering con la red VPC.REVERSE_PROXY_SUBNET_ID
: una subred de la misma red VPC que la instancia de Cloud SQL que usa Datastream. La subred se usa para alojar una conexión de proxy inverso para la CDC de Datastream. La subred debe configurarse en la misma región que el servicio Dataproc Metastore.BUCKET_NAME
: ruta de Cloud Storage para almacenar los datos de CDC durante la migración.ROOT_PATH
: la ruta raíz del segmento de Cloud Storage. Los datos de eventos de la secuencia se escriben en esta ruta.
Completar migración
Cuando completas una migración, Dataproc Metastore se conecta a Spanner y empieza a usar Spanner como base de datos backend.
Una migración completa activa los siguientes cambios de estado:
- Dataproc Metastore vuelve al estado
ACTIVE
. El estado de ejecución de la migración pasa a
SUCCEEDED
.
Consola
En la Google Cloud consola, abre la página Dataproc Metastore.
En la parte superior de la página, haz clic en Migrar datos.
Se abrirá la página Migrar datos, donde se mostrarán las migraciones gestionadas que hayas completado.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type:application/json" \
-X POST -d '' \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration
Haz los cambios siguientes:
SERVICE
: el nombre o el ID de tu servicio de Dataproc Metastore.PROJECT_ID
: el ID del proyecto en el que se encuentra tu servicio Dataproc Metastore. Google CloudLOCATION
: la Google Cloud región en la que se encuentra tu servicio Dataproc Metastore.
Cancelar migración
Cuando cancelas una migración, Dataproc Metastore revierte los cambios y empieza a usar el tipo de base de datos de Spanner como base de datos backend. Se eliminan todos los datos que se hayan transferido durante la migración.
Si se cancela una migración, se producen los siguientes cambios de estado:
- Dataproc Metastore vuelve al estado
ACTIVE
. El estado de ejecución de la migración pasa a
CANCELLED
.
Consola
En la Google Cloud consola, abre la página Dataproc Metastore.
En la parte superior de la página, haz clic en Migrar datos.
Se abrirá la página Migrar datos, donde se mostrarán las migraciones gestionadas que hayas cancelado.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type:application/json" \
-X POST -d '' \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration
Haz los cambios siguientes:
SERVICE_NAME
: el nombre o el ID de tu servicio de Dataproc Metastore.PROJECT_ID
: el ID del proyecto en el que se encuentra tu servicio Dataproc Metastore. Google CloudLOCATION
: la Google Cloud región en la que se encuentra tu servicio Dataproc Metastore.
Obtener detalles de la migración
Obtiene información detallada sobre una sola migración gestionada.
Consola
En la Google Cloud consola, abre la página Dataproc Metastore.
En la parte superior de la página, haz clic en Migrar datos.
Se abrirá la página Migrar datos, donde se mostrarán las migraciones gestionadas.
Para obtener más detalles sobre una migración, haz clic en su nombre.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-X GET \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID
Haz los cambios siguientes:
SERVICE
: el nombre o el ID de tu servicio de Dataproc Metastore.PROJECT_ID
: el ID del proyecto en el que se encuentra tu servicio Dataproc Metastore. Google CloudLOCATION
: la Google Cloud región en la que se encuentra tu servicio Dataproc Metastore.MIGRATION_ID
: el nombre o el ID de tu migración de Dataproc Metastore.
Mostrar migraciones
Lista las migraciones gestionadas.
Consola
En la Google Cloud consola, abre la página Dataproc Metastore.
En la parte superior de la página, haz clic en Migrar datos.
Se abrirá la página Migrar datos, donde se mostrarán las migraciones gestionadas.
Verifica que el comando haya mostrado las migraciones.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-X GET \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID
Haz los cambios siguientes:
SERVICE
: el nombre o el ID de tu servicio de Dataproc Metastore.PROJECT_ID
: el ID del proyecto en el que se encuentra tu servicio Dataproc Metastore. Google CloudLOCATION
: la Google Cloud región en la que se encuentra tu servicio Dataproc Metastore.
Eliminar migraciones
Elimina las migraciones gestionadas.
Consola
En la Google Cloud consola, abre la página Dataproc Metastore.
En la parte superior de la página, haz clic en Migrar datos.
Se abrirá la página Migrar datos, donde se mostrarán las migraciones gestionadas.
Selecciona la migración y haz clic en Eliminar.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-X DELETE \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID
Haz los cambios siguientes:
SERVICE
: el nombre o el ID de tu servicio de Dataproc Metastore.PROJECT_ID
: el ID del proyecto en el que se encuentra tu servicio Dataproc Metastore. Google CloudLOCATION
: la Google Cloud región en la que se encuentra tu servicio Dataproc Metastore.MIGRATION_ID
: nombre o ID de la migración de Dataproc Metastore.