Utilizzare la migrazione gestita con un servizio Dataproc Metastore

Questa pagina mostra come avviare e gestire una migrazione gestita di Dataproc Metastore.

Puoi configurare una migrazione utilizzando le API Dataproc Metastore.

Prima di iniziare

Avvia migrazione

Quando esegui una migrazione iniziale, Dataproc Metastore si connette a Cloud SQL e utilizza Cloud SQL come database di backend. Durante questa procedura, Dataproc Metastore esegue una pipeline che copia i dati da Cloud SQL al proprio database (Spanner).

Dataproc Metastore continua a utilizzare Cloud SQL come backend e replica i dati fino a quando non viene chiamata la procedura di migrazione completa.

Prima di iniziare una migrazione, assicurati di aver configurato i prerequisiti della migrazione gestita.

Considerazioni iniziali sulla migrazione

  • Un servizio Dataproc Metastore può eseguire una sola migrazione alla volta.

  • Una migrazione rimane attiva fino al completamento del processo di migrazione. Non esiste una scadenza per completare la migrazione, ad esempio la migrazione può richiedere 1 giorno, 30 giorni o un anno.

  • I backup pianificati non sono limitati durante una migrazione. Tuttavia, il backup potrebbe essere incompleto. Per evitare problemi, disattiva i backup pianificati durante la migrazione.

Una migrazione iniziale attiva le seguenti modifiche dello stato:

  • Dataproc Metastore passa allo stato MIGRATING.
  • Lo stato di esecuzione della migrazione passa a RUNNING.
  • La fase di esecuzione della migrazione passa a REPLICATION.

Console

Inizia

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella pagina Dataproc Metastore, fai clic sul nome del servizio a cui vuoi eseguire la migrazione.

    Viene visualizzata la pagina Dettagli del servizio.

  3. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    La pagina Crea migrazione si apre nella scheda Connettività e visualizza le impostazioni di configurazione del database Cloud SQL per Dataproc Metastore.

Configurazione del database Cloud SQL per DPMS

  1. In Nome connessione istanza, inserisci il nome della connessione all'istanza del database Cloud SQL nel seguente formato: project_id:region:instance_name.

  2. Nel campo Indirizzo IP, inserisci l'indirizzo IP necessario per connetterti all'istanza Cloud SQL.

  3. Nel campo Porta, inserisci 3306.

  4. In Nome database Hive, inserisci il nome del database utilizzato come backend di Hive Metastore autogestito.

  5. Nel campo Nome utente, inserisci il nome utente che utilizzi per connettere Cloud SQL a Hive Metastore.

  6. Nel campo Password, inserisci la password che utilizzi per connettere Cloud SQL al metastore Hive.

Servizio di proxy SOCKS5

  1. Nel campo Subnet proxy, inserisci una subnet di tipo normale. La subnet deve essere presente nella rete VPC Cloud SQL. Questa subnet viene utilizzata per eseguire il deployment del servizio di proxy SOCKS5 intermedio

  2. Nel campo Subnet NAT, inserisci una subnet di tipo Private Service Connect. Questa sottorete deve essere presente nella rete VPC Cloud SQL e viene utilizzata per pubblicare il servizio proxy SOCKS5 utilizzando Private Service Connect.

  3. Fai clic su Continua.

    Si apre la scheda Change Data Capture (CDC), che mostra le impostazioni di configurazione della configurazione del database Cloud SQL per Datastream.

Configurazione del database Cloud SQL per lo stream di dati

  1. Nel campo Nome utente, inserisci il nome utente che utilizzi per accedere al CDC Cloud SQL utilizzato da Datastream.

  2. Nel campo Password, inserisci la password che utilizzi per accedere al CDC Cloud SQL utilizzato da Datastream.

  3. Nel campo Rete VPC, inserisci la rete nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata al CDC.

  4. Nel campo Intervallo IP subnet, inserisci un intervallo IP subnet di almeno /29. Datastream utilizza questo IP per stabilire il peering con la rete VPC.

  5. Nel campo Subnet del proxy inverso, inserisci la subnet che hai creato nella stessa rete VPC di Cloud SQL. Datastream utilizza questa subnet. La sottorete viene utilizzata per ospitare una connessione proxy inverso per la CDC di Datastream. La subnet deve essere configurata nella stessa regione del servizio Dataproc Metastore.

Configurazione di GCS

  1. Per ID bucket, seleziona il percorso di Cloud Storage per archiviare i dati CDC durante la migrazione.

  2. Nel campo Percorso principale, inserisci il percorso principale all'interno del bucket Cloud Storage. I dati sugli eventi dello stream vengono scritti in questo percorso.

  3. Fai clic su Crea.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d \
  '{
    "migration_execution": {
      "cloud_sql_migration_config": {
        "cloud_sql_connection_config": {
          "instance_connection_name": INSTANCE_CONNECTION_NAME,
          "hive_database_name": "HIVE_DATABASE_NAME",
          "ip_address": "IP_ADDRESS",
          "port": 3306,
          "username": "CONNECTION_USERNAME",
          "password": "CONNECTION_PASSWORD",
          "proxy_subnet": "PROXY_SUBNET",
          "nat_subnet": "NAT_SUBNET"
        },
        "cdc_config": {
          "username": "CDC_USENAME",
          "password": "CDC_PASSWORD",
          "vpc_network": "VPC_NETWORK",
          "subnet_ip_range": "SUBNET_IP_RANGE",
          "reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
          "bucket": "BUCKET_NAME",
          "root_path": "ROOT_PATH",
        }
      }
    }
}' \
  https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud nel quale si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui risiede il servizio Dataproc Metastore.

Configurazione di Cloud SQL Migration

  • INSTANCE_CONNECTION_NAME: il nome della connessione dell'istanza per il database Cloud SQL, nel seguente formato:PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID.
  • HIVE_DATABASE_NAME: il nome del database Hive autonomo collegato a Cloud SQL.
  • IP_ADDRESS: l'indirizzo IP necessario per connettersi all'istanza Cloud SQL.
  • CONNECTION_USERNAME: il nome utente che utilizzi per connettere Cloud SQL al metastore Hive.
  • CONNECTION_PASSWORD la password che utilizzi per connettere Cloud SQL a Hive Metastore
  • PROXY_SUBNET: la sottorete utilizzata nella rete VPC Cloud SQL. Questa sottorete ospita un proxy intermedio per fornire connettività tra reti transitorie.
  • NAT_SUBNET: una subnet Private Service Connect che fornisce una connessione dal servizio Dataproc Metastore per accedere al proxy intermedio. La dimensione della subnet deve avere una lunghezza del prefisso di almeno /29 e rientrare nell'intervallo IPv4.

Configurazione del CDC

  • CDC_USERNAME: il nome utente utilizzato dal servizio Datastream per accedere a Cloud SQL.
  • CDC_PASSWORD: la password utilizzata dal servizio Datastream per accedere a Cloud SQL.
  • VPC_NETWORK: una rete nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata al CDC.
  • SUBNET_IP_RANGE: un intervallo IP di almeno /29 utilizzato da Datastream per stabilire il peering con la rete VPC.
  • REVERSE_PROXY_SUBNET_ID: una sottorete nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream. La sottorete viene utilizzata per ospitare una connessione proxy inverso per la CDC di Datastream. La subnet deve essere configurata nella stessa regione del servizio Dataproc Metastore.
  • BUCKET_NAME: il percorso di Cloud Storage in cui memorizzare i dati del CDC durante la migrazione.
  • ROOT_PATH: il percorso principale all'interno del bucket Cloud Storage. I dati sugli eventi dello stream vengono scritti in questo percorso.

Completa migrazione

Al termine di una migrazione, Dataproc Metastore si connette a Spanner e inizia a utilizzarlo come database di backend.

Una migrazione completa attiva le seguenti modifiche dello stato:

  • Dataproc Metastore torna allo stato ACTIVE.
  • Lo stato di esecuzione della migrazione passa a SUCCEEDED.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite completate.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud nel quale si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui risiede il servizio Dataproc Metastore.

Annulla migrazione

Quando annulli una migrazione, Dataproc Metastore ripristina le modifiche e inizia a utilizzare il tipo di database Spanner come database di backend. Tutti i dati trasferiti durante la migrazione vengono eliminati.

Un'annullamento della migrazione attiva le seguenti modifiche dello stato:

  • Dataproc Metastore torna allo stato ACTIVE.
  • Lo stato di esecuzione della migrazione passa a CANCELLED.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite annullate.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration

Sostituisci quanto segue:

  • SERVICE_NAME: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud nel quale si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui risiede il servizio Dataproc Metastore.

Visualizzare i dettagli della migrazione

Visualizza i dettagli di una singola migrazione gestita.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite.

    Per visualizzare ulteriori dettagli sulla migrazione, fai clic sul nome di una migrazione gestita.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud nel quale si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui risiede il servizio Dataproc Metastore.
  • MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.

Elenca le migrazioni

Elenca le migrazioni gestite.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite.

  3. Verifica che il comando abbia elencato le migrazioni.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud nel quale si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui risiede il servizio Dataproc Metastore.

Elimina migrazioni

Elimina le migrazioni gestite.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite.

  3. Seleziona la migrazione e fai clic su Elimina.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
   -X DELETE \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud nel quale si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui risiede il servizio Dataproc Metastore.
  • MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.

Passaggi successivi