Utilizzare la migrazione gestita con un servizio Dataproc Metastore

Questa pagina mostra come avviare e gestire un Dataproc Metastore migrazione gestita.

Puoi configurare una migrazione utilizzando le API Dataproc Metastore.

Prima di iniziare

Avvia migrazione

Quando esegui un avvio della migrazione, Dataproc Metastore si connette a Cloud SQL e utilizza Cloud SQL come database di backend. Durante questo processo, Dataproc Metastore esegue una pipeline che copia i dati da Cloud SQL nel proprio database (Spanner).

Dataproc Metastore continua a usare Cloud SQL come backend replica i dati fino a quando non viene chiamato il processo di migrazione completa.

Prima di iniziare una migrazione, assicurati di aver configurato i prerequisiti della migrazione gestita.

Avvia considerazioni sulla migrazione

  • Un servizio Dataproc Metastore può eseguire una sola migrazione alla volta.

  • Una migrazione rimane attiva fino al completamento del processo di migrazione. Non esiste una scadenza per completare la migrazione, ad esempio, può richiedere 1 giorno, 30 giorni o un anno.

  • I backup pianificati non sono limitati durante una migrazione. Tuttavia, il backup potrebbe essere incompleto. Per evitare problemi, disabilita i backup pianificati durante la migrazione.

Una migrazione iniziale attiva le seguenti modifiche dello stato:

  • Dataproc Metastore passa allo stato MIGRATING.
  • Lo stato di esecuzione della migrazione passa a RUNNING.
  • La fase di esecuzione della migrazione passa a REPLICATION.

Console

Inizia

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella pagina Dataproc Metastore, fai clic sul nome del servizio a cui vuoi eseguire la migrazione.

    Viene visualizzata la pagina Dettagli del servizio.

  3. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    La pagina Crea migrazione si apre nella scheda Connettività e visualizza le impostazioni di configurazione del database Cloud SQL per Dataproc Metastore.

Configurazione del database Cloud SQL per DPMS

  1. In Nome connessione istanza, inserisci il nome della connessione all'istanza del database Cloud SQL nel seguente formato: project_id:region:instance_name.

  2. Nel campo Indirizzo IP, inserisci l'indirizzo IP richiesto per la connessione. all'istanza Cloud SQL.

  3. Nel campo Porta, inserisci 3306.

  4. In Nome database Hive, inserisci il nome del database utilizzato come backend di Hive Metastore autogestito.

  5. Nel campo Nome utente, inserisci il nome utente che utilizzi per connettere Cloud SQL a Hive Metastore.

  6. Nel campo Password, inserisci la password che utilizzi per connettere Cloud SQL al metastore Hive.

Servizio di proxy SOCKS5

  1. Nel campo Subnet proxy, inserisci una subnet di tipo normale. La subnet deve essere presente nella rete VPC di Cloud SQL. Questa subnet viene utilizzata per eseguire il deployment del servizio di proxy SOCKS5 intermedio

  2. Nel campo Subnet NAT, inserisci una subnet di tipo Private Service Connect. Questa subnet deve essere presente nella rete VPC di Cloud SQL utilizzato per pubblicare il servizio proxy SOCKS5 utilizzando Private Service Connect.

  3. Fai clic su Continua.

    Si apre la scheda Change Data Capture (CDC), che mostra le impostazioni di configurazione della configurazione del database Cloud SQL per lo stream di dati.

Configurazione del database Cloud SQL per lo stream di dati

  1. Nel campo Nome utente, inserisci il nome utente che utilizzi per accedere al CDC Cloud SQL utilizzato da Datastream.

  2. Nel campo Password, inserisci la password che utilizzi per accedere. alla CDC di Cloud SQL utilizzata da Datastream.

  3. Nel campo Rete VPC, inserisci la rete nello stesso VPC come l'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata con il CDC.

  4. Nel campo Intervallo IP subnet, inserisci un intervallo IP della subnet di almeno /29. Datastream utilizza questo IP per stabilire il peering alla rete VPC.

  5. Nel campo Inverti subnet proxy, inserisci la subnet in cui hai creato la stessa rete VPC di Cloud SQL. Datastream utilizza questa subrete. La sottorete viene utilizzata per ospitare una connessione proxy inverso per la CDC di Datastream. La subnet deve essere configurata nella stessa regione del servizio Dataproc Metastore.

Configurazione di GCS

  1. Per ID bucket, seleziona il percorso di Cloud Storage per archiviare i dati CDC durante la migrazione.

  2. Nel campo Percorso principale, inserisci il percorso principale all'interno di Cloud Storage di sincronizzare la directory di una VM con un bucket. I dati sugli eventi di flusso vengono scritti in questo percorso.

  3. Fai clic su Crea.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d \
  '{
    "migration_execution": {
      "cloud_sql_migration_config": {
        "cloud_sql_connection_config": {
          "instance_connection_name": INSTANCE_CONNECTION_NAME,
          "hive_database_name": "HIVE_DATABASE_NAME",
          "ip_address": "IP_ADDRESS",
          "port": 3306,
          "username": "CONNECTION_USERNAME",
          "password": "CONNECTION_PASSWORD",
          "proxy_subnet": "PROXY_SUBNET",
          "nat_subnet": "NAT_SUBNET"
        },
        "cdc_config": {
          "username": "CDC_USENAME",
          "password": "CDC_PASSWORD",
          "vpc_network": "VPC_NETWORK",
          "subnet_ip_range": "SUBNET_IP_RANGE",
          "reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
          "bucket": "BUCKET_NAME",
          "root_path": "ROOT_PATH",
        }
      }
    }
}' \
  https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud progetto in cui risiede il servizio Dataproc Metastore.
  • LOCATION: la regione Google Cloud in cui del servizio Dataproc Metastore.

Configurazione della migrazione Cloud SQL

  • INSTANCE_CONNECTION_NAME: la connessione dell'istanza del database Cloud SQL, nel seguente formato: PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID.
  • HIVE_DATABASE_NAME: il nome dell'autogestito Database Hive connesso a Cloud SQL.
  • IP_ADDRESS: l'indirizzo IP necessario per la connessione all'istanza Cloud SQL.
  • CONNECTION_USERNAME: il nome utente che utilizzerai per connettere Cloud SQL a Hive Metastore.
  • CONNECTION_PASSWORD la password che utilizzerai per connettere Cloud SQL a Hive Metastore
  • PROXY_SUBNET: la sottorete utilizzata nella rete VPC Cloud SQL. Questa sottorete ospita un proxy intermedio per fornire connettività tra reti transitorie.
  • NAT_SUBNET: una subnet Private Service Connect che fornisce una connessione dal servizio Dataproc Metastore per accedere al proxy intermedio. La dimensione della subnet deve avere un lunghezza del prefisso di almeno /29 e nell'intervallo IPv4.

Configurazione del CDC

  • CDC_USERNAME: il nome utente Il servizio Datastream utilizza per accedere a Cloud SQL.
  • CDC_PASSWORD: la password utilizzata da Il servizio Datastream utilizza per accedere a Cloud SQL.
  • VPC_NETWORK: una rete nello stesso VPC come l'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata con il CDC.
  • SUBNET_IP_RANGE: un intervallo IP della subnet di almeno /29 usato da Datastream per stabilire il peering rete VPC.
  • REVERSE_PROXY_SUBNET_ID: una subnet nel la stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream. La sottorete viene utilizzata per ospitare una connessione proxy inverso per il CDC di Datastream. La subnet deve essere configurata nella stessa regione il servizio Dataproc Metastore.
  • BUCKET_NAME: percorso Cloud Storage per l'archiviazione dei dati CDC durante la migrazione.
  • ROOT_PATH: il percorso principale all'interno del bucket Cloud Storage. I dati sugli eventi di flusso vengono scritti in questo percorso.

Completa migrazione

Al termine di una migrazione, Dataproc Metastore si connette a Spanner e inizia a utilizzarlo come database di backend.

Una migrazione completa attiva le seguenti modifiche di stato:

  • Dataproc Metastore torna allo stato ACTIVE.
  • Lo stato di esecuzione della migrazione passa a SUCCEEDED.

Console

  1. Nella console Google Cloud, apri Dataproc Metastore .

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite completate.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud progetto in cui risiede il servizio Dataproc Metastore.
  • LOCATION: la regione Google Cloud in cui risiede il servizio Dataproc Metastore.

Annulla migrazione

Quando annulli una migrazione, Dataproc Metastore ripristina tutte le modifiche e inizia a utilizzare il tipo di database Spanner come database di backend. Tutti i dati trasferiti durante la migrazione vengono eliminati.

Un annullamento della migrazione attiva le seguenti modifiche di stato:

  • Dataproc Metastore torna allo stato ACTIVE.
  • Lo stato di esecuzione della migrazione passa a CANCELLED.

Console

  1. Nella console Google Cloud, apri Dataproc Metastore .

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite annullate.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration

Sostituisci quanto segue:

  • SERVICE_NAME: il nome o l'ID del tuo Servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud progetto in cui risiede il servizio Dataproc Metastore.
  • LOCATION: la regione Google Cloud in cui del servizio Dataproc Metastore.

Visualizzare i dettagli della migrazione

Visualizza i dettagli di una singola migrazione gestita.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati, che mostra le migrazioni gestite.

    Per visualizzare ulteriori dettagli sulla migrazione, fai clic sul nome di una migrazione gestita.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud progetto in cui risiede il servizio Dataproc Metastore.
  • LOCATION: la regione Google Cloud in cui del servizio Dataproc Metastore.
  • MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.

Elenca le migrazioni

Elenca le migrazioni gestite.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    La pagina Esegui la migrazione dei dati si apre e mostra le migrazioni gestite.

  3. Verifica che il comando abbia elencato le migrazioni.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud progetto in cui risiede il servizio Dataproc Metastore.
  • LOCATION: la regione Google Cloud in cui del servizio Dataproc Metastore.

Elimina migrazioni

Elimina migrazioni gestite.

Console

  1. Nella console Google Cloud, apri Dataproc Metastore .

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    La pagina Esegui la migrazione dei dati si apre e mostra le migrazioni gestite.

  3. Seleziona la migrazione e fai clic su Elimina.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
   -X DELETE \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID del progetto Google Cloud progetto in cui risiede il servizio Dataproc Metastore.
  • LOCATION: la regione Google Cloud in cui del servizio Dataproc Metastore.
  • MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.

Passaggi successivi