Informazioni sulla migrazione gestita

La migrazione gestita è una funzionalità automatizzata che ti aiuta a eseguire la migrazione dei dati da una da Hive Metastore autogestito a un servizio Dataproc Metastore, senza tempi di inattività considerevoli (noti anche come giorno della bandiera).

Architettura di migrazione gestita

Il seguente diagramma mostra l'architettura di alto livello di una migrazione gestita.

Migrazione gestita di Dataproc Metastore

Flusso di migrazione gestita

Per completare una migrazione gestita, il servizio esegue due procedimenti di migrazione: avvia migrazione e completa migrazione. Puoi annullare una migrazione in qualsiasi momento con la procedura di annullamento della migrazione. Puoi eseguire anche una serie di comandi operativi, necessaria per completare la migrazione. Ad esempio, elenca migrazioni o elimina di Compute Engine.

Man mano che il servizio avanza in questa procedura, passa anche da vari stati di migrazione e fasi di migrazione. Questi stati e fasi rappresentano i processi in esecuzione in background. Ad esempio, lo stato MIGRATING indica che il servizio sta trasferendo attivamente i dati dal database Cloud SQL a Dataproc Metastore.

Avvia migrazione

  • Dataproc Metastore stabilisce una connessione con la tua istanza Cloud SQL con indirizzo IP privato. Una volta stabilita la connessione, Dataproc Metastore utilizza l'istanza Cloud SQL come database di backend di Hive Metastore (HMS). Rimangono anche l'origine di per i tuoi dati durante la migrazione. Le letture e le scritture dei metadati avvengono in Cloud SQL quando la migrazione è attiva.

  • Viene avviata una pipeline CDC (Change Data Capture). Questa pipeline mantiene sincronizzate l'istanza Cloud SQL nel progetto e Spanner nel progetto gestito Dataproc Metastore. Ciò significa che tutte le modifiche al database HMS nell'istanza Cloud SQL vengono acquisite tramite Datastream e scritte nel database Spanner di Dataproc Metastore.

Una volta avviato il processo di migrazione, puoi avviare il routing carichi di lavoro di dati in Dataproc Metastore. A questo punto, Cloud SQL è comunque la fonte di riferimento per i dati.

Completare la migrazione

Dopo aver completato il trasferimento dei carichi di lavoro in Dataproc Metastore, puoi completare la migrazione. Quando viene chiamato un processo di migrazione completo, si verifica quanto segue:

  • Dataproc Metastore passa in modalità di sola lettura finché viene completato il processo di migrazione.
  • Il flusso CDC trasferisce tutti i dati in corso a Dataproc Metastore.
  • Dataproc Metastore si connette a Spanner e si disconnette da Cloud SQL. Ora Dataproc Metastore funge da fonte di verità per i dati HMS.

Considerazioni su proxy e pipeline

Proxy

Dataproc Metastore utilizza un proxy di autenticazione Cloud SQL concatenato a un proxy SOCKS5 per la connessione all'istanza Cloud SQL con IP privato. I server proxy SOCKS5 sono esposti tramite il collegamento a un servizio come mostrato nel diagramma dell'architettura precedente.

  • Ogni migrazione richiede una subnet NAT dedicata. Questo accade perché una subnet NAT non può avere più di un collegamento del servizio.

  • Per evitare problemi di latenza tra regioni, fornisci subnet che si trovano nel della tua istanza Cloud SQL per ospitare il proxy SOCKS5. Ad esempio: proxy_subnet e nat_subnet.

Modifica la pipeline di acquisizione dei dati

La pipeline di acquisizione dei dati sulle modifiche utilizza il peering VPC per stabilire una connessione tra Datastream e Cloud SQL con IP privato

  • Per ogni migrazione, viene creata una nuova connessione privata e viene stabilita una connessione in peering.

  • La rete VPC che ospita l'istanza Cloud SQL ha un numero di connessioni di peering pari al numero di migrazioni attive. Assicurati che la rete VPC abbia la capacità di ospitare tutte le connessioni di peering necessarie.

Passaggi successivi