Questo tutorial mostra come creare ed eseguire il deployment di un job che replica continuamente i dati modificati da un database MySQL in una tabella BigQuery.
Obiettivi
In questo tutorial:
- Esegui il deployment del database MySQL su Compute Engine.
- Configura il database MySQL per abilitare la replica.
- Crea ed esegui un job di replica Cloud Data Fusion.
- Visualizza i risultati in BigQuery.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Quando viene eseguita la replica, ti viene addebitato il costo del cluster Dataproc e devi sostenere i costi di elaborazione per BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a costo fisso di BigQuery.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
- Crea un'istanza Cloud Data Fusion pubblica nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering di rete VPC.
- Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
- Per attivarla in un'istanza esistente, consulta Attivare la replica.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per questo tutorial, consulta Controllo accessi con IAM e Concedere l'autorizzazione utente per l'account di servizio.
Installare MySQL in Compute Engine
Scarica un'immagine Docker di MySQL Server.
Carica l'immagine Docker in Artifact Registry.
Esegui il deployment dell'immagine Docker su una nuova istanza VM.
Nella pagina Dischi di Compute Engine, imposta le dimensioni del disco su
500 GB
e riavvia la VM.Crea un firewall per l'istanza VM.
Installa il database di esempio Sakila.
Abilita la replica nel database MySQL
Per attivare la replica, configura Change Data Capture (CDC) in MySQL.
Creare ed eseguire un job di replica Cloud Data Fusion
Carica il driver JDBC
Scarica il driver JDBC MySQL (versione 8 o successiva) sulla tua macchina locale.
Nell'interfaccia web di Cloud Data Fusion, carica il driver JDBC.
Utilizza questi valori per configurare il driver JDBC:
- Nel campo Nome, inserisci
mysql
. - Nel campo Versione, mantieni il valore predefinito.
- Nel campo Nome corso, inserisci
com.mysql.jdbc.Driver
.
- Nel campo Nome, inserisci
Crea il job
Nell'interfaccia web di Cloud Data Fusion, fai clic su Replicazione.
Fai clic su
Crea un job di replica.Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.
Configura l'origine:
- Seleziona MySQL come origine.
- In Host, inserisci il nome host del server MySQL da cui leggere.
- In Porta, inserisci la porta da utilizzare per connetterti al server MySQL:
3306
. - In Nome plug-in JDBC , seleziona
mysql
o il nome specificato quando hai configurato il driver JDBC. - In Nome database, inserisci
sakila
. - Nella sezione Credenziali, inserisci il tuo nome utente e la tua password per accedere al server MySQL.
Fai clic su Avanti.
Configura il target:
- Seleziona il target BigQuery.
- L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni i valori predefiniti.
- (Facoltativo) Nella sezione Avanzate, configura il nome, la posizione, l'intervallo di caricamento, il prefisso della tabella di staging e il comportamento quando vengono eliminati database o tabelle del bucket di staging.
Fai clic su Avanti.
Se la connessione è riuscita, viene visualizzato un elenco di tabelle di database di esempio di Sakila. Per questo tutorial, seleziona alcune tabelle ed eventi da replicare, come gli eventi Insert, Update ed Delete.
(Facoltativo) Configura le proprietà avanzate. Per questo tutorial, puoi utilizzare le impostazioni predefinite.
Fai clic su Avanti.
Nella pagina Esamina valutazione, fai clic su Visualizza mappature in una delle tabelle per una valutazione dei problemi relativi allo schema, delle funzionalità mancanti o dei problemi di connettività che potrebbero verificarsi durante la replica. Se si verificano problemi, devono essere risolti prima di poter procedere. Per questo tutorial, se una delle tabelle presenta problemi, torna al passaggio in cui hai selezionato le tabelle e scegli le tabelle o gli eventi (inserimenti, aggiornamenti o eliminazioni) senza problemi.
Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta Tipi di dati di replica.
Fai clic su Avanti.
Esamina i dettagli del job di replica di riepilogo e poi fai clic su Esegui il deployment del job di replica.
Avvia il job
- Nella pagina Dettagli job di replica, fai clic su Avvia.
Il job di replica passa dallo stato Provisioning a Avvio e poi a In esecuzione. Nello stato di esecuzione, il job di replica carica in BigQuery uno snapshot iniziale dei dati della tabella selezionati. In questo stato, lo stato della tabella è indicato come Acquisizione istantanea. Dopo aver caricato lo snapshot iniziale in BigQuery, eventuali modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella è indicato come Replicating.
Monitora il job
Puoi avviare e interrompere il job di replica, esaminarne la configurazione e i log e monitorarlo.
Puoi monitorare le attività dei job di replica dalla pagina Dettagli job di replica.
Nella pagina Replicazione, fai clic sul nome del job di replicazione.
Fai clic su Monitoraggio.
Visualizza i risultati in BigQuery
Il job di replica crea un set di dati e una tabella replicati in BigQuery, con i nomi ereditati dal database MySQL corrispondente e dai nomi delle tabelle.
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro a sinistra, seleziona il nome del progetto per espandere un elenco di set di dati.
Per visualizzare i risultati, seleziona il set di dati
sakila
e una tabella.
Per ulteriori informazioni, consulta la documentazione di BigQuery.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Al termine del tutorial, elimina le risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.
Elimina l'istanza Cloud Data Fusion
Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.
Elimina il progetto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Passaggi successivi
- Scopri di più sulla replica in Cloud Data Fusion.
- Consulta il riferimento all'API Replication.
- Segui il tutorial sulla replica dei dati da SQL Server a BigQuery.
- Segui il tutorial Replica dei dati da Oracle a BigQuery.