Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità è basata su Datastream.
Obiettivi
In questo tutorial:
- Configura il database Oracle per abilitare il logging supplementare.
- Crea ed esegui un job di replica Cloud Data Fusion.
- Visualizza i risultati in BigQuery.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Quando viene eseguita la replica, ti vengono addebitati i costi del cluster Dataproc e di Cloud Storage e devi sostenere i costi di elaborazione per Datastream e BigQuery. Per ottimizzare questi costi, consigliamo vivamente di utilizzare i prezzi a tariffa fissa di BigQuery.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
- Crea un'istanza Cloud Data Fusion pubblica nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering di rete VPC.
- Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
- Per attivarla in un'istanza esistente, consulta Attivare la replica.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per connetterti a un database Oracle, chiedi all'amministratore di concederti i seguenti ruoli IAM:
- Nodo di lavoro Dataproc (
roles/dataproc.worker
) nell'account di servizio Dataproc del progetto che contiene il cluster - Cloud Data Fusion Runner nell'account di servizio Dataproc nel progetto che contiene il cluster
- Amministratore DataStream (
roles/datastream.admin
) nell'account di servizio Cloud Data Fusion e nell'account di servizio Dataproc
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti.
(Facoltativo) Installa Oracle in Compute Engine
Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.
Scarica un'immagine Docker di Oracle Server.
Per le limitazioni di questa immagine Oracle Express Edition 11g, consulta Versioni di Oracle Database.
Esegui il deployment dell'immagine Docker su una nuova istanza VM.
Nella pagina Dischi di Compute Engine, imposta le dimensioni del disco su
500 GB
e riavvia la VM.Installa lo schema di esempio per le risorse umane.
Crea un peering di rete VPC o una regola firewall per il tuo server Oracle
Se il tuo database Oracle non consente il traffico in entrata da indirizzi IP pubblici, configura il peering della rete VPC tra il VPC Datastream e il VPC a cui è possibile accedere al database Oracle. Per ulteriori informazioni, consulta Creare una configurazione di connettività privata.
Se il database Oracle consente il traffico in entrata da indirizzi IP pubblici, crea una regola firewall per l'istanza VM in modo da consentire il traffico in entrata da IP pubblici di Datastream.
Configurare Oracle Server per attivare il logging supplementare
Segui i passaggi per configurare il database Oracle di origine.
Creare ed eseguire un job di replica Cloud Data Fusion
Crea il job
Nell'interfaccia web di Cloud Data Fusion, fai clic su Replicazione.
Fai clic su
Crea un job di replica.Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.
Configura l'origine:
Seleziona Oracle (da Datastream) come origine.
Per Metodo di connettività, se il server Oracle consente il traffico in entrata dagli IP pubblici di Datastream, scegli Lista consentita IP. In caso contrario, in Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC che hai creato nella sezione Creare una regola firewall o un peering di rete VPC per il tuo server Oracle.
In Host, inserisci il nome host del server Oracle da leggere.
In Port (Porta), inserisci la porta da utilizzare per connetterti al server Oracle: 1521.
In Identità sistema, inserisci
xe
(il nome del database di esempio del server Oracle).Nella sezione delle credenziali, inserisci il tuo nome utente e la password per accedere al server Oracle.
Lascia invariate tutte le altre proprietà.
Fai clic su Avanti.
Configura il target:
Seleziona il target BigQuery.
L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni invariati i valori predefiniti.
(Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:
- Nome e posizione del bucket di staging
- Intervallo di caricamento
- Prefisso della tabella di gestione temporanea
- Comportamento quando vengono eliminate tabelle o database
Fai clic su Avanti.
Se la connessione viene stabilita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.
Fai clic su Avanti.
Nella pagina di revisione della valutazione, fai clic su Visualizza mappature in una delle tabelle per ottenere una valutazione dei problemi relativi allo schema, delle funzionalità mancanti o dei problemi di connettività che potrebbero verificarsi durante la replica.
In caso di problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi, svolgi i seguenti passaggi:
- Torna al passaggio in cui hai selezionato le tabelle.
- Seleziona una tabella o un evento (inserimenti, aggiornamenti o eliminazioni) senza problemi.
Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta Tipi di dati di replica.
Fai clic su Indietro.
Fai clic su Avanti.
Esamina i dettagli del job di replica di riepilogo e poi fai clic su Esegui il deployment del job di replica.
Avvia il job
Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Dettagli del job di replica.
Fai clic su Avvia.
Il job di replica passa dallo stato Provisioning a Avvio e poi a In esecuzione. Nello stato di esecuzione, il job di replica carica in BigQuery uno snapshot iniziale dei dati della tabella selezionati. In questo stato, lo stato della tabella è indicato come Acquisizione istantanea. Dopo aver caricato lo snapshot iniziale in BigQuery, eventuali modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella è indicato come Replicating.
Monitora il job
Puoi avviare e interrompere il job di replica, esaminarne la configurazione e i log e monitorarlo.
Puoi monitorare le attività dei job di replica dalla pagina Dettagli job di replica.
Nella pagina Replicazione, fai clic sul Nome del job di replica che ti interessa.
Fai clic su Monitoraggio.
Visualizza i risultati in BigQuery
Il job di replica crea un set di dati e una tabella replicati in BigQuery, con i nomi ereditati dal database e dalle tabelle Oracle corrispondente.
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic sul nome del progetto per espandere un elenco di set di dati.
Seleziona il set di dati
xe
, quindi una tabella da visualizzare.
Per ulteriori informazioni, consulta la documentazione di BigQuery.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Al termine del tutorial, elimina le risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.
Elimina l'istanza VM
Nella console Google Cloud, vai alla pagina Istanze VM.
Seleziona la casella di controllo per l'istanza da eliminare.
Per eliminare l'istanza, fai clic su Elimina.
Elimina l'istanza Cloud Data Fusion
Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Passaggi successivi
- Scopri di più su Datastream.
- Scopri di più sulla replica in Cloud Data Fusion.
- Consulta il riferimento all'API Replication.
- Consulta il riferimento alla replica di Oracle.
- Segui il tutorial sulla replica dei dati da MySQL a BigQuery.
- Segui il tutorial sulla replica dei dati da SQL Server a BigQuery.