Replica dei dati dal database Oracle a BigQuery


Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità si basa su Datastream.

Obiettivi

In questo tutorial:

  1. Configura il tuo database Oracle per abilitare il logging supplementare.
  2. Crea ed esegui un job di replica di Cloud Data Fusion.
  3. Visualizza i risultati in BigQuery.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono essere idonei a una prova senza costi aggiuntivi.

Quando viene eseguita la replica, ti vengono addebitati i costi per il cluster Dataproc e Cloud Storage, mentre per Datastream e BigQuery ti vengono addebitati i costi di elaborazione. Per ottimizzare questi costi, consigliamo vivamente di utilizzare il sistema con tariffe a costo fisso di BigQuery.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Abilita le API Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage.

    Abilita le API

  5. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Abilita le API Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage.

    Abilita le API

  8. Crea un'istanza pubblica di Cloud Data Fusion nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering di rete VPC.
    • Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
    • Per abilitarla in un'istanza esistente, consulta Abilitare la replica.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per la connessione a un database Oracle, chiedi all'amministratore di concederti i ruoli IAM seguenti:

  • Worker Dataproc (roles/dataproc.worker) sull'account di servizio Dataproc nel progetto che contiene il cluster
  • Esecutore Cloud Data Fusion sull'account di servizio Dataproc nel progetto che contiene il cluster
  • Amministratore DataStream (roles/datastream.admin) per l'account di servizio Cloud Data Fusion e l'account di servizio Dataproc

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Potresti anche essere in grado di ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

(Facoltativo) Installa Oracle in Compute Engine

Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.

  1. Scarica un'immagine Docker di Oracle Server.

    Per le limitazioni di questa immagine Oracle Express Edition 11g, vedi Oracle Database Editions.

  2. Esegui il deployment della tua immagine Docker su una nuova istanza VM.

  3. Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in 500 GB e riavvia la VM.

    Vai a Dischi

  4. Installa lo schema di esempio HR.

Crea il peering di rete VPC o una regola firewall per il tuo server Oracle

Se il tuo database Oracle non consente il traffico in entrata da indirizzi IP pubblici, configura il peering di rete VPC tra il VPC Datastream e il VPC da cui è possibile accedere al database Oracle. Per maggiori informazioni, consulta Creare una configurazione di connettività privata.

Se il tuo database Oracle consente il traffico in entrata da indirizzi IP pubblici, crea una regola firewall per l'istanza VM in modo da consentire il traffico in entrata da IP pubblici Datastream.

Configura Oracle Server per abilitare il logging supplementare

Segui i passaggi per configurare il database Oracle di origine.

Crea ed esegui un job di replica di Cloud Data Fusion

Crea il lavoro

  1. Nell'interfaccia web di Cloud Data Fusion, fai clic su Replica.

  2. Fai clic su Crea un job di replica.

  3. Nella pagina Crea nuovo job di replica, specifica un nome per il job di replica e fai clic su Avanti.

  4. Configura l'origine:

    1. Seleziona Oracle (di Datastream) come origine.

    2. In Metodo di connettività, se il server Oracle consente il traffico in entrata da IP pubblici di Datastream, scegli Lista consentita IP. Altrimenti, per Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC creato nella sezione Crea peering di rete VPC o regola firewall per il server Oracle.

    3. In Host, inserisci il nome host del server Oracle da leggere.

    4. In Porta, inserisci la porta da utilizzare per la connessione a Oracle Server: 1521.

    5. In Identità di sistema, inserisci xe (il nome del database di esempio del server Oracle).

    6. Nella sezione delle credenziali, inserisci il nome utente e la password per accedere a Oracle Server.

    7. Lascia invariate tutte le altre proprietà.

  5. Tocca Avanti.

  6. Configura la destinazione:

    1. Seleziona il target BigQuery.

    2. L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni invariati i valori predefiniti.

    3. (Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:

      • Nome e località del bucket gestione temporanea
      • Intervallo di caricamento
      • Prefisso della tabella temporanea
      • Comportamento in caso di eliminazione di tabelle o database
  7. Tocca Avanti.

  8. Se la connessione viene stabilita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.

  9. Tocca Avanti.

  10. Nella pagina Rivedi valutazione, fai clic su Visualizza mappature in corrispondenza di una qualsiasi delle tabelle per ottenere una valutazione di problemi di schema, funzionalità mancanti o problemi di connettività che potrebbero verificarsi durante la replica.

    Se si verificano problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi:

    1. Torna al passaggio in cui hai selezionato le tabelle.
    2. Seleziona una tabella o un evento (Inserti, Aggiornamenti o Eliminazioni) che non presenti problemi.

    Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta Tipi di dati di replica.

  11. Fai clic su Back (Indietro).

  12. Tocca Avanti.

  13. Esamina i dettagli del job di replica di riepilogo, quindi fai clic su Esegui il deployment del job di replica.

Avvia il job

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pagina dei dettagli del job di replica.

  2. Fai clic su Avvia.

Il job di replica passa dallo stato Provisioning a In fase di avvio e quello di In esecuzione. In stato in esecuzione, il job di replica carica in BigQuery uno snapshot iniziale dei dati della tabella selezionati. In questo stato, lo stato della tabella è indicato come Snapshotting. Una volta caricato lo snapshot iniziale in BigQuery, eventuali modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella viene indicato come Replica in corso.

Monitora il job

Puoi avviare e arrestare il job di replica, esaminarne la configurazione e i log e monitorare il job di replica.

Puoi monitorare le attività del job di replica dalla pagina Dettagli job di replica.

  1. Nella pagina Replica, fai clic sul Nome del job di replica desiderato.

  2. Fai clic su Monitoraggio.

Visualizza i risultati in BigQuery

Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dai nomi delle tabelle e del database Oracle corrispondenti.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

  2. Nel riquadro a sinistra, fai clic sul nome del progetto per espandere l'elenco dei set di dati.

  3. Seleziona il set di dati xe e poi una tabella da visualizzare.

Per saperne di più, consulta la documentazione di BigQuery.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Al termine del tutorial, esegui la pulizia delle risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitati costi in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina l'istanza VM

  1. Nella console Google Cloud, vai alla pagina Istanze VM.

    Vai a Istanze VM

  2. Seleziona la casella di controllo per l'istanza da eliminare.

  3. Per eliminare l'istanza, fai clic su Elimina.

Elimina l'istanza di Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza di Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi