Questa pagina è stata tradotta dall'API Cloud Translation.

Replica dei dati dal database Oracle a BigQuery

Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità è basata su Datastream.

Obiettivi

In questo tutorial:

Configura il database Oracle per abilitare il logging supplementare.
Crea ed esegui un job di replica Cloud Data Fusion.
Visualizza i risultati in BigQuery.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi utenti di Google Cloud potrebbero avere diritto a una prova senza costi.

Quando viene eseguita la replica, ti vengono addebitati i costi per il cluster Dataproc e Cloud Storage e sostieni i costi di elaborazione per Datastream e BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a tariffa fissa di BigQuery.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Crea un'istanza Cloud Data Fusion pubblica nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering di rete VPC.
- Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
- Per abilitarlo in un'istanza esistente, vedi Abilitare la replica.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per connetterti a un database Oracle, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Dataproc Worker (roles/dataproc.worker) sul account di servizio Dataproc nel progetto che contiene il cluster
Cloud Data Fusion Runner sull'account di servizio Dataproc nel progetto che contiene il cluster
Amministratore DataStream (roles/datastream.admin) sull'account di servizio Cloud Data Fusion e sull'account di servizio Dataproc

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

(Facoltativo) Installa Oracle in Compute Engine

Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.

Scarica un'immagine Docker di Oracle Server.

Per le limitazioni di questa immagine di Oracle Express Edition 11g, vedi Oracle Database Editions.
Esegui il deployment dell'immagine Docker su una nuova istanza VM.

Nota: per eseguire il deployment dell'immagine nella nuova istanza VM, il servizio Compute Engine deve disporre del ruolo Lettore Artifact Registry (roles/artifactregistry.reader).
Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in 500 GB e riavvia la VM.

Vai a Dischi
Installa lo schema di esempio HR.

Crea il peering di rete VPC o la regola firewall per il server Oracle

Se il tuo database Oracle non consente il traffico in entrata dagli indirizzi IP pubblici, configura il peering di rete VPC tra il VPC Datastream e il VPC in cui è possibile accedere al tuo database Oracle. Per ulteriori informazioni, consulta Creare una configurazione di connettività privata.

Se il tuo database Oracle consente il traffico in entrata dagli indirizzi IP pubblici, crea una regola firewall per l'istanza VM per consentire il traffico in entrata dagli IP pubblici di Datastream.

Configura il server Oracle per attivare il logging supplementare

Segui i passaggi per configurare il database Oracle di origine.

Crea ed esegui un job di replica Cloud Data Fusion

Crea il lavoro

Nell'interfaccia web di Cloud Data Fusion, fai clic su Replicazione.
Fai clic su Crea un job di replica.
Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.
Configura l'origine:
1. Seleziona Oracle (by Datastream) come origine.
2. Per Metodo di connettività, se il server Oracle consente il traffico in entrata dagli IP pubblici di Datastream, scegli Lista consentita IP. Altrimenti, per Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC che hai creato nella sezione Crea peering di rete VPC o regola firewall per il tuo server Oracle.
3. In Host, inserisci il nome host del server Oracle da leggere.
4. In Porta, inserisci la porta da utilizzare per connetterti a Oracle Server: 1521.
5. In Identità sistema, inserisci xe (il nome del database di esempio del server Oracle).
6. Nella sezione delle credenziali, inserisci il nome utente e la password per accedere a Oracle Server.
7. Lascia invariate tutte le altre proprietà.
Fai clic su Avanti.
Configura il target:
1. Seleziona la destinazione BigQuery.
2. L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni i valori predefiniti così come sono.
3. (Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:
  - Nome e posizione del bucket di staging
  - Intervallo di caricamento
  - Prefisso tabella di gestione temporanea
  - Comportamento quando vengono eliminate tabelle o database
Fai clic su Avanti.
Se la connessione viene stabilita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.

Nota: per procedere, il logging supplementare deve essere attivato nelle tabelle selezionate.
Fai clic su Avanti.
Nella pagina Esamina valutazione, fai clic su Visualizza mappature in una delle tabelle per ottenere una valutazione dei problemi dello schema, delle funzionalità mancanti o dei problemi di connettività che potrebbero verificarsi durante la replica.

In caso di problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi, procedi nel seguente modo:
1. Torna al passaggio in cui hai selezionato le tabelle.
2. Seleziona una tabella o un evento (inserimenti, aggiornamenti o eliminazioni) senza problemi.
Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta la sezione Tipi di dati di replica.
Fai clic su Back (Indietro).
Fai clic su Avanti.
Esamina i dettagli del job di replica del riepilogo e poi fai clic su Deploy replication job.

Avviare il job

Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Dettagli del job di replica.
Fai clic su Avvia.

Il job di replica passa dallo stato In fase di provisioning a In fase di avvio a In esecuzione. Nello stato di esecuzione, il job di replica carica uno snapshot iniziale dei dati della tabella selezionata in BigQuery. In questo stato, lo stato della tabella è elencato come Snapshotting. Dopo il caricamento dello snapshot iniziale in BigQuery, tutte le modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella viene visualizzato come In replica.

Monitorare il job

Puoi avviare e interrompere il job di replica, rivedere la sua configurazione e i log e monitorare il job di replica.

Puoi monitorare le attività del job di replica dalla pagina Dettagli job di replica.

Nella pagina Replicazione, fai clic sul nome del job di replicazione scelto.
Fai clic su Monitoraggio.

Visualizza i risultati in BigQuery

Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dal database e dalla tabella Oracle corrispondenti.

Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic sul nome del progetto per espandere un elenco di set di dati.
Seleziona il set di dati xe, quindi seleziona una tabella da visualizzare.

Per ulteriori informazioni, consulta la documentazione di BigQuery.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Al termine del tutorial, esegui la pulizia delle risorse create suGoogle Cloud in modo che non occupino quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina l'istanza VM

Nella console Google Cloud , vai alla pagina Istanze VM.

Vai a Istanze VM
Seleziona la casella di controllo per l'istanza da eliminare.
Per eliminare l'istanza, fai clic su Elimina.

Elimina l'istanza Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto creato per il tutorial.

Per eliminare il progetto:

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per le attività descritte in questo documento, quando lo elimini, elimini anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi

Scopri di più su Datastream.
Scopri di più sulla replica in Cloud Data Fusion.
Consulta il riferimento API di replica.
Consulta il riferimento alla replica Oracle
Segui il tutorial per la replica dei dati da MySQL a BigQuery.
Segui il tutorial per replicare i dati da SQL Server a BigQuery.