Per le aziende con molte origini dati isolate, l'accesso ai dati aziendali in tutta l'organizzazione, in particolare in tempo reale, può essere difficile. Ciò si traduce in un accesso ai dati lento e limitato, impedendo all'organizzazione di eseguire l'introspezione.
Datastream fornisce accesso in tempo quasi reale ai dati sulle modifiche da una serie di origini dati on-premise e basate su cloud per creare l'accesso ai dati dell'organizzazione. Datastream offre un'esperienza di configurazione semplice e un'API di consumo unificata che democratizza l'accesso dell'organizzazione ai dati aziendali più recenti disponibili nell'organizzazione, supportando scenari integrati quasi in tempo reale.
Uno di questi scenari è il trasferimento di dati da un database di origine a un servizio di archiviazione o a una coda di messaggistica basata su cloud e la trasformazione di questi dati in un formato leggibile da altre applicazioni e servizi che comunicano con questo servizio di archiviazione o questa coda di messaggistica.
In questo tutorial scoprirai come utilizzare Datastream per trasferire schemi, tabelle e dati da un database Oracle di origine a una cartella in un bucket Cloud Storage. Cloud Storage è un servizio web per l'archiviazione e l'accesso ai dati su Google Cloud. Il servizio combina il rendimento e la scalabilità del cloud di Google con funzioni avanzate di sicurezza e condivisione.
Durante il trasferimento di queste informazioni in una cartella del bucket Cloud Storage di destinazione, Datastream le traduce in Avro. Avro è definito da uno schema scritto in JSON (JavaScript Object Notation). Questa traduzione ti consente di leggere i dati in più origini dati in modo uniforme.
Obiettivi
In questo tutorial imparerai a:- Imposta le variabili di ambiente. Utilizzerai queste variabili quando invii richieste a Datastream per creare e gestire sia i profili di connessione sia uno stream.
- Crea e gestisci i profili di connessione per un database di origine e un bucket di destinazione in Cloud Storage. Creando questi profili di connessione, crei record contenenti informazioni sul database di origine e sul bucket Cloud Storage di destinazione. Lo stream in Datastream utilizza le informazioni nei profili di connessione per trasferire i dati dal database di origine a una cartella nel bucket di destinazione.
- Creare e gestire uno stream. Datastream utilizza questo stream per trasferire dati, schemi e tabelle dal database di origine a una cartella nel bucket di destinazione.
- Verifica che Datastream trasferisca i dati e le tabelle associati a uno schema del database Oracle di origine in una cartella del bucket di destinazione e traduca questi dati nel formato file Avro.
- Elimina le risorse che hai creato in Datastream in modo che non occupino la quota e non ti vengano addebitate in futuro.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
- Cloud Storage
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
- Abilita l'API Datastream.
- Assicurati di avere il ruolo Amministratore Datastream assegnato al tuo account utente.
- Assicurati di avere un database di origine a cui Datastream può accedere. Per questo tutorial, viene utilizzato un database Oracle come origine.
- Configura il database di origine in modo da consentire le connessioni in entrata dagli indirizzi IP pubblici di Datastream. Consulta Liste consentite e regioni IP per accedere alle sedi di tutte le regioni Datastream e ai relativi indirizzi IP pubblici associati.
- Assicurati di aver configurato un bucket Cloud Storage di destinazione a cui Datastream può accedere utilizzando il metodo di connettività di rete della lista consentita IP, del tunnel SSH per il forwarding o del peering VPC.
- Assicurati che nel database di origine siano presenti dati, tabelle e schemi che Datastream possa trasferire in una cartella del bucket Cloud Storage di destinazione.
- Scarica e installa Cloud Shell. Questa applicazione client fornisce l'accesso da riga di comando alle risorse cloud (incluso Datastream).
- Installa e configura l'utilità
jq
. Questa utility è un elaboratore JSON a riga di comando leggero e flessibile. Utilizzerai questo elaboratore per visualizzare comandicURL
complessi in un testo facile da leggere.
Imposta le variabili di ambiente
In questa procedura, imposterai le seguenti variabili:
$PROJECT
: questa variabile è associata al tuo progetto Google Cloud. Le eventuali risorse Google Cloud che assegni e utilizzi devono far parte di un progetto.$TOKEN
: questa variabile è associata a un token di accesso. Il token di accesso fornisce una sessione utilizzata da Cloud Shell per eseguire attività in Datastream utilizzando le API REST.
Avvia l'applicazione Cloud Shell.
Dopo aver eseguito l'autenticazione nella tua applicazione con il tuo Account Google, inserisci
gcloud auth login
.Al prompt
Do you want to continue (Y/n)?
, inserisciY
.Apri un browser web e copia l'URL al suo interno.
Esegui l'autenticazione in Google Cloud SDK con il tuo Account Google. Nella pagina Accedi viene visualizzato un codice. Questo codice è il tuo token di accesso.
Copia il token di accesso, incollalo nel parametro
Enter verification code:
nell'applicazione Cloud Shell e premiEnter
.Al prompt, inserisci
PROJECT="YOUR_PROJECT_NAME"
per impostare la variabile di ambiente$PROJECT
nel tuo progetto Google Cloud.Al prompt, inserisci
gcloud config set project YOUR_PROJECT_NAME
per impostare il progetto su cui vuoi lavorare nel tuo progetto Google Cloud.Il prompt dei comandi si aggiorna in base al progetto attivo e rispetta questo formato:
USERNAME@cloudshell:~ (YOUR_PROJECT_NAME)$
Al prompt, inserisci
TOKEN=$(gcloud auth print-access-token)
per recuperare il token di accesso e memorizzarlo come variabile.Al prompt, inserisci i seguenti comandi per assicurarti che le variabili
$PROJECT
e$TOKEN
siano impostate correttamente:echo $PROJECT
echo $TOKEN
Ora che hai impostato le variabili, puoi inviare richieste a Datastream per creare e gestire sia i profili di connessione sia uno stream.
Creare e gestire i profili di connessione
In questa sezione crei e gestisci i profili di connessione per un database Oracle di origine e un bucket di destinazione in Cloud Storage.
Quando crei questi profili di connessione, crei record che contengono informazioni sul database di origine e sul bucket Cloud Storage di destinazione. Datastream utilizza le informazioni nei profili di connessione per trasferire i dati dal database di origine a una cartella nel bucket di destinazione.
La creazione e la gestione dei profili di connessione include:
- Creazione di profili di connessione per un database Oracle di origine e un bucket di destinazione in Cloud Storage
- Recupero delle informazioni su un profilo di connessione
- Modifica di un profilo di connessione
- Esegui una chiamata all'API discover sul profilo di connessione Oracle di origine. Questa chiamata ti consente di esaminare il database per visualizzare gli oggetti associati. Questi oggetti includono gli schemi e le tabelle che contengono i dati del database. Quando utilizzi Datastream per configurare uno stream, potresti non voler estrarre tutti gli oggetti dal database, ma solo un sottoinsieme di oggetti (ad esempio solo determinate tabelle e schemi del database). Utilizza l'API discover per trovare (o scoprire) il sottoinsieme di oggetti del database che vuoi estrarre.
Creazione di profili di connessione
In questa procedura vengono creati due profili di connessione: uno a un database Oracle di origine e un altro a un bucket di destinazione in Cloud Storage.
- Crea un profilo di connessione a un database Oracle di origine. Al prompt, inserisci il seguente comando:
ORACLE="{\"displayName\":\"DISPLAY_NAME\",\"oracle_profile\":{\"hostname\":\"HOSTNAME\",\" username\":\"USERNAME\",\"password\":\"PASSWORD\",\"database_service\":\"DATABASE_SERVICE\",\" port\":"PORT_NUMBER\"},\"no_connectivity\":{}}"
Utilizza la seguente tabella per comprendere i valori dei parametri per il database Oracle di origine:
Valore parametro | Sostituisci con |
---|---|
DISPLAY_NAME | Il nome visualizzato del profilo di connessione al database di origine. |
HOSTNAME | Il nome host del server del database di origine. |
USERNAME | Il nome utente dell'account per il database di origine (ad esempio ROOT). |
PASSWORD | La password dell'account per il database di origine. |
DATABASE_SERVICE | Il servizio che garantisce la protezione e il monitoraggio del database di origine. Per i database Oracle, il servizio di database è in genere ORCL. |
PORT_NUMBER | Il numero di porta riservato al database di origine. Per un database Oracle, il numero di porta è in genere 1521. |
Al prompt, inserisci il comando
echo $ORACLE | jq
per visualizzare il profilo di connessione di origine che hai creato in un testo facile da leggere.{ "displayName": "DISPLAY_NAME", "oracle_profile": { "hostname": "HOSTNAME", "username": "USERNAME", "password": "PASSWORD", "database_service": "DATABASE_SERVICE", "port": PORT_NUMBER }, "no_connectivity": {} }
Invia il profilo di connessione Oracle in modo che possa essere creato. Al prompt, inserisci il seguente comando:
curl -X POST -d $ORACLE -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles? connection_profile_id=SOURCE_CONNECTION_PROFILE_ID Utilizza la seguente tabella per comprendere i valori dei parametri di questo comando:
Valore parametro Sostituisci con DATASTREAM_API_VERSION La versione corrente dell'API Datastream (ad es. v1
).PROJECT_PATH Il percorso completo del progetto Google Cloud (ad esempio projects/$PROJECT/locations/YOUR_PROJECT_LOCATION
).SOURCE_CONNECTION_PROFILE_ID L'identificatore univoco riservato a questo profilo di connessione (ad es. cp-1). Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-SOURCE_CONNECTION_PROFILE_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "datastream.googleapis.com/DATASREAM_VERSION/PROJECT_PATH/connectionProfiles/
SOURCE_CONNECTION_PROFILE_ID" , "verb": "create", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }Crea un profilo di connessione a un bucket di destinazione in Cloud Storage. Al prompt, inserisci il seguente comando:
GOOGLECLOUDSTORAGE="{\"displayName\":\"DISPLAY_NAME\",\"gcs_profile\":{\"bucket_name\":\"BUCKET_NAME\",
\"root_path\":\"/FOLDER_PATH\"},\"no_connectivity\":{}}" Utilizza la seguente tabella per comprendere i valori dei parametri per il bucket di destinazione:
Valore parametro Sostituisci con DISPLAY_NAME Il nome visualizzato del profilo di connessione al bucket di destinazione. BUCKET_NAME Il nome del bucket di destinazione. FOLDER_PATH La cartella nel bucket di destinazione in cui Datastream trasferirà i dati dal database di origine (ad esempio /root/path). Al prompt, inserisci il comando
echo $GOOGLECLOUDSTORAGE | jq
per visualizzare il profilo di connessione di destinazione che hai creato in un testo di facile lettura.{ "displayName": "DISPLAY_NAME", "gcs_profile": { "bucket_name": "BUCKET_NAME", "root_path": "/FOLDER_PATH" }, "no_connectivity": {} }
Invia il profilo di connessione Cloud Storage in modo che possa essere creato. Al prompt, inserisci il seguente comando:
curl -X POST -d $GOOGLECLOUDSTORAGE -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles? connection_profile_id=DESTINATION_CONNECTION_PROFILE_ID Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-DESTINATION_CONNECTION_PROFILE_OPERATION_ID", "metadata": { "@type": "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.
OperationMetadata" , "createTime": "DATE_AND_TIME_STAMP", "target": "datastream.googleapis.com/DATASTREAM_VERSION/PROJECT_PATH/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID" , "verb": "create", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }Verifica che entrambi i profili di connessione siano stati creati. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles Verifica di ricevere due risultati restituiti sia per i profili di connessione di origine che per quelli di destinazione.
{ "connectionProfiles": [ { "name": "PROJECT_PATH/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "gcsProfile": { "bucketName": "BUCKET_NAME", "rootPath": "FOLDER_PATH" }, "noConnectivity": {} }, { "name": "PROJECT_PATH/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "oracleProfile": { "hostname": "HOSTNAME", "port": PORT_NUMBER, "username": "USERNAME", "databaseService": "DATABASE_SERVICE" }, "noConnectivity": {} } ] }
Gestione dei profili di connessione
In questa procedura, gestisci i profili di connessione che hai creato per un database Oracle di origine e un bucket di destinazione in Cloud Storage. tra cui:
- Recupero delle informazioni sul profilo di connessione Cloud Storage di destinazione
- Modifica di questo profilo di connessione. Per questo tutorial, cambierai la cartella del bucket Cloud Storage di destinazione in /root/tutorial. Datastream trasferisce i dati dal database di origine a questa cartella.
- Esecuzione di una chiamata all'API discover sul profilo di connessione Oracle di origine
Recupera le informazioni sul profilo di connessione Cloud Storage di destinazione. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles/ DESTINATION_CONNECTION_PROFILE_ID Verifica di visualizzare le informazioni su questo profilo di connessione.
{ "name": "PROJECT_PATH/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "gcsProfile": { "bucketName": "BUCKET_NAME", "rootPath": "FOLDER_PATH" }, "noConnectivity": {} }
Modifica questo profilo di connessione. Per farlo, imposta prima una variabile UPDATE. Questa variabile contiene i valori del profilo di connessione che vuoi modificare. Per questo tutorial, cambierai la cartella del bucket di destinazione in /root/tutorial.
Per impostare la variabile, inserisci il seguente comando al prompt:
UPDATE="{\"gcsProfile\":{\"rootPath\":\"/root/tutorial\"}}"
Al prompt, inserisci il seguente comando:
curl -X PATCH -d $UPDATE -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles/ DESTINATION_CONNECTION_PROFILE_ID?update_mask=gcsProfile.rootPath Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-DESTINATION_CONNECTION_PROFILE_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID", "verb": "update", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Verifica che il profilo di connessione sia modificato. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles/ DESTINATION_CONNECTION_PROFILE_ID Verifica che la cartella del bucket di destinazione del profilo di connessione Cloud Storage sia ora /root/tutorial.
{ "name": "PROJECT_PATH/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "gcsProfile": { "bucketName": "BUCKET_NAME", "rootPath": "/root/tutorial" }, "noConnectivity": {} }
Utilizza l'API Datastream Discover per scoprire gli schemi e le tabelle del database Oracle di origine. Datastream fornisce l'accesso a questo database tramite il profilo di connessione di origine.
Scopri gli schemi del database Oracle. Al prompt, inserisci il seguente comando:
curl -X POST -d "{\"connection_profile_name\":\"projects/YOUR_PROJECT_NUMBER/locations/
YOUR_PROJECT_LOCATION/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID\", \"oracle_rdbms\":{\"oracleSchemas\":[{\"schema\":\"ROOT\"}]}}" -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json" https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles:discover Verifica che Datastream recuperi tutti gli schemi del tuo database.
Recupera le tabelle di uno schema nel database. Per questo tutorial, utilizzerai l'API Discover per recuperare le tabelle dello schema ROOT. Tuttavia, puoi scoprire le tabelle di qualsiasi schema nel tuo database.
Al prompt, inserisci il seguente comando:
curl -X POST -d "{\"connection_profile_name\":\"projects/YOUR_PROJECT_NUMBER/locations/
YOUR_PROJECT_LOCATION/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID\", \"oracle_rdbms\":{\"oracleSchemas\":[{\"schema\":\"ROOT\"}]}}" -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json" https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles:discover - Verifica che Datastream recuperi tutte le tabelle dello schema specificato (per questo tutorial, lo schema ROOT).
Ora che hai creato e gestito i profili di connessione per un database Oracle di origine e un bucket di destinazione in Cloud Storage, puoi creare e gestire uno stream in Datastream.
Creazione e gestione di uno stream
In questa sezione, crei e gestisci uno stream. Datastream utilizza questo stream per trasferire dati, schemi e tabelle dal database di origine a una cartella nel bucket Cloud Storage di destinazione.
La creazione e la gestione di uno stream includono:
- Convalida di uno stream per assicurarsi che venga eseguito correttamente e che tutti i controlli di convalida vengano superati. Questi controlli includono:
- Indica se l'origine è configurata correttamente per consentire a Datastream di trasmettere i dati.
- Indica se lo stream può connettersi sia all'origine che alla destinazione.
- La configurazione end-to-end dello stream.
- Creazione dello stream con i seguenti elenchi:
- Una lista consentita. Questo elenco specifica le tabelle e gli schemi nel database di origine che Datastream può trasferire in una cartella del bucket di destinazione in Cloud Storage. Per questo tutorial, si tratta della cartella /root/tutorial.
- Un elenco di rifiuti. Questo elenco specifica le tabelle e gli schemi nel database di origine che Datastream non può trasferire nella cartella del bucket di destinazione Cloud Storage.
- Recupero delle informazioni sullo stream
- Modifica dello stream
- Avvia lo stream in modo che Datastream possa trasferire dati, schemi e tabelle dal database di origine a una cartella nel bucket Cloud Storage di destinazione.
- Utilizzo dell'API Fetch Errors per rilevare eventuali errori associati allo stream
- Mettere in pausa lo stream. Quando uno stream viene messo in pausa, Datastream non estrae nuovi dati dal database di origine nel bucket di destinazione.
- Riprendi lo stream in pausa in modo che Datastream possa continuare a trasferire i dati nel bucket di destinazione.
Creazione di un flusso
In questa procedura, crei uno stream dal database Oracle di origine in una cartella del bucket Cloud Storage di destinazione. Lo stream che crei includerà sia una lista consentita che una lista rifiutata.
Imposta una variabile SCHEMAS. Questa variabile definisce gli schemi che contengono i dati e le tabelle che vuoi che Datastream recuperi dal database di origine e trasferisca nella cartella /root/tutorial del bucket di destinazione Cloud Storage. Per questo tutorial, imposterai la variabile SCHEMAS da associare allo schema ROOT.
Al prompt, inserisci il seguente comando:
SCHEMAS="{\"oracleSchemas\":[{\"schema\":\"ROOT\"}]}"
Al prompt, inserisci il comando echo $SCHEMAS | jq per visualizzare lo schema ROOT che hai definito per questa variabile in un testo di facile lettura.
Creare uno stream. Al prompt, inserisci il seguente comando:
STREAM="{\"display_name\":\"DISPLAY_NAME\",\"source_config\":{\"source_connection_profile_name\":\"
PROJECT_PATH/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID" ,\"oracle_source_config\":{\"allowlist\":$SCHEMAS,\"rejectlist\":{}}},\"destination_config\":{\"destination_connection_profile_name\" :\"PROJECT_PATH/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID\",\"gcs_destination_config\": {\"file_rotation_mb\":5,\"file_rotation_interval\":{\"seconds\":15},\"avro_file_format\":{}}, \"backfill_all\":{}}}" Al prompt, inserisci il comando
echo $STREAM | jq
per visualizzare lo stream che hai creato in un testo facile da leggere.{ "display_name": "DISPLAY_NAME", "source_config": { "source_connection_profile_name": "PROJECT_PATH/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID", "oracle_source_config": { "allowlist": { "oracleSchemas": [ { "schema": "ROOT" } ] }, "rejectlist": {} } }, "destination_config": { "destination_connection_profile_name": "PROJECT_PATH/connectionProfiles/
DESTINATION_CONNECTION_PROFILE_ID" , "gcs_destination_config": { "file_rotation_mb": 5, "file_rotation_interval": { "seconds": 15 }, "avro_file_format": {} } }, "backfill_all": {} }Utilizza questa tabella per comprendere i seguenti parametri dello stream:
Parametro Descrizione allowlist Gli schemi contenenti tabelle e dati che verranno trasferiti dal database di origine a una cartella del bucket di destinazione Cloud Storage. Per questo tutorial, tutte le tabelle e i dati dello schema ROOT (e solo questo schema) verranno trasferiti nella cartella /root/tutorial del bucket di destinazione. rejectlist Eventuali schemi contenenti tabelle e dati che non verranno trasferiti in una cartella del bucket di destinazione Cloud Storage. Per questo tutorial, il valore {} indica che non verrà impedito il trasferimento di tabelle e dati dal database di origine al bucket di destinazione. file_rotation_mb Le dimensioni (in MByte) dei file che contengono i dati trasferiti dal database di origine a una cartella nel bucket di destinazione Cloud Storage. Per questo tutorial, i dati vengono recuperati dal database di origine e scritti in file di 5 MB. Se i dati superano queste dimensioni, verranno suddivisi in più file da 5 MB. file_rotation_interval Il numero di secondi che trascorrono prima che Datastream chiuda un file esistente in una cartella del bucket di destinazione Cloud Storage e apra un altro file contenente i dati trasferiti dal database di origine. Per questo tutorial, l'intervallo di rotazione dei file è impostato su 15 secondi. avro_file_format Il formato dei file che Datastream trasferirà dal database di origine a una cartella del bucket di destinazione Cloud Storage. Per questo tutorial, il formato file è Avro.
backfill_all Questo parametro è associato al backfill storico. Se imposti questo parametro su un dizionario vuoto ({}), Datastream eseguirà il backfill:
- Dati storici, oltre alle modifiche in corso ai dati, dal database di origine a quello di destinazione.
- Schemi e tabelle, dall'origine alla destinazione.
Convalida lo stream per assicurarti che venga eseguito correttamente e che tutti i controlli di convalida vengano superati. Al prompt, inserisci il seguente comando:
curl -X POST -d $STREAM -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
"https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams?stream_id= STREAM_ID&validate_only=true" Verifica di vedere la riga di codice
{}
. Ciò indica che lo stream ha superato tutti i controlli di convalida e che non sono presenti errori associati.Invia lo stream in modo che possa essere creato. Al prompt, inserisci il seguente comando:
curl -X POST -d $STREAM -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams?stream_id=STREAM_ID Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-STREAM_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "create", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Verifica che lo stream sia stato creato. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams Verifica di ricevere un risultato restituito per lo stream che hai creato.
{ "streams": [ { "name": "PROJECT_PATH/streams/STREAM_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "sourceConfig": { "sourceConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION
/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID" , "oracleSourceConfig": { "allowlist": { "oracleSchemas": [ { "schema": "ROOT" } ] }, "rejectlist": {} } }, "destinationConfig": { "destinationConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID" , "gcsDestinationConfig": { "fileRotationMb": 5, "fileRotationInterval": "15s" "avroFileFormat": {} } }, "state": "CREATED", "backfillAll": {} } ] }
Gestire lo stream
In questa procedura, utilizzi lo stream che hai creato per trasferire i dati da un database Oracle di origine a una cartella in un bucket di destinazione Cloud Storage. tra cui:
- Recupero delle informazioni sullo stream
- Modifica dello stream
- Avvio dello stream
- Utilizzo dell'API Fetch Errors per rilevare eventuali errori associati allo stream
- Mettere in pausa e riprendere lo stream
Recuperare le informazioni sullo stream. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID Verifica di visualizzare le informazioni su questo stream.
{ "name": "PROJECT_PATH/streams/STREAM_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "sourceConfig": { "sourceConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION
/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID" , "oracleSourceConfig": { "allowlist": { "oracleSchemas": [ { "schema": "ROOT" } ] }, "rejectlist": {} } }, "destinationConfig": { "destinationConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID" , "gcsDestinationConfig": { "fileRotationMb": 5, "fileRotationInterval": "15s" "avroFileFormat": {} } }, "state": "CREATED", "backfillAll": {} }Modifica questo stream. Per farlo, imposta prima una variabile UPDATE. Questa variabile contiene i valori dello stream che vuoi modificare. Per questo tutorial, modifica le dimensioni (in MB) dei file contenenti i dati che vengono trasferiti dal database di origine in una cartella del bucket di destinazione Cloud Storage (da 5 MB a 100 MB). Quando i dati vengono recuperati dal database di origine, ora vengono scritti in file da 100 MB. Se i dati superano queste dimensioni, verranno suddivisi in più file da 100 MB.
Per impostare la variabile, inserisci il seguente comando al prompt:
UPDATE="{\"destination_config\":{\"gcs_destination_config\":{\"file_rotation_mb\":100}}}"
Al prompt, inserisci il seguente comando:
curl -X PATCH -d $UPDATE -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID/ ?update_mask=destination_config.gcs_destination_config.file_rotation_mb Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-STREAM_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "update", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Verifica che lo stream sia modificato. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID Verifica che il valore del parametro fileRotationMb per il profilo di connessione Cloud Storage sia ora
100
.{ "name": "PROJECT_PATH/streams/STREAM_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "sourceConfig": { "sourceConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION
/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID" , "oracleSourceConfig": { "allowlist": { "oracleSchemas": [ { "schema": "ROOT" } ] }, "rejectlist": {} } }, "destinationConfig": { "destinationConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID" , "gcsDestinationConfig": { "fileRotationMb": 100, "fileRotationInterval": "15s" "avroFileFormat": {} } }, "state": "CREATED", "backfillAll": {} }Avvia lo stream. Ecco come fare:
Modifica la variabile
UPDATE
. Al prompt, inserisci il seguente comando:UPDATE="{\"state\":\"RUNNING\"}"
Quindi, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID ?updateMask=state
Verifica di visualizzare le seguenti righe di codice.
{ "name": "PROJECT_PATH/operations/operation-STREAM_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "start", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Dopo alcuni minuti, recupera le informazioni sullo stream per confermare che è stato avviato:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID Verifica che lo stato dello stream sia passato da
CREATED
aRUNNING
.{ "name": "PROJECT_PATH/streams/STREAM_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "sourceConfig": { "sourceConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION
/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID" , "oracleSourceConfig": { "allowlist": { "oracleSchemas": [ { "schema": "ROOT" } ] }, "rejectlist": {} } }, "destinationConfig": { "destinationConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID" , "gcsDestinationConfig": { "fileRotationMb": 100, "fileRotationInterval": "15s" "avroFileFormat": {} } }, "state": "RUNNING", "backfillAll": {} }Utilizza l'API Fetch Errors per recuperare eventuali errori associati allo stream.
Al prompt, inserisci il seguente comando:
curl -X POST -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/ STREAM_ID:fetchErrors Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-FETCH_ERRORS_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "fetchErrors", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/operations/ operation-FETCH_ERRORS_OPERATION_ID Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-FETCH_ERRORS_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION
.OperationMetadata" , "createTime": "DATE_AND_TIME_STAMP", "endTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "fetchErrors", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.FetchErrorsResponse" } }
Metti in pausa lo stream. Ecco come fare:
Modifica la variabile
UPDATE
. Al prompt, inserisci il seguente comando:UPDATE="{\"state\":\"PAUSED\"}"
Quindi, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID ?updateMask=state
Verifica di visualizzare le seguenti righe di codice.
{ "name": "PROJECT_PATH/operations/operation-STREAM_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "start", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Recupera le informazioni sullo stream per verificare che sia in pausa.
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID Verifica che lo stato dello stream sia passato da
RUNNING
aPAUSED
.{ "name": "PROJECT_PATH/streams/STREAM_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "sourceConfig": { "sourceConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION
/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID" , "oracleSourceConfig": { "allowlist": { "oracleSchemas": [ { "schema": "ROOT" } ] }, "rejectlist": {} } }, "destinationConfig": { "destinationConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID" , "gcsDestinationConfig": { "fileRotationMb": 100, "fileRotationInterval": "15s" "avroFileFormat": {} } }, "state": "PAUSED", "backfillAll": {} }Riprendi lo stream in pausa. Ecco come fare:
Modifica la variabile
UPDATE
. Al prompt, inserisci il seguente comando:UPDATE="{\"state\":\"RUNNING\"}"
Quindi, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID ?updateMask=state
Verifica di visualizzare le seguenti righe di codice.
{ "name": "PROJECT_PATH/operations/operation-STREAM_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "start", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Dopo alcuni secondi, recupera le informazioni sullo stream per verificare che sia di nuovo in esecuzione.
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID Verifica che lo stato dello stream sia passato da
PAUSED
aRUNNING
.{ "name": "PROJECT_PATH/streams/STREAM_ID", "createTime": "DATE_AND_TIME_STAMP", "updateTime": "DATE_AND_TIME_STAMP", "displayName": "DISPLAY_NAME", "sourceConfig": { "sourceConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION
/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID" , "oracleSourceConfig": { "allowlist": { "oracleSchemas": [ { "schema": "ROOT" } ] }, "rejectlist": {} } }, "destinationConfig": { "destinationConnectionProfileName": "projects/YOUR_PROJECT_NUMBER/locations/YOUR_PROJECT_LOCATION/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID" , "gcsDestinationConfig": { "fileRotationMb": 100, "fileRotationInterval": "15s" "avroFileFormat": {} } }, "state": "RUNNING", "backfillAll": {} }
Ora che hai creato e gestito uno stream, hai verificato che non sono presenti errori associati e che lo stato dello stream è RUNNING
, puoi verificare che possa trasferire i dati dal database di origine a una cartella nel bucket di destinazione Cloud Storage.
Verifica dello stream
In questa procedura confermi che Datastream:
- Trasferisce i dati da tutte le tabelle associate allo schema
ROOT
del database Oracle di origine nella cartella/root/tutorial
del bucket di destinazione Cloud Storage. - Traduci i dati nel formato file Avro.
Vai alla pagina Browser di archiviazione in Cloud Storage.
Fai clic sul link contenente il bucket.
Se la scheda OBJECTS non è attiva, fai clic su di essa.
Fai clic sulla cartella principale e poi sulla cartella tutorial.
Verifica di vedere le cartelle che rappresentano le tabelle dello schema
ROOT
del database Oracle di origine.Fai clic su una delle cartelle delle tabelle ed esegui un'esplorazione dettagliata finché non visualizzi i dati associati alla tabella.
Fai clic su un file che rappresenta i dati e poi su SCARICA.
Apri questo file in uno strumento Avro (ad esempio Avro Viewer) per assicurarti che i contenuti siano leggibili. Ciò conferma che Datastream ha tradotto i dati anche nel formato file Avro.
Esegui la pulizia
Al termine di questo tutorial, puoi eliminare le risorse che hai creato in Datastream in modo che non occupino la quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Elimina il bucket di destinazione Cloud Storage
Nel riquadro di navigazione a sinistra di Cloud Storage, fai clic sull'elemento Browser.
Seleziona la casella di controllo a sinistra del bucket e fai clic su ELIMINA.
Nella finestra Elimina bucket?, inserisci il nome del bucket nel campo di testo e fai clic su CONFERMA.
Elimina lo stream
Assicurati che l'applicazione Cloud Shell sia attiva.
Al prompt, inserisci il seguente comando:
curl -X DELETE -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams/STREAM_ID Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-STREAM_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/streams/STREAM_ID", "verb": "delete", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Conferma che lo stream è stato eliminato. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/streams Verifica che venga restituito un valore
{}
null. Ciò significa che non ci sono più stream in Datastream e che lo stream che hai creato è stato eliminato.
Eliminare i profili di connessione
Elimina il profilo di connessione al database Oracle di origine. Al prompt, inserisci il seguente comando:
curl -X DELETE -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles/ SOURCE_CONNECTION_PROFILE_ID Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-SOURCE_CONNECTION_PROFILE_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/connectionProfiles/SOURCE_CONNECTION_PROFILE_ID", "verb": "delete", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Elimina il profilo di connessione al bucket di destinazione in Cloud Storage. Al prompt, inserisci il seguente comando:
curl -X DELETE -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles/ DESTINATION_CONNECTION_PROFILE_ID Verifica di visualizzare le seguenti righe di codice:
{ "name": "PROJECT_PATH/operations/operation-DESTINATION_CONNECTION_PROFILE_OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.datastream.DATASTREAM_API_VERSION.OperationMetadata", "createTime": "DATE_AND_TIME_STAMP", "target": "PROJECT_PATH/connectionProfiles/DESTINATION_CONNECTION_PROFILE_ID", "verb": "delete", "requestedCancellation": false, "apiVersion": "DATASTREAM_API_VERSION" }, "done": false }
Verifica che entrambi i profili di connessione siano stati eliminati. Al prompt, inserisci il seguente comando:
curl -H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
https://datastream.googleapis.com/DATASTREAM_API_VERSION/PROJECT_PATH/connectionProfiles Verifica che venga restituito un valore
{}
null. Ciò significa che non ci sono più profili di connessione in Datastream e che i profili che hai creato sono stati eliminati.
Passaggi successivi
- Scopri di più su Datastream.
- Prova le altre funzionalità di Google Cloud. Dai un'occhiata ai nostri tutorial.