Questo tutorial descrive come eseguire la migrazione da Amazon DynamoDB a Spanner. È principalmente rivolto ai proprietari di app che vogliono passare da un sistema NoSQL a Spanner, un sistema di database SQL completamente relazionale, a tolleranza di errore e a scalabilità elevata che supporta le transazioni. Se utilizzi costantemente la tabella Amazon DynamoDB, in termini di tipi e layout, la mappatura a Spanner è semplice. Se le tabelle Amazon DynamoDB contengono tipi di dati e valori arbitrari, potrebbe essere più semplice passare ad altri servizi SQL, come Datastore o Firestore.
Questo tutorial presuppone che tu abbia familiarità con gli schemi di database, i tipi di dati, i concetti di base di NoSQL e i sistemi di database relazionali. Il tutorial si basa sull'esecuzione di attività predefinite per eseguire una migrazione di esempio. Dopo il tutorial, puoi modificare il codice fornito e i passaggi per abbinare l'ambiente.
Il seguente diagramma dell'architettura illustra i componenti utilizzati nel tutorial per eseguire la migrazione dei dati:
Obiettivi
- Eseguire la migrazione dei dati da Amazon DynamoDB a Spanner.
- Creare un database Spanner e una tabella di migrazione.
- Mappare uno schema NoSQL a uno schema relazionale.
- Crea ed esporta un set di dati di esempio che utilizza Amazon DynamoDB.
- Trasferisci dati tra Amazon S3 e Cloud Storage.
- Utilizza Dataflow per caricare dati in Spanner.
Costi
Questo tutorial utilizza i seguenti componenti fatturabili di Google Cloud:
Gli addebiti di Spanner si basano sulla quantità di capacità di calcolo nella tua istanza e sulla quantità di dati archiviati durante il ciclo di fatturazione mensile. Durante il tutorial, utilizzerai una configurazione minima di queste risorse, che vengono pulite alla fine. Per scenari reali, stima i tuoi requisiti di velocità effettiva e archiviazione, quindi utilizza la documentazione sulle istanze Spanner per determinare la quantità di capacità di calcolo necessaria.
Oltre alle risorse Google Cloud, questo tutorial utilizza le seguenti risorse di Amazon Web Services (AWS):
- AWS Lambda
- Amazon S3
- Amazon DynamoDB
Questi servizi sono necessari solo durante il processo di migrazione. Al termine del tutorial, segui le istruzioni per eseguire la pulizia di tutte le risorse al fine di evitare addebiti non necessari. Per una stima dei costi, utilizza il Calcolatore prezzi di AWS.
Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.
-
Abilita le API Spanner, Pub/Sub, Compute Engine, and Dataflow.
-
Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.
-
Abilita le API Spanner, Pub/Sub, Compute Engine, and Dataflow.
Al termine di questo tutorial, puoi evitare una fatturazione continua eliminando le risorse che hai creato. Per scoprire di più, vedi Pulizia.
prepara l'ambiente
In questo tutorial, esegui i comandi in Cloud Shell. Cloud Shell ti dà accesso alla riga di comando in Google Cloud e include Google Cloud CLI e altri strumenti di cui hai bisogno per lo sviluppo di Google Cloud. L'inizializzazione di Cloud Shell può richiedere diversi minuti.
Attiva Cloud Shell.
Imposta la zona di Compute Engine predefinita. Ad esempio,
us-central1-b
.gcloud config set compute/zone us-central1-b
Clona il repository GitHub contenente il codice di esempio.
git clone https://github.com/GoogleCloudPlatform/dynamodb-spanner-migration.git
Vai alla directory clonata.
cd dynamodb-spanner-migration
Creare un ambiente virtuale Python.
pip3 install virtualenv virtualenv env
Attiva l'ambiente virtuale.
source env/bin/activate
Installa i moduli Python richiesti.
pip3 install -r requirements.txt
Configura l'accesso AWS
In questo tutorial, potrai creare ed eliminare tabelle Amazon DynamoDB, bucket Amazon S3 e altre risorse. Per accedere a queste risorse, devi prima creare le autorizzazioni AWS Identity and Access Management (IAM) richieste. Puoi utilizzare un account AWS di test o sandbox per evitare di influire sulle risorse di produzione nello stesso account.
Crea un ruolo AWS IAM per AWS Lambda
In questa sezione creerai un ruolo AWS IAM che AWS Lambda utilizzerà in un passaggio successivo del tutorial.
- Nella console AWS, vai alla sezione IAM, fai clic su Ruoli, quindi seleziona Crea ruolo.
- In Tipo di entità attendibile, assicurati che sia selezionato Servizio AWS.
- In Caso d'uso, seleziona Lambda, poi fai clic su Avanti.
- Nella casella del filtro Criteri di autorizzazione, inserisci
AWSLambdaDynamoDBExecutionRole
e premiReturn
per eseguire la ricerca. - Seleziona la casella di controllo AWSLambdaDynamoDBExecutionRole, quindi fai clic su Avanti.
- Nella casella Nome ruolo, inserisci
dynamodb-spanner-lambda-role
e fai clic su Crea ruolo.
Crea un utente AWS IAM
Segui questi passaggi per creare un utente AWS IAM con accesso programmatico alle risorse AWS, che verranno utilizzati durante il tutorial.
- Sempre nella sezione IAM della console AWS, fai clic su Utenti e seleziona Aggiungi utenti.
- Nella casella Nome utente, inserisci
dynamodb-spanner-migration
. In Tipo di accesso, seleziona la casella di controllo a sinistra di Chiave di accesso - Accesso programmatico.
Fai clic su Successivo: autorizzazioni.
Fai clic su Allega direttamente i criteri esistenti e utilizzando la casella Cerca per filtrare, seleziona la casella di controllo accanto a ciascuno dei tre criteri seguenti:
AmazonDynamoDBFullAccess
AmazonS3FullAccess
AWSLambda_FullAccess
Fai clic su Successivo: tag e su Successivo: esamina, quindi fai clic su Crea utente.
Fai clic su Mostra per visualizzare le credenziali. L'ID della chiave di accesso e la chiave di accesso segreta vengono mostrati all'utente appena creato. Lascia aperta questa finestra per il momento perché le credenziali sono necessarie nella sezione seguente. Archivia queste informazioni in sicurezza, perché puoi utilizzarle per apportare modifiche al tuo account e influire sul tuo ambiente. Alla fine di questo tutorial, puoi eliminare l'utente IAM.
Configura l'interfaccia a riga di comando di AWS
In Cloud Shell, configura l'interfaccia a riga di comando (ALI) di AWS.
aws configure
Viene visualizzato il seguente output:
AWS Access Key ID [None]: PASTE_YOUR_ACCESS_KEY_ID AWS Secret Access Key [None]: PASTE_YOUR_SECRET_ACCESS_KEY Default region name [None]: us-west-2 Default output format [None]:
- Inserisci
ACCESS KEY ID
eSECRET ACCESS KEY
dall'account AWS IAM che hai creato. - Nel campo Nome regione predefinita, inserisci
us-west-2
. Lascia invariati i valori predefiniti degli altri campi.
- Inserisci
Chiudi la finestra della console AWS IAM.
Informazioni sul modello dei dati
La sezione seguente illustra le somiglianze e le differenze tra tipi di dati, chiavi e indici per Amazon DynamoDB e Spanner.
Tipi di dati
Spanner utilizza i tipi di dati GoogleSQL. La seguente tabella descrive come i tipi di dati di Amazon DynamoDB vengono mappati ai tipi di dati di Spanner.
DynamoDB Amazon | Spanner |
---|---|
Numero | A seconda dell'utilizzo previsto o preciso, il mappatura potrebbe essere INT64, FLOAT64, TIMESTAMP o DATE. |
Stringa | Stringa |
Booleano | BOOL |
Nullo | Nessun tipo esplicito. Le colonne possono contenere valori nulli. |
Programma binario | Byte |
Set | Array |
Mappa ed elenco | Fai in modo che la struttura sia coerente e possa essere descritta utilizzando la sintassi DDL della tabella. |
Chiave primaria
Una chiave primaria Amazon DynamoDB stabilisce l'unicità e può essere una chiave hash o una combinazione di una chiave hash più una chiave di intervallo. Questo tutorial mostra la migrazione di una tabella Amazon DynamoDB la cui chiave principale è una chiave hash. Questa chiave hash diventa la chiave principale della tabella Spanner. Più avanti, nella sezione sulle tabelle con interfoliazione, si modella una situazione in cui una tabella Amazon DynamoDB utilizza una chiave primaria composta da una chiave hash e una chiave di intervallo.
Indici secondari
Sia Amazon DynamoDB che Spanner supportano la creazione di un indice su un attributo della chiave non principale. Prendi nota di eventuali indici secondari nella tabella Amazon DynamoDB in modo da poterli creare nella tabella Spanner, illustrata in una sezione successiva di questo tutorial.
Tabella di esempio
Per facilitare questo tutorial, esegui la migrazione della seguente tabella di esempio da Amazon DynamoDB a Spanner:
Amazon DynamoDB | Spanner | |
---|---|---|
Nome della tabella |
Migration
|
Migration
|
Chiave primaria |
"Username" : String
|
"Username" : STRING(1024)
|
Tipo di chiave | Hash | n/d |
Altri campi |
Zipcode: Number
Subscribed: Boolean
ReminderDate: String
PointsEarned: Number
|
Zipcode: INT64
Subscribed: BOOL
ReminderDate: DATE
PointsEarned: INT64
|
Prepara la tabella Amazon DynamoDB
Nella sezione seguente, creerai una tabella di origine Amazon DynamoDB e la completerai con i dati.
In Cloud Shell, crea una tabella Amazon DynamoDB che utilizza gli attributi della tabella di esempio.
aws dynamodb create-table --table-name Migration \ --attribute-definitions AttributeName=Username,AttributeType=S \ --key-schema AttributeName=Username,KeyType=HASH \ --provisioned-throughput ReadCapacityUnits=75,WriteCapacityUnits=75
Verifica che lo stato della tabella sia
ACTIVE
.aws dynamodb describe-table --table-name Migration \ --query 'Table.TableStatus'
Completa la tabella con dati di esempio.
python3 make-fake-data.py --table Migration --items 25000
Creazione di un database Spanner
Puoi creare un'istanza di Spanner con la capacità di calcolo minima possibile: 100 unità di elaborazione. Questa capacità di calcolo è sufficiente per l'ambito di questo tutorial. Per un deployment in produzione, consulta la documentazione relativa alle istanze di Spanner per determinare la capacità di calcolo adeguata a soddisfare i requisiti di prestazioni del database.
In questo esempio crei uno schema di tabella contemporaneamente al database. È inoltre possibile, e in genere, eseguire aggiornamenti dello schema dopo aver creato il database.
Crea un'istanza di Spanner nella stessa regione in cui hai impostato la zona di Compute Engine predefinita. Ad esempio,
us-central1
.gcloud beta spanner instances create spanner-migration \ --config=regional-us-central1 --processing-units=100 \ --description="Migration Demo"
Creare un database nell'istanza di Spanner insieme alla tabella di esempio.
gcloud spanner databases create migrationdb \ --instance=spanner-migration \ --ddl "CREATE TABLE Migration ( \ Username STRING(1024) NOT NULL, \ PointsEarned INT64, \ ReminderDate DATE, \ Subscribed BOOL, \ Zipcode INT64, \ ) PRIMARY KEY (Username)"
Preparare la migrazione
Le sezioni successive mostrano come esportare la tabella di origine di Amazon DynamoDB e impostare la replica Pub/Sub per acquisire eventuali modifiche al database che si verificano durante l'esportazione.
Trasmetti flussi alle modifiche Pub/Sub
Utilizzerai una funzione AWS Lambda per trasmettere in streaming le modifiche al database su Pub/Sub.
In Cloud Shell, abilita i flussi Amazon DynamoDB nella tua tabella di origine.
aws dynamodb update-table --table-name Migration \ --stream-specification StreamEnabled=true,StreamViewType=NEW_AND_OLD_IMAGES
Configura un argomento Pub/Sub per ricevere le modifiche.
gcloud pubsub topics create spanner-migration
Viene visualizzato il seguente output:
Created topic [projects/your-project/topics/spanner-migration].
Creare un account di servizio IAM per eseguire il push degli aggiornamenti delle tabelle all'argomento Pub/Sub.
gcloud iam service-accounts create spanner-migration \ --display-name="Spanner Migration"
Viene visualizzato il seguente output:
Created service account [spanner-migration].
Creare un'associazione dei criteri IAM in modo che l'account di servizio abbia l'autorizzazione per la pubblicazione in Pub/Sub. Sostituisci
GOOGLE_CLOUD_PROJECT
con il nome del tuo progetto Google Cloud.gcloud projects add-iam-policy-binding GOOGLE_CLOUD_PROJECT \ --role roles/pubsub.publisher \ --member serviceAccount:spanner-migration@GOOGLE_CLOUD_PROJECT.iam.gserviceaccount.com
Viene visualizzato il seguente output:
bindings: (...truncated...) - members: - serviceAccount:spanner-migration@solution-z.iam.gserviceaccount.com role: roles/pubsub.publisher
Creare le credenziali per l'account di servizio.
gcloud iam service-accounts keys create credentials.json \ --iam-account spanner-migration@GOOGLE_CLOUD_PROJECT.iam.gserviceaccount.com
Viene visualizzato il seguente output:
created key [5e559d9f6bd8293da31b472d85a233a3fd9b381c] of type [json] as [credentials.json] for [spanner-migration@your-project.iam.gserviceaccount.com]
Prepara e pacchettizza la funzione AWS Lambda per eseguire il push delle modifiche alla tabella Amazon DynamoDB all'argomento Pub/Sub.
pip3 install --ignore-installed --target=lambda-deps google-cloud-pubsub
cd lambda-deps; zip -r9 ../pubsub-lambda.zip *; cd -
zip -g pubsub-lambda.zip ddbpubsub.pyCreare una variabile per acquisire il nome della risorsa Amazon (ARN) del ruolo di esecuzione Lambda creato in precedenza.
LAMBDA_ROLE=$(aws iam list-roles \ --query 'Roles[?RoleName==`dynamodb-spanner-lambda-role`].[Arn]' \ --output text)
Utilizza il pacchetto
pubsub-lambda.zip
per creare la funzione AWS Lambda.aws lambda create-function --function-name dynamodb-spanner-lambda \ --runtime python3.9 --role ${LAMBDA_ROLE} \ --handler ddbpubsub.lambda_handler --zip fileb://pubsub-lambda.zip \ --environment Variables="{SVCACCT=$(base64 -w 0 credentials.json),PROJECT=GOOGLE_CLOUD_PROJECT,TOPIC=spanner-migration}"
Viene visualizzato il seguente output:
{ "FunctionName": "dynamodb-spanner-lambda", "LastModified": "2022-03-17T23:45:26.445+0000", "RevisionId": "e58e8408-cd3a-4155-a184-4efc0da80bfb", "MemorySize": 128,
... truncated output... "PackageType": "Zip", "Architectures": [ "x86_64" ] }Crea una variabile per acquisire l'ARN dello stream di Amazon DynamoDB per la tua tabella.
STREAMARN=$(aws dynamodb describe-table \ --table-name Migration \ --query "Table.LatestStreamArn" \ --output text)
Collega la funzione Lambda alla tabella Amazon DynamoDB.
aws lambda create-event-source-mapping --event-source ${STREAMARN} \ --function-name dynamodb-spanner-lambda --enabled \ --starting-position TRIM_HORIZON
Per ottimizzare la reattività durante il test, aggiungi
--batch-size 1
alla fine del comando precedente, che attiva la funzione ogni volta che crei, aggiorni o elimini un elemento.Verrà visualizzato un output simile al seguente:
{ "UUID": "44e4c2bf-493a-4ba2-9859-cde0ae5c5e92", "StateTransitionReason": "User action", "LastModified": 1530662205.549, "BatchSize": 100, "EventSourceArn": "arn:aws:dynamodb:us-west-2:accountid:table/Migration/stream/2018-07-03T15:09:57.725", "FunctionArn": "arn:aws:lambda:us-west-2:accountid:function:dynamodb-spanner-lambda", "State": "Creating", "LastProcessingResult": "No records processed" ... truncated output...
Esporta la tabella Amazon DynamoDB in Amazon S3
In Cloud Shell, crea una variabile per il nome di un bucket che utilizzi in diverse delle sezioni seguenti.
BUCKET=${DEVSHELL_PROJECT_ID}-dynamodb-spanner-export
Crea un bucket Amazon S3 per ricevere l'esportazione DynamoDB.
aws s3 mb s3://${BUCKET}
Nella console di gestione AWS, vai a DynamoDB e fai clic su Tabelle.
Fai clic sulla tabella
Migration
.Nella scheda Esporta e Stream, fai clic su Esporta in S3.
Abilita
point-in-time-recovery
(PITR) se richiesto.Fai clic su Sfoglia S3 per scegliere il bucket S3 che hai creato in precedenza.
Fai clic su Esporta.
Fai clic sull'icona Aggiorna per aggiornare lo stato del job di esportazione. Il completamento dell'esportazione del job richiede diversi minuti.
Al termine del processo, controlla il bucket di output.
aws s3 ls --recursive s3://${BUCKET}
L'operazione richiede circa 5 minuti. Al termine, l'output sarà simile al seguente:
2022-02-17 04:41:46 0 AWSDynamoDB/01645072900758-ee1232a3/_started 2022-02-17 04:46:04 500441 AWSDynamoDB/01645072900758-ee1232a3/data/xygt7i2gje4w7jtdw5652s43pa.json.gz 2022-02-17 04:46:17 199 AWSDynamoDB/01645072900758-ee1232a3/manifest-files.json 2022-02-17 04:46:17 24 AWSDynamoDB/01645072900758-ee1232a3/manifest-files.md5 2022-02-17 04:46:17 639 AWSDynamoDB/01645072900758-ee1232a3/manifest-summary.json 2022-02-17 04:46:18 24 AWSDynamoDB/01645072900758-ee1232a3/manifest-summary.md5
Eseguire la migrazione
Ora che la pubblicazione Pub/Sub è in atto, puoi inviare una qualsiasi modifica alla tabella che si è verificata dopo l'esportazione.
Copia la tabella esportata in Cloud Storage
In Cloud Shell, crea un bucket Cloud Storage per ricevere i file esportati da Amazon S3.
gsutil mb gs://${BUCKET}
Sincronizza i file da Amazon S3 in Cloud Storage. Per la maggior parte delle operazioni di copia, il comando
rsync
è efficace. Se le dimensioni dei file esportati sono superiori a diversi GB (o più GB), utilizza il servizio di trasferimento Cloud Storage per gestire il trasferimento in background.gsutil rsync -d -r s3://${BUCKET} gs://${BUCKET}
Importazione collettiva dei dati
Per scrivere i dati dai file esportati nella tabella Spanner, esegui un job Dataflow con codice Apache di esempio.
cd dataflow mvn compile mvn exec:java \ -Dexec.mainClass=com.example.spanner_migration.SpannerBulkWrite \ -Pdataflow-runner \ -Dexec.args="--project=GOOGLE_CLOUD_PROJECT \ --instanceId=spanner-migration \ --databaseId=migrationdb \ --table=Migration \ --importBucket=$BUCKET \ --runner=DataflowRunner \ --region=us-central1"
Per visualizzare l'avanzamento del job di importazione, vai a Dataflow nella console Google Cloud.
Mentre il job è in esecuzione, puoi guardare il grafico di esecuzione per esaminare i log. Fai clic sul job che mostra lo stato In esecuzione.
Fai clic su ogni fase per vedere quanti elementi sono stati elaborati. L'importazione è completata quando tutte le fasi indicano Riuscito. Lo stesso numero di elementi creati nella tabella Amazon DynamoDB visualizzato come elaborati in ogni fase.
Verifica che il numero di record nella tabella Spanner di destinazione corrisponda al numero di elementi nella tabella Amazon DynamoDB.
aws dynamodb describe-table --table-name Migration --query Table.ItemCount
gcloud spanner databases execute-sql migrationdb \ --instance=spanner-migration --sql="select count(*) from Migration"Viene visualizzato il seguente output:
$ aws dynamodb describe-table --table-name Migration --query Table.ItemCount 25000 $ gcloud spanner databases execute-sql migrationdb --instance=spanner-migration --sql="select count(*) from Migration" 25000
Esempio di voci casuali in ogni tabella per assicurarti che i dati siano coerenti.
gcloud spanner databases execute-sql migrationdb \ --instance=spanner-migration \ --sql="select * from Migration limit 1"
Viene visualizzato il seguente output:
Username: aadams4495 PointsEarned: 5247 ReminderDate: 2022-03-14 Subscribed: True Zipcode: 58057
Esegui una query sulla tabella Amazon DynamoDB con lo stesso
Username
restituito dalla query Spanner nel passaggio precedente. Ad esempio:aallen2538
. Il valore è specifico per i dati di esempio nel tuo database.aws dynamodb get-item --table-name Migration \ --key '{"Username": {"S": "aadams4495"}}'
I valori degli altri campi devono corrispondere a quelli dell'output di Spanner. Viene visualizzato il seguente output:
{ "Item": { "Username": { "S": "aadams4495" }, "ReminderDate": { "S": "2018-06-18" }, "PointsEarned": { "N": "1606" }, "Zipcode": { "N": "17303" }, "Subscribed": { "BOOL": false } } }
Replica nuove modifiche
Una volta completato il job di importazione batch, configuri un job di inserimento flussi per scrivere gli aggiornamenti continui dalla tabella di origine in Spanner. Puoi iscriverti agli eventi da Pub/Sub e scriverli su Spanner
La funzione Lambda che hai creato è configurata per acquisire le modifiche alla tabella Amazon DynamoDB di origine e pubblicarle in Pub/Sub.
Crea una sottoscrizione all'argomento Pub/Sub a cui AWS Lambda invia gli eventi.
gcloud pubsub subscriptions create spanner-migration \ --topic spanner-migration
Viene visualizzato il seguente output:
Created subscription [projects/your-project/subscriptions/spanner-migration].
Per trasmettere in flussi le modifiche in Pub/Sub da scrivere nella tabella Spanner, esegui il job Dataflow da Cloud Shell.
mvn exec:java \ -Dexec.mainClass=com.example.spanner_migration.SpannerStreamingWrite \ -Pdataflow-runner \ -Dexec.args="--project=GOOGLE_CLOUD_PROJECT \ --instanceId=spanner-migration \ --databaseId=migrationdb \ --table=Migration \ --experiments=allow_non_updatable_job \ --subscription=projects/GOOGLE_CLOUD_PROJECT/subscriptions/spanner-migration \ --runner=DataflowRunner \ --region=us-central1"
Analogamente al passaggio di caricamento in gruppo, per controllare l'avanzamento del job, nella console Google Cloud vai a Dataflow.
Fai clic sul job con Stato In esecuzione.
Il grafico di elaborazione mostra un output simile a quello di prima, ma ogni elemento elaborato viene conteggiato nella finestra di stato. Il tempo di attesa del sistema è una stima approssimativa del ritardo di attesa prima che le modifiche vengano visualizzate nella tabella di Spanner.
Il job Dataflow che hai eseguito nella fase di caricamento batch è un set di input finito, noto anche come set di dati limitato. Questo job Dataflow utilizza Pub/Sub come origine per lo streaming ed è considerato senza limiti. Per ulteriori informazioni su questi due tipi di fonti, consulta la sezione sulle PCollection nella guida alla programmazione di Apache Beam. Il job Dataflow in questo passaggio è destinato a rimanere attivo, quindi non termina una volta completato. Il job di Dataflow in modalità flusso rimane nello stato In esecuzione anziché in Riuscito.
Verifica replica
Apporta alcune modifiche alla tabella di origine per verificare che le modifiche siano state replicate nella tabella Spanner.
Esegui una query su una riga inesistente in Spanner.
gcloud spanner databases execute-sql migrationdb \ --instance=spanner-migration \ --sql="SELECT * FROM Migration WHERE Username='my-test-username'"
L'operazione non restituirà alcun risultato.
Crea un record in Amazon DynamoDB con la stessa chiave utilizzata nella query di Spanner. Se il comando viene eseguito correttamente, non viene visualizzato alcun output.
aws dynamodb put-item \ --table-name Migration \ --item '{"Username" : {"S" : "my-test-username"}, "Subscribed" : {"BOOL" : false}}'
Esegui di nuovo la stessa query per verificare che la riga sia ora in Spanner.
gcloud spanner databases execute-sql migrationdb \ --instance=spanner-migration \ --sql="SELECT * FROM Migration WHERE Username='my-test-username'"
L'output mostra la riga inserita:
Username: my-test-username PointsEarned: None ReminderDate: None Subscribed: False Zipcode:
Modifica alcuni attributi nell'elemento originale e aggiorna la tabella Amazon DynamoDB.
aws dynamodb update-item \ --table-name Migration \ --key '{"Username": {"S":"my-test-username"}}' \ --update-expression "SET PointsEarned = :pts, Subscribed = :sub" \ --expression-attribute-values '{":pts": {"N":"4500"}, ":sub": {"BOOL":true}}'\ --return-values ALL_NEW
Verrà visualizzato un output simile al seguente:
{ "Attributes": { "Username": { "S": "my-test-username" }, "PointsEarned": { "N": "4500" }, "Subscribed": { "BOOL": true } } }
Verifica che le modifiche siano propagate nella tabella Spanner.
gcloud spanner databases execute-sql migrationdb \ --instance=spanner-migration \ --sql="SELECT * FROM Migration WHERE Username='my-test-username'"
L'output è simile al seguente:
Username PointsEarned ReminderDate Subscribed Zipcode my-test-username 4500 None True
Elimina l'elemento di test dalla tabella di origine di Amazon DynamoDB.
aws dynamodb delete-item \ --table-name Migration \ --key '{"Username": {"S":"my-test-username"}}'
Verifica che la riga corrispondente sia stata eliminata dalla tabella Spanner. Quando la modifica viene propagata, il comando seguente restituisce zero righe:
gcloud spanner databases execute-sql migrationdb \ --instance=spanner-migration \ --sql="SELECT * FROM Migration WHERE Username='my-test-username'"
Utilizza tabelle con interfoliazione
Spanner supporta il concetto di interleaving tabelle. Si tratta di un modello di progettazione in cui un elemento di primo livello include diversi elementi nidificati che riguardano l'elemento di primo livello, ad esempio un cliente e i suoi ordini, oppure un giocatore e i suoi punteggi di giochi. Se la tabella di origine di Amazon DynamoDB utilizza una chiave primaria composta da una chiave hash e una chiave di intervallo, puoi progettare uno schema di tabella con interfoliazione come mostrato nel diagramma seguente. Questa struttura consente di eseguire query in modo efficiente sulla tabella con interfoliazione durante l'unione di campi nella tabella padre.
Applica indici secondari
Una best practice è applicare gli indici secondari alle tabelle Spanner dopo il caricamento dei dati. Ora che la replica funziona, configuri un indice secondario per velocizzare le query. Come per le tabelle Spanner, gli indici secondari Spanner sono completamente coerenti. Non alla fine sono comuni, in molti database NoSQL. Questa funzionalità può aiutare a semplificare la progettazione dell'app
Eseguire una query che non utilizza alcun indice. Stai cercando le prime N occorrenze, in base a un valore di colonna specifico. Questa è una query comune in Amazon DynamoDB per l'efficienza dei database.
Vai a Spanner.
Fai clic su Query.
Nel campo Query, inserisci la query seguente e fai clic su Esegui query.
SELECT Username,PointsEarned FROM Migration WHERE Subscribed=true AND ReminderDate > DATE_SUB(DATE(current_timestamp()), INTERVAL 14 DAY) ORDER BY ReminderDate DESC LIMIT 10
Al termine della query, fai clic su Spiegazione e prendi nota del confronto tra Righe scansionate e Righe restituite. Senza un indice, Spanner esegue la scansione dell'intera tabella per restituire un piccolo sottoinsieme di dati che corrisponde alla query.
Se si tratta di una query frequente, crea un indice composto nelle colonne Abbonamento e Promemoria. Nella console di Spanner, seleziona Indice nel riquadro di navigazione a sinistra, quindi fai clic su Crea indice.
Inserisci la definizione dell'indice nella casella di testo.
CREATE INDEX SubscribedDateDesc ON Migration ( Subscribed, ReminderDate DESC )
Per iniziare a creare il database in background, fai clic su Crea.
Dopo aver creato l'indice, esegui di nuovo la query e aggiungi l'indice.
SELECT Username,PointsEarned FROM Migration@{FORCE_INDEX=SubscribedDateDesc} WHERE Subscribed=true AND ReminderDate > DATE_SUB(DATE(current_timestamp()), INTERVAL 14 DAY) ORDER BY ReminderDate DESC LIMIT 10
Esamina di nuovo la spiegazione della query. Nota che il numero di Righe scansionate è diminuito. Le Righe restituite in ogni passaggio corrispondono al numero restituito dalla query.
Indici con interfoliazione
Puoi configurare indici con interfoliazione in Spanner. Gli indici secondari discussi nella sezione precedente sono alla base della gerarchia del database e utilizzano gli indici come un database convenzionale. Un indice con interfoliazione si trova nel contesto della sua riga con interfoliazione. Consulta le opzioni di indicizzazione per maggiori dettagli su dove applicare gli indici con interfoliazione.
Modificare il modello dei dati
Per adattare la parte di migrazione di questo tutorial alla tua situazione, modifica i tuoi file di origine Apache Beam. È importante non modificare lo schema di origine durante la finestra di migrazione effettiva, altrimenti si potrebbero perdere dati.
Per analizzare il codice JSON in arrivo e creare mutazioni, utilizza GSON. Modifica la definizione JSON in modo che corrisponda ai tuoi dati.
Modifica la mappatura JSON corrispondente.
Nei passaggi precedenti, hai modificato il codice sorgente di Apache Beam per l'importazione collettiva. Modificare il codice sorgente per la parte di streaming della pipeline in modo simile. Infine, modifica gli script di creazione della tabella, gli schemi e gli indici del database di destinazione Spanner.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina il progetto
- In Google Cloud Console, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Elimina risorse AWS
Se il tuo account AWS viene utilizzato al di fuori di questo tutorial, fai attenzione quando elimini le seguenti risorse:
- Elimina la tabella DynamoDB chiamata Migrazione.
- Elimina il bucket Amazon S3 e la funzione Lambda che hai creato durante i passaggi per la migrazione.
- Infine, elimina l'utente AWS IAM che hai creato durante questo tutorial.
Passaggi successivi
- Scopri come ottimizzare lo schema di Spanner.
- Scopri come utilizzare Dataflow per situazioni più complesse.