Database MySQL di origine

Questa sezione contiene informazioni su:

  • Il comportamento di Datastream nella gestione dei dati estratti da un database MySQL di origine
  • Le versioni del database MySQL supportate da Datastream
  • Limitazioni note per l'utilizzo del database MySQL come origine
  • Una panoramica su come configurare un database MySQL di origine in modo che i dati possano essere trasmessi in streaming a una destinazione

Comportamento

Questa sezione descrive il comportamento delle origini MySQL quando replichi i dati utilizzando Datastream. Quando importi dati dai database MySQL, puoi utilizzare la replica basata su binlog o sull'ID transazione globale (GTID). Selezioni il metodo CDC quando crei uno stream.

Replica basata su binlog

Datastream può utilizzare i file di log binario per tenere traccia delle modifiche ai dati nei database MySQL. Le informazioni contenute in questi file di log vengono poi replicate nella destinazione per riprodurre le modifiche apportate all'origine.

Le caratteristiche principali della replica basata su binlog in Datastream sono:

  • Puoi selezionare tutti i database o database specifici di una determinata origine MySQL, nonché tutte le tabelle dei database o tabelle specifiche.
  • Tutti i dati storici vengono replicati.
  • Vengono replicate tutte le modifiche data manipulation language (DML), come inserimenti, aggiornamenti ed eliminazioni dai database e dalle tabelle specificati.
  • Vengono replicate solo le modifiche di cui è stato eseguito il commit.

Replica basata sull'ID transazione globale (GTID)

Datastream supporta anche la replica basata sull'identificatore globale (GTID).

L'ID transazione globale (GTID) è un identificatore univoco creato e associato a ogni transazione eseguita su un'origine MySQL. Questo identificatore è univoco non solo per l'origine in cui è stato creato, ma anche per tutti i server in una determinata topologia di replica, a differenza della replica basata su log binari in cui ogni nodo del cluster di database gestisce i propri file binlog con la propria numerazione. La gestione di file binlog e numerazione separati potrebbe diventare un problema in caso di errore o tempo di inattività pianificato, perché la continuità del binlog viene interrotta e la replica basata sul binlog non riesce.

La replica basata su GTID supporta i failover, i cluster di database autogestiti e continua a funzionare indipendentemente dalle modifiche apportate al cluster di database.

Le caratteristiche principali della replica basata su GTID in Datastream sono:

  • Puoi selezionare tutti i database o database specifici di una determinata origine MySQL, nonché tutte le tabelle dei database o tabelle specifiche.
  • Tutti i dati storici vengono replicati.
  • Vengono replicate tutte le modifiche data manipulation language (DML), come inserimenti, aggiornamenti ed eliminazioni dai database e dalle tabelle specificati.
  • Vengono replicate solo le modifiche di cui è stato eseguito il commit.
  • Supporto continuo per i failover.

Passare dalla replica basata su binlog a quella basata su GTID

Se vuoi aggiornare il flusso e passare dalla replica basata su binlog a quella basata su GTID senza dover eseguire un backfill, segui questi passaggi:

  1. Assicurati che tutti i requisiti per la replica basata su GTID siano soddisfatti. Per maggiori informazioni, consulta Configurare un database MySQL di origine.
  2. (Facoltativo) Crea ed esegui un flusso basato su GTID di test. Per saperne di più, vedi Creare uno stream.
  3. Crea uno stream basato su GTID. Non avviarlo ancora.
  4. Interrompi il traffico dell'applicazione verso il database di origine.
  5. Metti in pausa lo stream esistente basato su binlog. Per saperne di più, consulta la sezione Mettere in pausa lo stream.
  6. Attendi qualche minuto per assicurarti che Datastream abbia recuperato il database. Puoi verificarlo utilizzando le metriche nella scheda Monitoraggio, nella pagina Dettagli stream del tuo stream. I valori per Aggiornamento dei dati e Throughput devono essere 0.
  7. Avvia il flusso basato su GTID. Per saperne di più, consulta Avvia lo stream.
  8. Riprendi il traffico verso il database di origine.

Se l'esecuzione di un backfill non è un problema, puoi troncare le tabelle in BigQuery, eliminare il vecchio stream e avviarne uno nuovo con il backfill. Per maggiori informazioni sulla gestione del backfill, vedi Gestione del backfill per gli oggetti di un flusso.

Versioni

Datastream supporta le seguenti versioni del database MySQL:

  • MySQL 5.6
  • MySQL 5.7
  • MySQL 8.0
  • MySQL 8.4 (supportato solo per la replica basata su GTID)

Datastream supporta i seguenti tipi di database MySQL:

Limitazioni note

Le limitazioni note per l'utilizzo del database MySQL come origine includono:

  • Gli stream sono limitati a 10.000 tabelle.
  • Le tabelle con una chiave primaria definita come INVISIBLE non possono essere sottoposte a backfill.
  • Una tabella con più di 500 milioni di righe non può essere compilata a ritroso, a meno che non siano soddisfatte le seguenti condizioni:
    1. La tabella ha un indice univoco.
    2. Nessuna delle colonne dell'indice può ammettere valori nulli.
    3. L'indice non è decrescente.
    4. Tutte le colonne dell'indice sono incluse nel flusso.
  • Datastream recupera periodicamente lo schema più recente dall'origine durante l'elaborazione degli eventi. Se uno schema cambia, Datastream rileva la modifica e attiva un recupero dello schema. Tuttavia, alcuni eventi potrebbero essere elaborati in modo errato o eliminati tra i recuperi dello schema, il che può causare discrepanze nei dati.
  • Non tutte le modifiche allo schema di origine possono essere rilevate automaticamente, nel qual caso potrebbe verificarsi un danneggiamento dei dati. Le seguenti modifiche allo schema potrebbero causare il danneggiamento dei dati o l'impossibilità di elaborare gli eventi a valle:
    • Eliminare colonne
    • Aggiungere colonne al centro di una tabella
    • Modifica del tipo di dati di una colonna
    • Riordinare le colonne
    • Eliminazione di tabelle (pertinente se la stessa tabella viene poi ricreata con l'aggiunta di nuovi dati)
    • Troncare le tabelle
  • Datastream non supporta la replica delle viste.
  • Datastream non supporta le colonne di tipi di dati spaziali. I valori in queste colonne vengono sostituiti con valori NULL.
  • Datastream non supporta il valore zero (0000-00-00 00:00:00) nelle colonne dei tipi di dati DATETIME, DATE o TIMESTAMP. Il valore zero viene sostituito con il valore NULL.
  • Datastream non supporta la replica delle righe che includono i seguenti valori nelle colonne JSON: DECIMAL, NEWDECIMAL, TIME, TIME2 DATETIME, DATETIME2, DATE, TIMESTAMP o TIMESTAMP2. Gli eventi contenenti questi valori vengono eliminati.
  • Datastream non supporta la compressione delle transazioni del log binario.
  • Datastream non supporta le catene di certificati SSL nei profili di connessione MySQL di origine. Sono supportati solo i certificati singoli con codifica PEM x509.
  • Datastream non supporta le eliminazioni a cascata. Questi eventi non vengono scritti nel log binario e, di conseguenza, non vengono propagati alla destinazione.
  • Datastream non supporta le operazioni DROP PARTITION. Queste operazioni sono solo sui metadati e non vengono replicate. Gli altri eventi non sono interessati e lo stream viene eseguito correttamente.
  • Poiché Datastream non supporta i failover alle repliche quando si utilizza la replica basata su log binario, ti consigliamo di utilizzare la replica basata su GTID per le origini Cloud SQL per MySQL Enterprise Plus. Le istanze Cloud SQL Enterprise Plus sono soggette a manutenzione con tempi di inattività quasi azzerati ed eseguono il failover su una replica durante la manutenzione.

Limitazioni aggiuntive per la replica basata su GTID

  • Il recupero dei flussi che utilizzano la replica basata su GTID è disponibile solo quando utilizzi l'API Datastream.
  • La creazione di tabelle da altre tabelle utilizzando le istruzioni CREATE TABLE ... SELECT non è supportata.
  • Datastream non supporta i GTID con tag.
  • Per le limitazioni di MySQL che si applicano alla replica basata su GTID, consulta la documentazione di MySQL.

Passaggi successivi