Configurare una destinazione Cloud Storage

Abilita l'API

L'abilitazione dell'API Datastream è sufficiente quando il bucket Cloud Storage di destinazione si trova nello stesso progetto di Datastream.

Se stai scrivendo in un bucket di un progetto diverso, devi fornire l'account di servizio associato all'autorizzazione Datastream per accedere al bucket.

  1. Scarica l'indirizzo email utilizzato per l'account di servizio. A tal fine, individua il numero di progetto nella home page della console Google Cloud. L'indirizzo email dell'account di servizio sarà service-[project_number]@gcp-sa-datastream.iam.gserviceaccount.com.
  2. Concedi a questo indirizzo email le autorizzazioni richieste per scrivere nel bucket di destinazione (in genere le autorizzazioni roles/storage.objectViewer, roles/storage.objectCreator e roles/storage.legacyBucketReader).

Specifica il bucket e il prefisso di destinazione

Fornisci il nome del progetto, il nome del bucket e il prefisso facoltativo del file nella configurazione del flusso per determinare dove vengono scritti i dati.

Comportamento di scrittura

  • I dati di un determinato stream vengono scritti nel bucket o nel prefisso file fornito all'indirizzo: [bucket]/[prefix]/[object name]/yyyy/mm/dd/hh/mm/[filename(idempotent)].
  • Il nome dell'oggetto nel percorso per le origini database è il nome dello schema seguito dal nome della tabella (separati da un trattino basso '_').
  • Il timestamp nel percorso (hh/mm) è il timestamp di origine dei metadati dell'evento.
    • Per gli eventi di backfill, il timestamp rappresenta l'ora in cui è stata avviata l'attività di backfill (in genere quando è stato avviato il flusso o quando il backfill è stato attivato manualmente).
    • Per gli eventi CDC, il timestamp rappresenta quando il record è stato modificato nell'origine.
  • I file vengono ruotati ogni volta che viene raggiunta la dimensione massima del file o il timeout massimo, a seconda dell'evento che si verifica per primo. Puoi regolare le dimensioni massime del file valori di timeout massimo utilizzando l'API Datastream.
  • Inoltre, i file vengono ruotati ogni volta che viene rilevata una modifica allo schema di origine (ad esempio, viene aggiunta una nuova colonna).
  • Possono esserci più file nello stesso percorso per lo stesso minuto.
  • L'utilizzo dei dati può essere eseguito in base all'API Cloud Storage.
  • La dimensione massima degli eventi quando invii flussi di dati in Cloud Storage è 30 MB.

In alcuni casi, più comunemente, quando un flusso viene avviato per la prima volta, si verifica una sovrapposizione tra backfill e CDC, con conseguente eventi duplicati. Questo accade quando Datastream inizia a leggere dal file di log del database corrente (creato prima dell'avvio dello stream) e questo file di log include alcuni eventi acquisiti anche dal backfill. Si tratta di un comportamento previsto e gli eventi duplicati possono essere eliminati utilizzando i metadati degli eventi, se necessario.

Passaggi successivi