Configura un database SQL Server Amazon RDS

  1. Abilita Change Data Capture (CDC) per il database di origine. Per farlo, connettiti al database ed esegui questo comando in un prompt di SQL, in un terminale o utilizzando la dashboard Amazon RDS:

    EXEC msdb.dbo.rds_cdc_enable_db 'DATABASE_NAME'
    

    Sostituisci DATABASE_NAME con il nome del tuo database di origine.

  2. Abilita CDC nelle tabelle per le quali devi acquisire le modifiche:

    USE [DATABASE_NAME]
    EXEC sys.sp_cdc_enable_table
    @source_schema = N'SCHEMA_NAME',
    @source_name = N'TABLE_NAME',
    @role_name = NULL
    GO
    

    Sostituisci quanto segue:

    • DATABASE_NAME: il nome del database di origine
    • SCHEMA_NAME: il nome dello schema a cui appartengono le tabelle
    • TABLE_NAME: il nome della tabella per cui vuoi abilitare CDC
  3. Imposta il periodo di conservazione per cui vuoi che le modifiche siano disponibili sull'origine:

    EXEC rdsadmin.rds_set_configuration 'cdc_capture_pollinginterval' , 86399
    

    Il parametro @pollinginterval viene misurato in secondi con un valore consigliato impostato su 86399. Ciò significa che il log delle transazioni conserva le modifiche per 86.399 secondi (un giorno). L'esecuzione della procedura sp_cdc_start_job 'capture avvia le impostazioni.

  4. Attiva l'isolamento degli snapshot:

    Quando esegui il backfill dei dati dal database SQL Server, è importante garantire snapshot coerenti. Se non applichi le impostazioni descritte più avanti in questa sezione, le modifiche apportate al database durante il processo di backfill potrebbero generare duplicati o risultati errati, in particolare per le tabelle senza chiavi primarie.

    L'abilitazione dell'isolamento degli snapshot crea una visualizzazione temporanea del database all'inizio del processo di backfill. Ciò garantisce che i dati copiati rimangano coerenti, anche se altri utenti apportano contemporaneamente modifiche alle tabelle attive. L'abilitazione dell'isolamento degli snapshot potrebbe avere un leggero impatto sulle prestazioni, ma è essenziale per un'estrazione affidabile dei dati.

    Per attivare l'isolamento degli snapshot:

    1. Connettiti al tuo database utilizzando un client SQL Server.
    2. Esegui questo comando:
    ALTER DATABASE DATABASE_NAME SET ALLOW_SNAPSHOT_ISOLATION ON;
    

    Sostituisci DATABASE_NAME con il nome del tuo database.

  5. Configura una protezione contro il troncamento dei log

    Per assicurarti che il lettore CDC abbia tempo sufficiente per leggere i log, consentendo il troncamento dei log per evitare di utilizzare lo spazio di archiviazione, puoi configurare una protezione per il troncamento dei log:

    1. Connettiti al database utilizzando un client SQL Server.
    2. Crea una tabella fittizia nel database:

      USE [DATABASE_NAME];
      CREATE TABLE dbo.gcp_datastream_truncation_safeguard (
        [id] INT IDENTITY(1,1) PRIMARY KEY,
        CreatedDate DATETIME DEFAULT GETDATE(),
        [char_column] CHAR(8)
        );
      

      Sostituisci DATABASE_NAME con il nome del database in cui vuoi creare la tabella fittizia.

    3. Crea una stored procedure che esegue una transazione attiva per un periodo di 24 ore per evitare il troncamento dei log:

      CREATE PROCEDURE dbo.DatastreamLogTruncationSafeguard
      AS
      BEGIN
        -- Start a new transaction
        BEGIN TRANSACTION;
        INSERT INTO dbo.gcp_datastream_truncation_safeguard (char_column) VALUES ('a')
        -- Wait for one day before ending the transaction
        WAITFOR DELAY '23:59';
        -- Commit the transaction
        COMMIT TRANSACTION;
      END;
      
    4. Crea un'altra stored procedure. Questa volta, creerai un job che esegue quotidianamente la stored procedure creata nel passaggio precedente:

      CREATE PROCEDURE dbo.SetUpDatastreamJob AS
      BEGIN
      
        DECLARE @database_name VARCHAR(MAX)
        Set @database_name =  (SELECT DB_NAME());;
      
        DECLARE @command_str VARCHAR(MAX);
        Set @command_str = CONCAT('Use [', @database_name,']; exec dbo.DatastreamLogTruncationSafeguard')
      
        DECLARE @job_name_1 VARCHAR(MAX);
        Set @job_name_1 = CONCAT(@database_name, '_', 'DatastreamLogTruncationSafeguardJob1')
        -- Schedule the procedure to run again tomorrow
        IF NOT EXISTS (
          select * from msdb.dbo.sysjobs
          WHERE name = @job_name_1
        )
        BEGIN
          EXEC msdb.dbo.sp_add_job
          @job_name = @job_name_1,
          @enabled = 1,
          @description = N'Execute the procedure every day' ;
      
          EXEC msdb.dbo.sp_add_jobstep
          @job_name =  @job_name_1,
          @step_name = N'Execute_DatastreamLogTruncationSafeguard1',
          @subsystem = N'TSQL',
          @command = @command_str;
      
          -- Add a schedule that runs the stored procedure every day.
          DECLARE @start_time_1 time;
          SET @start_time_1 = DATEADD(MINUTE, 1, GETDATE());
      
          DECLARE @schedule_name_1 VARCHAR(MAX);
          Set @schedule_name_1 = CONCAT(@database_name, '_', 'DatastreamEverydaySchedule1')
      
          DECLARE @formatted_start_time_1 INT;
          SET @formatted_start_time_1 = CONVERT(INT, REPLACE(CONVERT(VARCHAR(8), @start_time_1, 114), ':' ,''));
      
          EXEC msdb.dbo.sp_add_schedule
          @schedule_name = @schedule_name_1,
          @freq_type = 4,  -- daily start
          @freq_interval = 1,
          @active_start_time = @formatted_start_time_1;
      
          EXEC msdb.dbo.sp_attach_schedule
          @job_name = @job_name_1,
          @schedule_name = @schedule_name_1 ;
      
          -- Add a schedule that runs the stored procedure on the SQL Server Agent startup.
          DECLARE @schedule_name_agent_startup VARCHAR(MAX);
          Set @schedule_name_agent_startup = CONCAT(@database_name, '_', 'DatastreamSqlServerAgentStartupSchedule')
      
          EXEC msdb.dbo.sp_add_schedule
          @schedule_name = @schedule_name_agent_startup,
          @freq_type = 64,  -- start on SQL Server Agent startup
          @active_start_time = @formatted_start_time_1;
      
          EXEC msdb.dbo.sp_attach_schedule
          @job_name = @job_name_1,
          @schedule_name = @schedule_name_agent_startup ;
      
          EXEC msdb.dbo.sp_add_jobserver
          @job_name = @job_name_1,
          @server_name = @@servername ;
        END
      
        DECLARE @job_name_2 VARCHAR(MAX);
        Set @job_name_2 = CONCAT(@database_name, '_', 'DatastreamLogTruncationSafeguardJob2')
      
        IF NOT EXISTS (
          select * from msdb.dbo.sysjobs
          WHERE name = @job_name_2
        )
        BEGIN
          EXEC msdb.dbo.sp_add_job
          @job_name = @job_name_2,
          @enabled = 1,
          @description = N'Procedure execution every day' ;
      
          EXEC msdb.dbo.sp_add_jobstep
          @job_name =  @job_name_2,
          @step_name = N'Execute_DatastreamLogTruncationSafeguard2',
          @subsystem = N'TSQL',
          @command = @command_str;
      
          DECLARE @start_time_2 time;
          SET @start_time_2 = DATEADD(HOUR, 12, GETDATE());
          DECLARE @formatted_start_time_2 INT;
          SET @formatted_start_time_2 = CONVERT(INT, REPLACE(CONVERT(VARCHAR(8), @start_time_2, 114), ':' ,''));
          DECLARE @schedule_name_2 VARCHAR(MAX);
          Set @schedule_name_2 = CONCAT(@database_name, '_', 'DatastreamEverydaySchedule2')
      
          EXEC msdb.dbo.sp_add_schedule
          @schedule_name = @schedule_name_2,
          @freq_type = 4,  -- daily start
          @freq_interval = 1,
          @active_start_time = @formatted_start_time_2;
      
          EXEC msdb.dbo.sp_attach_schedule
          @job_name = @job_name_2,
          @schedule_name = @schedule_name_2 ;
      
          EXEC msdb.dbo.sp_add_jobserver
          @job_name = @job_name_2,
         @server_name = @@servername ;
        END
      End;
      
    5. Esegui la stored procedure che crea il job Datastream.

    EXEC dbo.SetUpDatastreamJob
    
  6. Crea un utente Datastream:

    1. Connettiti al database di origine e inserisci il seguente comando:

       USE DATABASE_NAME;
       ```
      
    2. Crea un accesso da utilizzare durante la configurazione del profilo di connessione in Datastream.

      CREATE LOGIN YOUR_LOGIN WITH PASSWORD = 'PASSWORD';
      
    3. Crea un utente e assegna i ruoli db_owner e db_denydatawriter:

      CREATE USER USER_NAME FOR LOGIN YOUR_LOGIN;
      
      EXEC sp_addrolemember 'db_owner', 'USER_NAME';
      EXEC sp_addrolemember 'db_denydatawriter', 'USER_NAME';
      
    4. Aggiungi l'utente al database master e assegna all'utente le seguenti autorizzazioni:

      USE master;
      CREATE USER USER_NAME FOR LOGIN YOUR_LOGIN;
      GRANT VIEW SERVER STATE TO YOUR_LOGIN;
      GRANT SELECT ON sys.fn_dblog TO USER_NAME;
      
    5. Aggiungi l'utente al database msdb e assegna le seguenti autorizzazioni:

      USE msdb;
      CREATE USER USER_NAME FOR LOGIN YOUR_LOGIN;
      GRANT SELECT ON dbo.sysjobs TO USER_NAME;