Amazon RDS SQL Server-Datenbank konfigurieren

  1. Aktivieren Sie Change Data Capture (CDC) für die Quelldatenbank. Stellen Sie dazu eine Verbindung zur Datenbank her und führen Sie den folgenden Befehl an einer SQL-Eingabeaufforderung, in einem Terminal oder über das Amazon RDS-Dashboard aus:

    EXEC msdb.dbo.rds_cdc_enable_db 'DATABASE_NAME'
    

    Ersetzen Sie DATABASE_NAME durch den Namen Ihrer Quelldatenbank.

  2. Aktivieren Sie CDC für die Tabellen, für die Sie Änderungen erfassen müssen:

    USE [DATABASE_NAME]
    EXEC sys.sp_cdc_enable_table
    @source_schema = N'SCHEMA_NAME',
    @source_name = N'TABLE_NAME',
    @role_name = NULL
    GO
    

    Ersetzen Sie Folgendes:

    • DATABASE_NAME: der Name der Quelldatenbank
    • SCHEMA_NAME: der Name des Schemas, zu dem die Tabellen gehören
    • TABLE_NAME: der Name der Tabelle, für die Sie CDC aktivieren möchten
  3. Legen Sie die Aufbewahrungsdauer fest, während der die Änderungen für Ihre Quelle verfügbar sein sollen:

    EXEC rdsadmin.rds_set_configuration 'cdc_capture_pollinginterval' , 86399
    

    Der Parameter @pollinginterval wird in Sekunden gemessen. Der empfohlene Wert ist 86399. Das bedeutet,dass Änderungen im Transaktionslog 86.399 Sekunden (einen Tag) gespeichert werden. Durch Ausführen der sp_cdc_start_job 'capture-Prozedur werden die Einstellungen initiiert.

  4. Aktivieren Sie die Snapshot-Isolierung:

    Wenn Sie Daten aus Ihrer SQL Server-Datenbank auffüllen, ist es wichtig, für konsistente Snapshots zu sorgen. Wenn Sie die weiter unten in diesem Abschnitt beschriebenen Einstellungen nicht anwenden, können Änderungen, die während des Backfills an der Datenbank vorgenommen werden, zu Duplikaten oder falschen Ergebnissen führen, insbesondere bei Tabellen ohne Primärschlüssel.

    Wenn Sie die Snapshot-Isolierung aktivieren, wird zu Beginn des Backfill-Prozesses eine temporäre Ansicht Ihrer Datenbank erstellt. Dadurch wird sichergestellt, dass die kopierten Daten auch dann konsistent bleiben, wenn andere Nutzer gleichzeitig Änderungen an den Live-Tabellen vornehmen. Das Aktivieren der Snapshot-Isolierung kann sich geringfügig auf die Leistung auswirken, ist aber für eine zuverlässige Datenextraktion unerlässlich.

    So aktivieren Sie die Snapshot-Isolierung:

    1. Stellen Sie eine Verbindung zur Datenbank über einen SQL Server-Client her.
    2. Führen Sie dazu diesen Befehl aus:
    ALTER DATABASE DATABASE_NAME SET ALLOW_SNAPSHOT_ISOLATION ON;
    

    Ersetzen Sie DATABASE_NAME durch den Namen Ihrer Datenbank.

  5. Absicherung für das Abschneiden von Logs einrichten

    Um sicherzustellen, dass der CDC-Leser genügend Zeit zum Lesen der Logs hat, können Sie eine Schutzmaßnahme zum Abschneiden von Logs einrichten und so verhindern, dass Speicherplatz belegt wird:

    1. Stellen Sie eine Verbindung zur Datenbank über einen SQL Server-Client her.
    2. Erstellen Sie eine Dummy-Tabelle in der Datenbank:

      USE [DATABASE_NAME];
      CREATE TABLE dbo.gcp_datastream_truncation_safeguard (
        [id] INT IDENTITY(1,1) PRIMARY KEY,
        CreatedDate DATETIME DEFAULT GETDATE(),
        [char_column] CHAR(8)
        );
      

      Ersetzen Sie DATABASE_NAME durch den Namen der Datenbank, in der Sie die Testtabelle erstellen möchten.

    3. Erstellen Sie eine gespeicherte Prozedur, die eine aktive Transaktion über einen Zeitraum von 24 Stunden ausführt, um zu verhindern, dass Logs abgeschnitten werden:

      CREATE PROCEDURE dbo.DatastreamLogTruncationSafeguard
      AS
      BEGIN
        -- Start a new transaction
        BEGIN TRANSACTION;
        INSERT INTO dbo.gcp_datastream_truncation_safeguard (char_column) VALUES ('a')
        -- Wait for one day before ending the transaction
        WAITFOR DELAY '23:59';
        -- Commit the transaction
        COMMIT TRANSACTION;
      END;
      
    4. Erstellen Sie eine weitere gespeicherte Prozedur. Dieses Mal erstellen Sie einen Job, der täglich die gespeicherte Prozedur ausführt, die Sie im vorherigen Schritt erstellt haben:

      CREATE PROCEDURE dbo.SetUpDatastreamJob AS
      BEGIN
      
        DECLARE @database_name VARCHAR(MAX)
        Set @database_name =  (SELECT DB_NAME());;
      
        DECLARE @command_str VARCHAR(MAX);
        Set @command_str = CONCAT('Use [', @database_name,']; exec dbo.DatastreamLogTruncationSafeguard')
      
        DECLARE @job_name_1 VARCHAR(MAX);
        Set @job_name_1 = CONCAT(@database_name, '_', 'DatastreamLogTruncationSafeguardJob1')
        -- Schedule the procedure to run again tomorrow
        IF NOT EXISTS (
          select * from msdb.dbo.sysjobs
          WHERE name = @job_name_1
        )
        BEGIN
          EXEC msdb.dbo.sp_add_job
          @job_name = @job_name_1,
          @enabled = 1,
          @description = N'Execute the procedure every day' ;
      
          EXEC msdb.dbo.sp_add_jobstep
          @job_name =  @job_name_1,
          @step_name = N'Execute_DatastreamLogTruncationSafeguard1',
          @subsystem = N'TSQL',
          @command = @command_str;
      
          -- Add a schedule that runs the stored procedure every day.
          DECLARE @start_time_1 time;
          SET @start_time_1 = DATEADD(MINUTE, 1, GETDATE());
      
          DECLARE @schedule_name_1 VARCHAR(MAX);
          Set @schedule_name_1 = CONCAT(@database_name, '_', 'DatastreamEverydaySchedule1')
      
          DECLARE @formatted_start_time_1 INT;
          SET @formatted_start_time_1 = CONVERT(INT, REPLACE(CONVERT(VARCHAR(8), @start_time_1, 114), ':' ,''));
      
          EXEC msdb.dbo.sp_add_schedule
          @schedule_name = @schedule_name_1,
          @freq_type = 4,  -- daily start
          @freq_interval = 1,
          @active_start_time = @formatted_start_time_1;
      
          EXEC msdb.dbo.sp_attach_schedule
          @job_name = @job_name_1,
          @schedule_name = @schedule_name_1 ;
      
          -- Add a schedule that runs the stored procedure on the SQL Server Agent startup.
          DECLARE @schedule_name_agent_startup VARCHAR(MAX);
          Set @schedule_name_agent_startup = CONCAT(@database_name, '_', 'DatastreamSqlServerAgentStartupSchedule')
      
          EXEC msdb.dbo.sp_add_schedule
          @schedule_name = @schedule_name_agent_startup,
          @freq_type = 64,  -- start on SQL Server Agent startup
          @active_start_time = @formatted_start_time_1;
      
          EXEC msdb.dbo.sp_attach_schedule
          @job_name = @job_name_1,
          @schedule_name = @schedule_name_agent_startup ;
      
          EXEC msdb.dbo.sp_add_jobserver
          @job_name = @job_name_1,
          @server_name = @@servername ;
        END
      
        DECLARE @job_name_2 VARCHAR(MAX);
        Set @job_name_2 = CONCAT(@database_name, '_', 'DatastreamLogTruncationSafeguardJob2')
      
        IF NOT EXISTS (
          select * from msdb.dbo.sysjobs
          WHERE name = @job_name_2
        )
        BEGIN
          EXEC msdb.dbo.sp_add_job
          @job_name = @job_name_2,
          @enabled = 1,
          @description = N'Procedure execution every day' ;
      
          EXEC msdb.dbo.sp_add_jobstep
          @job_name =  @job_name_2,
          @step_name = N'Execute_DatastreamLogTruncationSafeguard2',
          @subsystem = N'TSQL',
          @command = @command_str;
      
          DECLARE @start_time_2 time;
          SET @start_time_2 = DATEADD(HOUR, 12, GETDATE());
          DECLARE @formatted_start_time_2 INT;
          SET @formatted_start_time_2 = CONVERT(INT, REPLACE(CONVERT(VARCHAR(8), @start_time_2, 114), ':' ,''));
          DECLARE @schedule_name_2 VARCHAR(MAX);
          Set @schedule_name_2 = CONCAT(@database_name, '_', 'DatastreamEverydaySchedule2')
      
          EXEC msdb.dbo.sp_add_schedule
          @schedule_name = @schedule_name_2,
          @freq_type = 4,  -- daily start
          @freq_interval = 1,
          @active_start_time = @formatted_start_time_2;
      
          EXEC msdb.dbo.sp_attach_schedule
          @job_name = @job_name_2,
          @schedule_name = @schedule_name_2 ;
      
          EXEC msdb.dbo.sp_add_jobserver
          @job_name = @job_name_2,
         @server_name = @@servername ;
        END
      End;
      
    5. Führen Sie die gespeicherte Prozedur aus, mit der der Datastream-Job erstellt wird.

    EXEC dbo.SetUpDatastreamJob
    
  6. Erstellen Sie einen Datastream-Nutzer:

    1. Stellen Sie eine Verbindung zur Quelldatenbank her und geben Sie den folgenden Befehl ein:

       USE DATABASE_NAME;
       ```
      
    2. Erstellen Sie eine Anmeldung, die beim Einrichten des Verbindungsprofils in Datastream verwendet werden soll.

      CREATE LOGIN YOUR_LOGIN WITH PASSWORD = 'PASSWORD';
      
    3. Erstellen Sie einen Nutzer und weisen Sie ihm die Rollen db_owner und db_denydatawriter zu:

      CREATE USER USER_NAME FOR LOGIN YOUR_LOGIN;
      
      EXEC sp_addrolemember 'db_owner', 'USER_NAME';
      EXEC sp_addrolemember 'db_denydatawriter', 'USER_NAME';
      
    4. Fügen Sie diesen Nutzer der Datenbank master hinzu und weisen Sie ihm die folgenden Berechtigungen zu:

      USE master;
      CREATE USER USER_NAME FOR LOGIN YOUR_LOGIN;
      GRANT VIEW SERVER STATE TO YOUR_LOGIN;
      GRANT SELECT ON sys.fn_dblog TO USER_NAME;
      
    5. Fügen Sie diesen Nutzer der msdb-Datenbank hinzu und weisen Sie ihm die folgenden Berechtigungen zu:

      USE msdb;
      CREATE USER USER_NAME FOR LOGIN YOUR_LOGIN;
      GRANT SELECT ON dbo.sysjobs TO USER_NAME;