Cómo diagnosticar problemas en las migraciones de PostgreSQL a AlloyDB

Soluciona problemas de errores de migración

Es posible que el proceso del trabajo de migración genere errores durante el tiempo de ejecución.

  • Algunos errores, como una contraseña incorrecta en la base de datos de origen, se pueden recuperar, lo que significa que se pueden corregir y el trabajo de migración se reanuda automáticamente.
  • Algunos son irrecuperables, como los errores en la replicación de datos, lo que significa que el trabajo de migración debe reiniciarse desde el principio.

Cuando se produce un error, el estado del trabajo de migración cambia a Failed y el subestado refleja el último estado antes de la falla.

Para solucionar un error, navega al trabajo de migración fallido para ver el error y sigue los pasos que se indican en el mensaje de error.

Para ver más detalles sobre el error, navega a Cloud Monitoring usando el vínculo del trabajo de migración. Los registros se filtran según el trabajo de migración específico.

En la siguiente tabla, encontrarás algunos ejemplos de problemas y cómo se pueden resolver:

Síntoma Causas posibles Solución
No se pudo establecer una conexión con la instancia de la base de datos de origen. Se produjo un problema de conectividad entre la instancia de base de datos de origen y la instancia de destino. Sigue los pasos que se indican en Cómo depurar la conectividad.
Falla en la ejecución del trabajo de migración debido a la incompatibilidad de versiones de las bases de datos de origen y de destino. Las versiones de la base de datos de origen y destino no son una combinación admitida. Específicamente, la versión de la base de datos de origen proporcionada no es compatible con la versión de la base de datos de destino. Asegúrate de que la versión de la base de datos de destino sea igual o una versión principal superior a la versión de la base de datos de origen. Luego, crea un nuevo trabajo de migración.
Los lenguajes de definición de datos (DDL) o los lenguajes de manipulación de datos (DML) están bloqueados en la fuente. Se bloquean los DDL que requieren el bloqueo de ACCESS EXCLUSIVE y se ejecutan durante la fase de volcado completo.

Durante el proceso de sincronización inicial (volcado completo), se deben evitar los DDL o los programas que requieran bloqueos de ACCESS EXCLUSIVE, como ALTER TABLE o DROP TABLE, en las tablas. De lo contrario, los DDL o los programas esperarán hasta que finalice la sincronización inicial.

Por ejemplo, si una tabla aún está en el proceso de sincronización inicial y se ejecuta un comando ALTER TABLE en la misma tabla, el comando no se ejecutará y se bloquearán los comandos DDL y DML posteriores hasta que finalice la sincronización inicial.

Mensaje de error: No pglogical extension installed on databases (X) Una o más bases de datos de origen no tienen instalado pglogical. Sigue estos lineamientos para instalar pglogical en las bases de datos de la instancia de origen.
Mensaje de error: Replication user 'x' doesn't have sufficient privileges. El usuario que utiliza Database Migration Service no tiene los privilegios necesarios para realizar la operación designada. Sigue estos lineamientos para asegurarte de que el usuario tenga los privilegios necesarios.
Mensaje de error: Unable to connect to source database server. Database Migration Service no puede establecer una conexión con el servidor de la base de datos de origen. Asegúrate de que las instancias de la base de datos de origen y destino puedan comunicarse entre sí y de que hayas completado todos los requisitos previos necesarios que aparecieron cuando definiste la configuración del trabajo de migración.
Mensaje de error: The source database 'wal_level' configuration must be equal to 'logical'. El valor de wal_level para la base de datos de origen se establece en un valor distinto de logical. Establece wal_level en “logical”.
Mensaje de error: The source database 'max_replication_slots' configuration is not sufficient. El parámetro max_replication_slots no se configuró correctamente. Sigue estos lineamientos para configurar este parámetro correctamente.
Mensaje de error: The source database 'max_wal_senders' configuration is not sufficient. El parámetro max_wal_senders no se configuró correctamente. Sigue estos lineamientos para configurar este parámetro correctamente.
Mensaje de error: The source database 'max_worker_processes' configuration is not sufficient. El parámetro max_worker_processes no se configuró correctamente. Sigue estos lineamientos para configurar este parámetro correctamente.

Mensaje de error: Cleanup may have failed on source due to error: generic::unknown: failed to connect to on-premises database.

O

Mensaje de error: Error promoting EM replica: finished drop replication with errors.

No se puede limpiar la configuración necesaria para la replicación durante la promoción de un trabajo de migración.

Para cada base de datos, ejecuta comandos como un usuario con el privilegio superuser.

Para obtener más información sobre qué comandos ejecutar, consulta Cómo limpiar las ranuras de replicación.

Mensaje de error: x509 certificate signed by unknown authority.

Es posible que el certificado de CA de origen proporcionado a Database Migration Service solo contenga el certificado raíz. Sin embargo, el certificado de origen requiere el certificado raíz y cualquier certificado intermedio.

Por ejemplo, en el caso de Amazon Relational Database Service, usar el certificado rds-ca-2019-root.pem podría provocar este problema.

Crea un certificado de CA de origen combinado que contenga el certificado raíz y todos los certificados intermedios requeridos.

Para el caso de uso del Servicio de Base de datos Relacionales de Amazon, en lugar del certificado rds-ca-2019-root.pem, usa el certificado rds-combined-ca-bundle.pem.

Mensaje de error: ERROR: Out of shared memory HINT: You might need to increase max_locks_per_transaction.

El valor establecido para el parámetro max_locks_per_transaction no es suficiente. Establece el valor de este parámetro en al menos {max_number_of_tables_per_database}/(max_connections + max_prepared_transactions).

Mensaje de error: ERROR: no data left in message.

El paquete pglogical no está instalado correctamente en la instancia de origen. Para obtener más información sobre cómo instalar este paquete correctamente, consulta Instala el paquete pglogical en la instancia de origen.

Mensaje de error: Cannot assign TransactionIds during recovery.

La fuente configurada está en modo de recuperación. Configura una fuente que no esté en modo de recuperación.
El volcado completo es lento. Es posible que el destino de AlloyDB tarde en importar grandes cantidades de datos desde la base de datos de origen.
  • Elige un nivel superior para el destino de AlloyDB y obtén el máximo ancho de banda de red y de disco disponible.
  • Ajusta la marca max_wal_size del destino de AlloyDB. Por lo general, 32 GB o 64 GB son valores adecuados para establecer esta marca. No es necesario reiniciar el servidor para actualizar esta marca.
Mensaje de error: subscriber {subscriber_name} initialization failed during nonrecoverable step (d), please try the setup again

El trabajo de migración falló durante la fase de volcado completo y no se puede recuperar. Se reinició la instancia de la base de datos de origen o se encontraba en modo de recuperación, o bien se finalizaron las conexiones de replicación debido a que no se estableció un valor suficiente para el parámetro wal_sender_timeout.

Para encontrar la causa raíz del problema, haz lo siguiente:

  1. Ve a la página del Explorador de registros en la Google Cloud consola.
  2. En la lista de recursos, selecciona tu instancia de AlloyDB. Aparecerá una lista de los registros más recientes de la instancia.
  3. En los nombres de los archivos de registro, selecciona postgres.log.
  4. Establece el nivel de gravedad del registro en todos los niveles superiores a Warning. Es posible que los primeros registros de errores sean la causa principal de la falla.
  • Asegúrate de que Database Migration Service siempre pueda conectarse a la instancia de la base de datos de origen durante la fase de volcado completo.
  • Verifica si el valor del parámetro wal_sender_timeout está establecido en un número mayor (por ejemplo, 0) en la instancia de la base de datos de origen.
  • Reinicia el trabajo de migración y, luego, vuelve a intentarlo.
Mensaje de error: ERROR: unknown column name {column_name}

Se agregó una columna a una tabla replicada en el nodo principal, pero no en el nodo de réplica.

Solo se actualizan automáticamente los cambios del lenguaje de manipulación de datos (DML) durante las migraciones continuas. La administración de los cambios del lenguaje de definición de datos (DDL) para que las bases de datos de origen y de destino sigan siendo compatibles es responsabilidad del usuario y se puede lograr de dos maneras:

  • Detén las escrituras en la base de datos de origen y ejecuta los comandos de DDL en el origen y el destino. Antes de ejecutar los comandos DDL en el destino, otorga el rol cloudsqlexternalsync al usuario de Cloud SQL que aplicará los cambios de DDL.
  • Usa pglogical.replicate_ddl_command para permitir que los comandos de DDL se ejecuten en el origen y el destino en un punto coherente. El usuario que ejecuta los comandos debe tener el mismo nombre de usuario en el origen y el destino, y debe ser el superusuario o el propietario del artefacto que se migra (por ejemplo, la tabla, la secuencia, la vista o la base de datos).
  • Consulta Migración continua para ver ejemplos del uso de pglogical.replicate_ddl_command..

Mensaje de error: ERROR: cannot truncate a table referenced in a foreign key constraint

El usuario intentó truncar una tabla que tiene una restricción de clave externa.

Primero, quita la restricción de clave externa y, luego, trunca la tabla.

Mensaje de error: ERROR: connection to other side has died

La conexión de replicación finalizó porque se estableció un valor insuficiente para wal_sender_timeout parameter. Por lo general, el error se produce durante la fase de replicación después de que se realiza correctamente la volcado inicial.

Considera aumentar el valor del parámetro wal_sender_timeout o inhabilitar el mecanismo de tiempo de espera estableciendo su valor en 0 en la instancia de la base de datos de origen.

Cuando migras bases de datos seleccionadas y el trabajo de migración no puede replicar datos en una o más bases de datos, se muestra el estado Failed en la lista de bases de datos. Se produjeron varios errores en el trabajo de migración.

En la columna Errores, haz clic en Ver errores y corrígelos. También puedes quitar las bases de datos con errores del trabajo de migración.

Para obtener más información sobre cómo quitar una base de datos con errores de un trabajo de migración, consulta Administra trabajos de migración.

Limpia las ranuras de replicación

Verás uno de los siguientes mensajes:

  • Cleanup may have failed on source due to error: generic::unknown: failed to connect to on-premises database.
  • Error promoting EM replica: finished drop replication with errors.

Causas posibles

Cuando se promueve una instancia de AlloyDB, si no se puede acceder a la instancia de origen desde la instancia de AlloyDB (por ejemplo, si la instancia de origen no se está ejecutando o si quitaste la instancia de AlloyDB de la lista de entidades permitidas de instancias de origen), no se pueden limpiar los parámetros de configuración necesarios para la replicación durante la promoción de un trabajo de migración. Debes limpiar las ranuras de replicación de forma manual.

Solución

Para cada base de datos, ejecuta los siguientes comandos como un usuario con el privilegio superuser:

  1. Obtén los nombres de las ranuras de replicación del mensaje de error y, luego, ejecuta el siguiente comando para descartar las ranuras, una por una:

    select pg_drop_replication_slot({slot_name});
  2. Si los nombres de las ranuras de replicación no están disponibles en el mensaje de error, ejecuta el siguiente comando para consultar las ranuras de replicación existentes:

    select pg_drop_replication_slot(slot_name) from pg_replication_slots where slot_name like '%alloydb%' and active = 'f';
  3. Si no hay réplicas de AlloyDB que usen la instancia de origen, ejecuta el siguiente comando para limpiar la configuración de pglogical:

    select pglogical.drop_node(node_name) from pglogical.node where node_name like 'alloydb';
  4. Si ya no necesitas la extensión de pglogical, ejecuta el siguiente comando para desinstalarla:

    DROP EXTENSION IF EXISTS pglogical;

Borra los clústeres de AlloyDB huérfanos en modo de bootstrapping

En casos extremos poco frecuentes, es posible que el trabajo de migración se haya borrado, pero el clúster de AlloyDB asociado no, y siga en modo de arranque. Es posible borrar el clúster con el comando de gcloud de AlloyDB para borrar un clúster, combinado con la opción --force.

Ten en cuenta que borrar un clúster de bootstrapping mientras lo usa un trabajo de migración genera un comportamiento indefinido.

Administra usuarios y roles

Migra usuarios existentes

Actualmente, Database Migration Service no admite la migración de usuarios existentes de una instancia de origen a una instancia de destino de AlloyDB. Puedes administrar esta migración creando los usuarios en AlloyDB de forma manual.

Acerca del usuario alloydbexternalsync

Durante la migración, todos los objetos de la instancia principal de AlloyDB son propiedad del usuario alloydbexternalsync. Después de migrar los datos, puedes modificar la propiedad de los objetos para otros usuarios completando los siguientes pasos:

  • Ejecuta el comando GRANT alloydbexternalsync to {USER}.
  • En cada base de datos, ejecuta el comando reassign owned by alloydbexternalsync to {USER};.
  • Para quitar el usuario alloydbexternalsync, ejecuta el comando drop role alloydbexternalsync.