En este documento, se describe el proceso de migración de tu base de datos a Spanner. Describimos las etapas de la migración y las herramientas que recomendamos para cada etapa, según tu base de datos de origen y otros factores. Entre las herramientas recomendadas, se incluyen los productos de Google Cloud , así como herramientas comerciales y de código abierto de terceros. Juntas, estas herramientas te ayudan a acelerar las migraciones y a reducir el riesgo.
Cualquier migración de Spanner implica las siguientes etapas principales:
- Evalúa la complejidad de tu migración.
- Migra tu esquema.
- Carga datos de muestra.
- Migra tu aplicación.
- Prueba y ajusta tu rendimiento.
- Migra los datos.
- Valida la migración.
- Configura los mecanismos de conmutación por error y de cambio.
Dentro de estas etapas, tu plan de migración puede variar ampliamente en función de factores como la fuente y el tamaño de la base de datos, los requisitos de tiempo de inactividad, la complejidad del código de la aplicación, el esquema de fragmentación, las funciones o transformaciones personalizadas, la conmutación por error y la estrategia de replicación.
Herramientas de migración
Te recomendamos que uses las siguientes herramientas para ayudarte en las diferentes etapas de la migración, según tu base de datos de origen y otros factores. Algunas herramientas solo admiten ciertas bases de datos de origen. Para algunos pasos del proceso, no hay ninguna herramienta disponible, por lo que debes completarlos de forma manual.
La herramienta de migración de Spanner (SMT) es una herramienta de código abierto que puede realizar evaluaciones básicas, conversiones de esquemas y migraciones de datos.
La evaluación de migración de bases de datos (DMA) ofrece una evaluación básica para migrar PostgreSQL a Spanner.
Datastream es un servicio de Google Cloud que te permite leer eventos de captura de datos modificados (CDC) y datos masivos de una base de datos de origen y escribir en un destino especificado.
Dataflow es un servicio de Google Cloud que te ayuda a escribir una gran cantidad de datos en Spanner de manera más eficiente con plantillas.
La migración masiva de datos es una plantilla de Dataflow que te permite migrar grandes conjuntos de datos de MySQL directamente a Spanner.
La migración con tiempo de inactividad mínimo usa Datastream y Dataflow para migrar lo siguiente:
- Datos existentes en tu base de datos de origen
- Flujo de cambios que se realizan en tu base de datos de origen durante la migración.
La Herramienta de validación de datos (DVT) es un método estandarizado de validación de datos creado por Google y compatible con la comunidad de código abierto. Puedes integrar la DVT en los productos existentes deGoogle Cloud .
Herramientas de migración para bases de datos de origen de MySQL
Si tu base de datos de origen es MySQL, puedes realizar algunas de las etapas iniciales de la migración con archivos de volcado de MySQL. Debes conectarte directamente a la base de datos de MySQL de origen en ejecución para completar una migración a producción.
En la siguiente tabla, se recomiendan herramientas de migración según la etapa de migración y si trabajas con un archivo de volcado o si conectas directamente tu base de datos de origen:
Etapa de migración | Archivo de volcado | Conexión directa a la base de datos de origen |
---|---|---|
Evaluación | Usa SMT con mysqldump . |
Usa SMT con mysqldump . |
Conversión de esquemas | Usa SMT con mysqldump . |
Usa SMT para configurar y convertir el esquema. |
Carga de datos de muestra |
|
Realiza una migración masiva. |
Migración de datos | No aplicable | Realiza una migración masiva y, luego, una migración con tiempo de inactividad mínimo. |
Validación de datos | No aplicable | Usa DVT. |
Configuración de la conmutación por error | No aplicable | Usa SMT para la replicación inversa. |
Herramientas de migración para bases de datos de origen de PostgreSQL
Si tu base de datos de origen usa PostgreSQL, puedes realizar algunas de las etapas de migración con un archivo de volcado de PostgreSQL. Debes conectarte directamente a la base de datos de PostgreSQL de origen en ejecución para completar la migración.
En la siguiente tabla, se recomiendan herramientas de migración según la etapa de migración y si trabajas con un archivo de volcado o te conectas directamente desde tu base de datos de origen:
Etapa de migración | Archivo de volcado | Conexión directa a la base de datos de origen |
---|---|---|
Evaluación | Usa SMT con pg_dump . |
Usa DMA. |
Conversión de esquemas | Usa SMT con pg_dump . |
Usa SMT para configurar y convertir el esquema. |
Carga de datos de muestra |
|
Realiza una migración con tiempo de inactividad mínimo. |
Migración de datos | No aplicable | Realiza una migración con tiempo de inactividad mínimo. |
Validación de datos | No aplicable | Usa DVT. |
Conmutación por error | No aplicable | No aplicable |
Evalúa la complejidad de tu migración
Para evaluar el alcance y la complejidad de tu migración y planificar tu enfoque, debes recopilar datos sobre tu base de datos de origen, incluidos los siguientes:
- Patrones de consulta
- Cantidad de lógica de la aplicación que depende de las funciones de la base de datos, como los procedimientos almacenados y los activadores
- Requisitos de hardware
- Costo total de propiedad (TCO)
Migra tu esquema
Antes de migrar un esquema a un esquema de Spanner, evalúa la compatibilidad entre los esquemas y optimiza tu esquema para Spanner. Por ejemplo, es posible que desees cambiar claves, agregar o quitar índices, o agregar o quitar columnas de tablas existentes. Para optimizar tu esquema para Spanner, consulta Prácticas recomendadas para el diseño de esquemas y Estrategias de migración de clave primaria recomendadas.
La herramienta de migración de Spanner, una herramienta de código abierto y mantenida por la comunidad creada por desarrolladores de Google, compila automáticamente un esquema de Spanner a partir del esquema de tu base de datos de origen. Puedes personalizar el esquema con el asistente de esquemas de la herramienta de migración de Spanner.
La herramienta de migración de Spanner transfiere el esquema y los datos de una de las siguientes ubicaciones:
- Un archivo de volcado de una ubicación local o Cloud Storage (MySQL, PostgreSQL, CSV)
- Directamente desde la base de datos de origen (MySQL, PostgreSQL)
La herramienta de migración de Spanner realiza las siguientes funciones para las evaluaciones, las recomendaciones y las migraciones de esquemas:
- Evaluación y recomendaciones de compatibilidad de tipos de datos
- Edición y recomendaciones de claves primarias
- Recomendaciones y edición de índices secundarios
- Intercalación de la edición de tablas y las recomendaciones
- Recomendaciones generales para el diseño de esquemas de Spanner
- Control de versiones del esquema
- Modificación de esquemas colaborativos
Para obtener más información sobre las migraciones de esquemas con la herramienta de migración de Spanner, consulta el
archivo README.md
de la herramienta de migración de Spanner.
También puedes usar la herramienta de migración de Spanner para la migración de datos.
Carga datos de muestra
Después de crear un esquema compatible con Spanner, puedes preparar tu base de datos para que se pruebe con datos de muestra. Puedes usar el flujo de trabajo de ETL inverso de BigQuery para cargar los datos de muestra. Para obtener más información, consulta Cómo cargar datos de muestra.
Migra tu aplicación
Una migración de bases de datos requiere diferentes controladores y bibliotecas, así como una compensación por las funciones que Spanner no admite. Para optimizar las fortalezas de Spanner, es posible que debas cambiar tu código, tus flujos de aplicaciones y tu arquitectura.
Estos son algunos de los cambios necesarios para migrar tu aplicación a Spanner:
- Spanner no admite la ejecución de código de usuario a nivel de la base de datos, por lo que debes trasladar los procedimientos y activadores almacenados a nivel de la base de datos a la aplicación.
- Usa bibliotecas cliente de Spanner y asignadores de objetos relacionales (ORM). Para obtener más información, consulta Descripción general de las APIs, bibliotecas cliente y controladores de ORM.
- Si necesitas traducir consultas, hazlo de forma manual o usa otras herramientas de terceros.
- Ten en cuenta el DML particionado, las transacciones de solo lectura, las marcas de tiempo de confirmación y las marcas de tiempo de lectura, y cómo pueden optimizar el rendimiento de la aplicación.
También es posible que debas realizar cambios en el manejo de transacciones. No hay herramientas disponibles para ayudarte con esto, por lo que debes completar este paso de forma manual. Ten en cuenta lo siguiente:
- El límite de mutaciones por confirmación es de 40,000. Cada índice secundario de una tabla es una mutación adicional por fila. Para modificar datos con mutaciones, consulta Inserta, actualiza y borra datos con mutaciones. Para modificar una gran cantidad de datos, usa DML particionado.
- Para el nivel de aislamiento de transacciones, no se requiere control, ya que las transacciones de Spanner están más aisladas.
- Debido a que Spanner es linealizable, controla la coherencia y el bloqueo de forma predeterminada.
Prueba y ajusta el esquema y el rendimiento de la aplicación
El ajuste del rendimiento es un proceso iterativo en el que evalúas métricas como el uso de la CPU y la latencia en función de un subconjunto de tus datos, ajustas tu esquema y aplicación para mejorar el rendimiento y vuelves a realizar la prueba.
Por ejemplo, en tu esquema, puedes agregar o cambiar un índice, o bien cambiar una clave primaria. En tu aplicación, puedes realizar operaciones de escritura por lotes o combinar o modificar tus consultas.
En particular, para el tráfico de producción, el ajuste del rendimiento es importante para evitar sorpresas. El ajuste del rendimiento es más eficaz cuanto más cerca esté la configuración de la producción en vivo en cuanto a la capacidad de procesamiento y los tamaños de datos del tráfico.
Para probar y ajustar el esquema y el rendimiento de la aplicación, sigue estos pasos:
- Sube un subconjunto de tus datos a una base de datos de Spanner. Para obtener más información, consulta Cómo migrar tus datos.
- Dirige la aplicación a Spanner.
- Para verificar la exactitud, busca flujos básicos.
- Realiza pruebas de carga en tu aplicación para verificar que el rendimiento cumpla con tus expectativas. Si necesitas ayuda para identificar y optimizar tus consultas más
costosas, consulta
Cómo detectar problemas de rendimiento de las consultas con las estadísticas de consultas.
En particular, los siguientes factores pueden contribuir a un rendimiento de consulta suboptimal:
- Consultas ineficientes: Para obtener información sobre cómo escribir consultas eficientes, consulta Prácticas recomendadas de SQL.
- Uso alto de CPU: Para obtener más información, consulta Investiga el uso alto de CPU.
- Bloqueos: Para reducir los cuellos de botella causados por el bloqueo de transacciones, consulta Cómo identificar las transacciones que podrían causar latencias altas.
- Diseño de esquema ineficiente: Si el esquema no está bien diseñado, la optimización de consultas no es muy útil.
- Hotspots: Los hotspots en Spanner limitan la capacidad de procesamiento de escritura, especialmente para aplicaciones de QPS alto. Para identificar hotspots o antipatrones, consulta las estadísticas del Visualizador de claves en la consola de Google Cloud . Para obtener más información sobre cómo evitar los hotspots, consulta Elige una clave primaria para evitar los hotspots.
- Si modificas el esquema o los índices, repite las pruebas de exactitud y rendimiento hasta obtener resultados satisfactorios.
Para obtener más información sobre cómo ajustar el rendimiento de tu base de datos, comunícate con el equipo de asistencia de Spanner.
Migre sus datos
Después de optimizar tu esquema de Spanner y migrar tu aplicación, mueves tus datos a una base de datos de Spanner vacía del tamaño de producción y, luego, cambias a la base de datos de Spanner.
Según la base de datos de origen, es posible que puedas migrar tu base de datos con un tiempo de inactividad mínimo o que necesites un tiempo de inactividad prolongado.
Para las migraciones con tiempo de inactividad mínimo y las migraciones con tiempo de inactividad prolongado, te recomendamos usar Dataflow y la herramienta de migración de Spanner.
En la siguiente tabla, se muestran las diferencias entre las migraciones con tiempo de inactividad mínimo y las migraciones con más tiempo de inactividad, incluidos los orígenes, los formatos, el tamaño y la capacidad de procesamiento admitidos.
Migración con tiempo de inactividad mínimo | Migración con tiempo de inactividad | |
---|---|---|
Fuentes compatibles | MySQL, PostgreSQL | Cualquier base de datos que pueda exportar a CSV o Avro |
Formatos de datos compatibles | Conéctate directamente. Consulta Cómo conectarse directamente a una base de datos de MySQL. | MySQL, PostgreSQL, CSV y Avro |
Tamaños de bases de datos compatibles | Sin límite | Sin límite |
Capacidad de procesamiento máxima | 45 GB por hora | 200 GB por hora |
Migración con tiempo de inactividad mínimo
Spanner admite migraciones con tiempo de inactividad mínimo desde MySQL, PostgreSQL y la base de datos de Oracle. Una migración con tiempo de inactividad mínimo consta de dos componentes:
- Una instantánea coherente de todos los datos de la base de datos
- El flujo de cambios (insertos y actualizaciones) desde esa instantánea, que se conoce como captura de datos modificados (CDC)
Si bien las migraciones con un tiempo de inactividad mínimo ayudan a proteger tus datos, el proceso implica desafíos, incluidos los siguientes:
- Almacenamiento de datos de CDC mientras se migra la instantánea
- Escribir los datos de CDC en Spanner mientras se captura el flujo de CDC entrante
- Garantiza que la migración de datos de CDC a Spanner sea más rápida que la transmisión de CDC entrante.
Para administrar una migración con un tiempo de inactividad mínimo, la herramienta de migración de Spanner orquesta los siguientes procesos por ti:
- Configura un bucket de Cloud Storage para almacenar eventos de CDC en la base de datos de origen mientras se realiza la migración de instantáneas.
- Configura un trabajo de Datastream que mueva la carga masiva de datos de CDC y transmita datos de CDC incrementales de forma continua al bucket de Cloud Storage. Configuras el perfil de conexión fuente dentro de la herramienta de migración de Spanner.
- Configura el trabajo de Dataflow para migrar los eventos de la CDC a Spanner.
Cuando Dataflow copia la mayor parte de los datos, deja de escribir en la base de datos de origen y espera a que se terminen de migrar los datos. Esto genera un breve tiempo de inactividad mientras Spanner se pone al día con la base de datos de origen. Luego, la aplicación se puede transferir a Spanner.
En el diagrama a continuación, se muestra este proceso.
Migración con tiempo de inactividad
En el caso de bases de datos que no sean MySQL, PostgreSQL ni Oracle Database, si la base de datos puede exportar a CSV o Avro, puedes migrar a Spanner con tiempo de inactividad. Te recomendamos usar Dataflow o la herramienta de migración de Spanner.
Las migraciones con tiempo de inactividad solo se recomiendan para entornos de pruebas o aplicaciones que puedan manejar algunas horas de inactividad. En una base de datos activa, una migración con tiempo de inactividad puede provocar la pérdida de datos.
Para realizar una migración con tiempo de inactividad, sigue estos pasos generales:
- Genera un archivo de volcado de los datos de la base de datos de origen.
- Sube el archivo de volcado a Cloud Storage en formato de volcado de MySQL, PostgreSQL, Avro o CSV.
- Carga el archivo de volcado en Spanner con Dataflow o la herramienta de migración de Spanner.
Generar varios archivos de volcado pequeños permite escribir más rápido en Spanner, ya que puede leer varios archivos de volcado en paralelo.
Cuando generes un archivo de volcado desde la base de datos de origen, ten en cuenta lo siguiente para generar un resumen coherente de los datos:
- Para evitar que los datos cambien durante la generación del archivo de volcado, antes de realizar el volcado, aplica un bloqueo de lectura en la base de datos de origen.
- Genera el archivo de volcado con una réplica de lectura de la base de datos de origen con la replicación inhabilitada.
Formatos recomendados para la migración masiva
Avro es el formato preferido para una migración masiva a Spanner. Si usas Avro, ten en cuenta lo siguiente:
- Para generar un volcado de Avro de los datos, usa una herramienta como DBeam. Para obtener más información sobre la exportación a Avro, consulta Cómo exportar datos de una base de datos que no es de Spanner a archivos Avro.
- Para importar datos de Avro, usa un trabajo de importación de Dataflow. Para obtener más información, consulta Cómo importar archivos Avro de bases de datos que no son de Spanner a Spanner.
Si usas CSV, ten en cuenta lo siguiente:
- Para generar un volcado de CSV de los datos, usa la generación de CSV que admite la fuente. Si los datos contienen líneas nuevas, usa un separador de líneas personalizado.
- Para importar datos CSV, usa un trabajo de importación de Dataflow. Puedes crear tu propia plantilla de importación de Dataflow o usar una de Google Cloud. Para obtener más información, consulta Plantillas de canalización de datos de Dataflow.
Si usas MySQL o PostgreSQL, puedes usar la herramienta de migración de Spanner.
Si deseas obtener información para usar secuencias de comandos personalizadas para cargar datos en Spanner, consulta Lineamientos de rendimiento para la carga masiva.
Valida la migración de datos
La validación de datos es el proceso de comparar los datos de las tablas de origen y de destino para garantizar que coincidan.
La herramienta de validación de datos (DVT) es una herramienta de código abierto que puede conectarse a almacenes de datos y realizar verificaciones entre la fuente y Spanner. Te recomendamos que la uses para realizar validaciones básicas como parte de la migración, como las siguientes:
- Verifica que se hayan creado todas las tablas y que todas las asignaciones de esquemas sean correctas .
- Coincidir con el recuento de filas de cada tabla
- Extrae filas aleatorias para verificar la exactitud.
- Valida tus columnas (
count
,sum
,avg
,min
,max
,group by
). - Compara cualquier verificación de redundancia cíclica o función hash a nivel de la fila.
Para realizar validaciones más específicas, compila verificaciones personalizadas durante la migración.
Configura los mecanismos de conmutación por error y de cambio
Las migraciones suelen ser complejas y requieren mucho tiempo. Integra resguardos para evitar un impacto significativo en caso de que se produzca un error durante la migración, lo que te permitirá volver a la base de datos de origen con un tiempo de inactividad mínimo.
La recomendación actual es consumir flujos de cambios para realizar la replicación inversa y volver a escribir en la base de datos de origen a través de un flujo como Pub/Sub o Cloud Storage.
La replicación inversa debe hacer lo siguiente:
- Controla los cambios en los tipos de datos o el contenido.
- Invierte las transformaciones que se realizaron durante la migración.
- Envía los datos al destino adecuado, teniendo en cuenta los esquemas de fragmentación en la fuente.