En esta página, se describe el optimizador de consultas de Spanner y sus beneficios.
Descripción general
El optimizador de consulta en SQL de Spanner convierte una instrucción de SQL declarativa, que describe los datos que necesita la consulta, en un plan de ejecución imperativo, que describe una forma de obtener esos datos con precisión. El proceso de transformación de una sentencia declarativa en un plan de ejecución de consultas implica realizar transformaciones en las estructuras de árbol que se usan para representar la consulta. El optimizador, en el proceso de generar un plan de ejecución, conserva el significado lógico de la consulta en SQL original para que se muestren las filas correctas.
Otro rol importante del optimizador es producir un plan de ejecución que sea eficiente.
¿Cómo produce el optimizador de Spanner planes de ejecución eficientes?
El optimizador de Spanner usa una combinación de heurísticas bien establecidas y optimización basada en costos para producir planes eficientes. Algunas heurísticas son muy sencillas, como “realizar filtros en máquinas remotas en lugar de extraer datos a la máquina local”. Otras heurísticas son más complejas, pero aún representan el principio de mover la lógica que reduce el volumen de datos más cerca de los datos. Ese principio es muy importante en un sistema que fragmenta datos en varias máquinas.
No todas las decisiones de ejecución se pueden tomar de manera eficaz con esas reglas fijas, por lo que el optimizador de Spanner también toma decisiones en función de un costo estimado de las alternativas. Estas estimaciones de costos se calculan con la estructura de la consulta, el esquema de la base de datos y las estimaciones del volumen de datos que producirán los fragmentos de la consulta. Por ejemplo, Spanner
estimará cuántas filas de la tabla Songs califican el filtro
SongGenre = "Country"
si ese filtro aparece en una consulta. Para ayudar al cálculo de esas estimaciones, Spanner recopila estadísticas periódicamente para caracterizar la distribución de los datos en una base de datos.
Además, Spanner optimiza la ejecución de consultas determinando automáticamente si se debe usar un método de procesamiento orientado a filas o columnas para la consulta. Para obtener más información, consulta Cómo optimizar las búsquedas.
Para obtener más información sobre los planes de ejecución de consultas y cómo los usa Spanner para realizar consultas en un entorno distribuido, consulta Planes de ejecución de consultas.
Control de versiones del optimizador de consultas
Con el tiempo, el optimizador de consultas de Spanner evolucionará y ampliará el conjunto de opciones en el plan de ejecución de consultas y mejorará la precisión de las estimaciones que informan esas opciones, lo que llevará a planes de ejecución de consultas más eficientes.
Spanner lanza actualizaciones del optimizador como nuevas versiones del optimizador de consultas para mejorar la eficiencia de sus planes de ejecución de consultas. Para obtener más información sobre las diferentes versiones, consulta Versiones del optimizador de consultas de Spanner.
Paquetes de estadísticas del optimizador de consultas
Spanner mantiene estadísticas sobre la distribución de datos de las columnas de la tabla para ayudar a estimar cuántas filas producirá una consulta. El optimizador de consultas usa estas estimaciones para ayudar a elegir el mejor plan de ejecución de consultas. Spanner actualiza estas estadísticas periódicamente. Debido a que las estadísticas se usan para elegir planes de ejecución de consultas, cuando se actualizan las estadísticas, Spanner puede cambiar el plan de ejecución que usa para una consulta.
De forma predeterminada, las bases de datos usan automáticamente el paquete de estadísticas generado más reciente. Puedes fijar tu base de datos a una versión anterior del paquete de estadísticas. También tienes la opción de ejecutar consultas individuales con un paquete de estadísticas que no sea el más reciente.
Cómo crear un nuevo paquete de estadísticas
Spanner genera automáticamente un nuevo paquete de estadísticas cada tres días. Para crear un paquete de estadísticas nuevo de forma manual, usa la instrucción DDL ANALYZE
de Google SQL o la instrucción DDL ANALYZE
de PostgreSQL.
Después de realizar cambios significativos en los datos o el esquema de tu base de datos, la compilación de un nuevo paquete de estadísticas puede beneficiar el rendimiento de las consultas. Como práctica recomendada, crea un paquete de estadísticas nuevo si ocurre lo siguiente:
- La base de datos procesa una gran cantidad de inserciones, actualizaciones o eliminaciones.
- Agregas un índice nuevo a la base de datos.
- Agregas una columna nueva a una tabla.
Ejecutar una sentencia DDL ANALYZE
actualiza tu esquema, inicia una
operación de larga duración y cancela la creación de cualquier estadística activada automáticamente.
Después de que Spanner termina de ejecutar la sentencia, el optimizador de consultas tarda hasta diez minutos en tener en cuenta un nuevo paquete de estadísticas en su planificación de consultas.
Recolección de elementos no utilizados de paquetes de estadísticas
Los paquetes de estadísticas en Spanner se conservan durante un período de 30 días desde su creación y, luego, están sujetos a la recolección de elementos no utilizados.
La tabla INFORMATION_SCHEMA.SPANNER_STATISTICS
integrada en Spanner contiene una lista de los paquetes de estadísticas disponibles. Cada fila de esta tabla muestra un paquete de estadísticas por nombre, y el nombre contiene la marca de tiempo de creación del paquete determinado. Cada entrada también contiene un campo llamado ALLOW_GC
, que define si un paquete se puede eliminar o no.
Puedes fijar toda tu base de datos a cualquiera de los paquetes que se enumeran en esa tabla. El paquete de estadísticas fijado no se eliminará y se ignorará el valor de ALLOW_GC
, siempre y cuando la base de datos esté fijada a este paquete. Para usar un paquete de estadísticas específico para una consulta individual, el paquete debe aparecer en la lista con ALLOW_GC=FALSE
o estar fijado. Esto evita que las consultas fallen después de que se haya recolectado el paquete de estadísticas. Puedes cambiar el valor de ALLOW_GC
con la sentencia DDL ALTER STATISTICS
de GoogleSQL o ALTER STATISTICS
de PostgreSQL.
Retención de paquetes y datos de identificación personal (PII)
Un paquete de estadísticas contiene histogramas de los datos de la columna, según las prácticas estándar de la industria. Esto ayuda al optimizador de consultas a seleccionar los planes de consulta óptimos. El histograma se construye con una pequeña muestra de valores. Este pequeño conjunto de datos puede contener PII.
Spanner crea un paquete de estadísticas nuevo con regularidad y
lo retiene durante 30 días de forma predeterminada. Por lo tanto, una pequeña muestra de valores borrados de la base de datos se puede retener durante 30 días adicionales en los histogramas de estadísticas.
Los paquetes de estadísticas fijados con la opción de base de datos optimizer_statistics_package
o los paquetes con la opción ALLOW_GC=FALSE
no se recolectarán como elementos no utilizados.
Los histogramas de estos paquetes pueden contener valores borrados de la base de datos durante un período más largo. Además, el contenido de los paquetes de estadísticas se incluye en las copias de seguridad de la base de datos.
Las estadísticas del optimizador se almacenan encriptadas de la misma manera que los datos del usuario.
La cantidad total de almacenamiento requerida para estos paquetes suele ser inferior a 100 MB y se considera en los costos totales de almacenamiento.
¿Qué sigue?
- Para obtener más información sobre el historial del optimizador de consultas, consulta Historial de versiones del optimizador de consultas.
- Para administrar la versión del optimizador y el paquete de estadísticas de tu situación, consulta Administra el optimizador de consultas.