Introducción a la administración de BigQuery

En este documento, se proporcionan una introducción a las tareas de administración de BigQuery y las características de BigQuery que te ayudan a cumplirlas.

Los administradores de BigQuery suelen realizar los siguientes tipos de tareas:

  • Administra recursos, como proyectos, conjuntos de datos y tablas.
  • Protege los recursos para que el acceso se limite a las principales que lo necesiten.
  • Administra cargas de trabajo, como trabajos, consultas y capacidad de procesamiento (reservas).
  • Supervisa los recursos, incluidas las cuotas, los trabajos y el uso de procesamiento.
  • Optimiza las cargas de trabajo para obtener el mejor rendimiento y controlar los costos.
  • Soluciona problemas de mensajes de error, problemas de facturación y cuotas.

En este documento, se ofrece una descripción general de las funciones que proporciona BigQuery para ayudarte a realizar estas tareas.

Para hacer un recorrido por las funciones de administración de datos de BigQuery directamente en la consola de Google Cloud, haz clic en Realizar el recorrido.

Realizar el recorrido

Herramientas

BigQuery proporciona varias interfaces que puedes usar para las tareas de administración. A menudo, una tarea en particular se puede realizar con varias herramientas, lo que te permite elegir la herramienta que mejor se adapte a tus necesidades. Por ejemplo, puedes crear una tabla con el panel Explorador en la consola de Google Cloud, un comando bq mk --table o una instrucción de SQL CREATE TABLE.

  • Consola de Google Cloud. La consola de Google Cloud tiene varias páginas dedicadas a la administración de BigQuery. Para obtener más información, consulta Usa la consola de Google Cloud.
  • Instrucciones de SQL. La página de BigQuery en la consola de Google Cloud tiene un editor de consultas en el que puedes realizar tareas administrativas mediante declaraciones DDL y DCL. Para obtener más información, consulta Lenguaje de definición de datos (DDL) y Lenguaje de control de datos (DCL).

    Puedes usar procedimientos almacenados para automatizar las tareas de administración que usan instrucciones de SQL. Para obtener más información, consulta Trabaja con procedimientos almacenados.

  • Comandos de bq La herramienta de línea de comandos de bq te permite realizar muchas tareas administrativas con los comandos de bq. Puedes usar la herramienta de línea de comandos de bq para realizar tareas que no son compatibles con la consola de Google Cloud, crear prototipos de las funciones antes de codificarlas en consultas o métodos de API, o si prefieres trabajar en una interfaz de línea de comandos. Para obtener más información, consulta Usa la herramienta de línea de comandos de bq.

Administrar recursos

Los recursos de BigQuery incluyen organizaciones, carpetas, proyectos, conjuntos de datos y tablas. En esta sección, se describe cómo administrar los recursos de tu organización.

Para obtener información sobre la jerarquía de recursos de BigQuery, consulta Organiza los recursos de BigQuery. En particular, puedes crear un recurso de organización, que te permita realizar algunas tareas, como configurar controles de acceso, a nivel de organización.

Administra conjuntos de datos

Los conjuntos de datos son contenedores para tablas. Puedes crear tablas en un conjunto de datos y, luego, administrarlas como un grupo. Por ejemplo, puedes configurar el tiempo de vencimiento predeterminado de una tabla, que se aplica a todas las tablas en el conjunto de datos, a menos que lo anules. Puedes copiar un grupo de tablas si haces una copia de su conjunto de datos, y puedes controlar el acceso a las tablas a nivel de conjunto de datos.

Consulta los siguientes documentos para obtener más información sobre la administración de conjuntos de datos:

Administra tablas

En BigQuery, los datos se almacenan en tablas, en las que se pueden consultar. Puedes crear tablas, cargar datos en tablas de varios tipos de fuentes y en varios formatos, tablas de partición según una columna específica o por tiempo de transferencia, tablas de clústeres, actualizar propiedades de tablas y exportar datos de tablas.

Consulta los siguientes documentos para obtener más información sobre la administración de tablas:

Etiquetar recursos

Para organizar tus recursos de BigQuery, puedes agregar etiquetas a tus conjuntos de datos, tablas y vistas. Las etiquetas son pares clave-valor que puedes adjuntar a un recurso. Después de etiquetar tus recursos, puedes buscarlos según los valores de las etiquetas. Por ejemplo, puedes usar etiquetas para agrupar conjuntos de datos por departamento agregando etiquetas como dept:sales, dept:marketing o dept:analytics. Luego, puedes desglosar tus cargos facturados por departamento con las etiquetas.

Para obtener más información, consulta Introducción a las etiquetas.

Obtener información de recursos

Puedes obtener información sobre tus recursos de BigQuery si consultas las vistas INFORMATION_SCHEMA. BigQuery proporciona vistas para cada tipo de recurso. Por ejemplo, la vista INFORMATION_SCHEMA.TABLES contiene información sobre tus tablas.

Los siguientes son algunos ejemplos de información que puedes obtener si consultas las vistas de INFORMATION_SCHEMA:

  • Visualiza cuándo se creó una tabla.
  • Obtén los nombres y los tipos de datos de cada columna en una tabla.
  • Busca todos los trabajos que se ejecutan en un proyecto.
  • Obtén una lista de las instantáneas de tablas que se crearon a partir de una tabla base.
  • Para un conjunto de datos, una tabla, una vista o una rutina, obtén la declaración DDL que se puede usar a fin de crear el recurso.
  • Obtén las opciones que se usaron para crear una tabla (por ejemplo, vencimiento de la tabla).
  • Busca las columnas de partición y agrupamiento en clústeres en una tabla.
  • Obtén la reserva asignada actualmente a un proyecto y su capacidad de ranura.

Para obtener más información, consulta Introducción a BigQuery INFORMATION_SCHEMA.

Copiar datos

Recomendamos crear copias de tus datos por varios motivos, como protección contra errores humanos o conservar datos para compararlos en el futuro. BigQuery ofrece varias opciones para copiar los datos de una tabla de un momento en particular.

  • Viaje en el tiempo. Es posible que debas acceder al estado de una tabla como estaba en la última semana, por ejemplo, si los datos se dañaron debido a un error humano. BigQuery conserva los datos históricos de tus tablas durante siete días. Puedes acceder a los datos históricos recientes de una tabla mediante la función de viajes en el tiempo.

    Para obtener más información, consulta Cómo acceder a datos históricos con viajes en el tiempo.

  • Instantáneas de tablas Si quieres poder acceder al estado de una tabla antes de una semana, considera crear instantáneas de tablas de forma periódica. Las instantáneas de tabla son livianas y de solo lectura que te permiten conservar el estado de tus tablas de forma indefinida. Por ejemplo, con las instantáneas de tablas, puedes comparar los datos actuales de una tabla con los datos del comienzo del año, lo que no es posible con la función de viajes en el tiempo. Solo se te cobra por almacenar los datos que difieran entre la tabla base y la instantánea de tabla.

    Para obtener más información, consulta Introducción a las instantáneas de tablas.

  • Clonaciones de tablas. Si deseas realizar una copia ligera en la que se puedan realizar operaciones de escritura de una tabla, puedes usar clonaciones de tablas. Solo pagas por el almacenamiento de los datos que difieren entre una tabla base y su clon de tabla. Por ejemplo, puedes crear clones de tablas en un entorno de prueba para experimentar con copias de datos de producción sin afectar los datos de producción y sin tener que pagar el almacenamiento de copias completas de las tablas.

    Para obtener más información, consulta Introducción a las clonaciones de tablas.

Realizar un seguimiento de linaje de datos

El linaje de datos es una función de Dataplex que te permite hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos. Para obtener más información sobre cómo el linaje de datos puede ayudarte a realizar un seguimiento del movimiento de datos en tu proyecto, consulta Acerca del linaje de datos en Dataplex.

Recursos seguros

La seguridad de BigQuery se basa en Google Cloud Identity and Access Management. BigQuery te permite controlar el acceso a tus recursos en muchos niveles, incluido el acceso a la organización, las carpetas, los proyectos, los conjuntos de datos, las tablas, las columnas de tablas y las filas de la tabla.

Para obtener información sobre cómo controlar el acceso a tus recursos de BigQuery, consulta Descripción general de la seguridad y administración de datos.

Administrar cargas de trabajo

BigQuery realiza muchas tareas en nombre de tus usuarios, incluidas la transferencia, consulta y exportación de datos. A cada tarea la realiza un trabajo de BigQuery. En esta sección, se describe cómo puedes supervisar y administrar los trabajos de tu organización.

Administrar empleos

Los trabajos son acciones que BigQuery ejecuta en nombre de un usuario para cargar, exportar, consultar o copiar datos. Cuando un usuario inicia una de estas tareas con la consola de Google Cloud, la herramienta de línea de comandos de bq, una instrucción de SQL o una llamada a la API, BigQuery crea automáticamente un trabajo para ejecutar la tarea.

Como administrador de BigQuery, puedes supervisar, administrar y solucionar los problemas de los trabajos de tu organización para garantizar que se ejecuten sin problemas.

Para obtener más información, consulta Descripción general de los trabajos.

Administrar reservas

Cuando BigQuery ejecuta consultas, usa unidades de procesamiento llamadas ranuras. BigQuery calcula cuántas ranuras se necesitan para ejecutar cada consulta, según el tamaño y la complejidad de la consulta.

BigQuery tiene dos modelos de precios para cobrar por las ranuras que ejecutan tus consultas:

  • Facturación según demanda. Si tus consultas usan un grupo compartido de ranuras, se te cobrará por la cantidad de bytes que procesen tus consultas.
  • Facturación basada en la capacidad. Asignas un compromiso de reserva o capacidad a una edición, cada una con su propio conjunto de atributos y precio máximo para proporcionarte el mejor entorno de trabajo.

Estos modelos de precios se aplican por proyecto, por lo que puedes tener algunos proyectos que usen la facturación según demanda y otros que usen la facturación basada en la capacidad.

Con la facturación a pedido, después de que se consuma la asignación mensual de uso gratuito, se te cobrará por la cantidad de bytes que procese cada consulta. La capacidad de procesamiento se limita a una cuota de ranura predefinida, que se comparte entre las consultas que se ejecutan en un proyecto.

Con la facturación de ediciones de BigQuery, puedes asignar ranuras para tu organización a través de reservas de ajuste de escala automático y compromisos de capacidad opcionales, pero más económicos. Las ranuras para cada edición tienen su propio precio máximo y ofrecen su propio conjunto de características. Para obtener más información sobre las ediciones de BigQuery y las funciones asociadas a ellas, consulta Introducción a las ediciones de BigQuery.

Consulta los siguientes documentos a fin de obtener más información sobre cómo administrar la capacidad de procesamiento para procesar tus consultas:

Supervisar recursos

Google Cloud proporciona la capacidad de supervisar y auditar tus recursos, incluidos los recursos de BigQuery. En esta sección, se describen las capacidades de supervisión y auditoría de Google Cloud que se aplican a BigQuery.

Para obtener más información, consulta Introducción a la supervisión de BigQuery.

El panel de Cloud Monitoring

Cloud Monitoring proporciona un panel para supervisar BigQuery. Use este panel para ver información sobre incidentes de BigQuery, conjuntos de datos, tablas, proyectos, tiempos de consulta y uso de ranuras.

Para obtener más información, consulta Visualiza el panel de Monitoring.

Gráficos y alertas de administración

Puedes usar Cloud Monitoring para crear gráficos personalizados según los recursos, las métricas y cualquier agregación que especifiques.

Para obtener más información, consulta Usa los paneles y gráficos.

También puedes crear políticas de alertas que te notifiquen si la alerta configurada está activada. Por ejemplo, puedes crear una alerta que envíe un correo electrónico a una dirección de correo electrónico especificada si el tiempo de ejecución de una consulta supera un límite especificado.

Para obtener más información, consulta Crea una alerta.

Supervisa reservas

Puedes supervisar el uso de las ranuras en la página Administración de la capacidad de la consola de Google Cloud. Puedes ver los compromisos de capacidad y ver dónde se asignaron las reservas de ranuras. También puedes usar el estimador de ranuras (vista previa) para ayudarte a estimar los requisitos de capacidad de tu organización según las métricas de rendimiento históricas.

Para obtener más información, consulta Supervisa reservas de BigQuery.

Cuotas

Google Cloud establece límites en el uso de los recursos, incluidos los recursos de BigQuery, tanto para garantizar el uso legítimo de los recursos compartidos como para protegerte de los costos excesivos. Puedes ver el uso de los recursos de BigQuery que tienen cuotas y solicitar una cuota más alta si es necesario mediante la consola de Google Cloud.

Para obtener más información, consulta Cuotas y límites de BigQuery.

Registros de auditoría

Los registros de auditoría de Cloud mantienen un registro de los eventos de Google Cloud, incluidos los eventos de BigQuery. Puedes usar el Explorador de registros para consultar los registros sobre eventos relacionados con trabajos, conjuntos de datos, transferencias de BigQuery y más. En el Panel de registros, se muestra información sobre errores recientes y puedes usar las métricas basadas en registros para contar las entradas de registro que coinciden con un filtro determinado.

Para obtener más información, consulta la documentación de registro de Google Cloud.

Optimiza las cargas de trabajo

Puedes optimizar tu configuración de BigQuery para controlar los costos de almacenamiento y de procesamiento de consultas.

Orientación sobre confiabilidad

En este documento, se proporciona información sobre la confiabilidad de BigQuery, lo que incluye estadísticas sobre disponibilidad, durabilidad, coherencia de los datos, coherencia del rendimiento y recuperación de datos en BigQuery, y una revisión de las consideraciones de manejo de errores. Para obtener más información sobre la confiabilidad y la planificación ante desastres, consulta Comprende la confiabilidad.

Solucionar problemas

Además de las funciones descritas en este documento para supervisar y administrar el sistema BigQuery de tu organización, los siguientes recursos están disponibles para solucionar problemas que puedan surgir:

Si necesitas asistencia adicional, consulta Obtén asistencia.

¿Qué sigue?