Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Descripción general de las estadísticas de BigQuery

En este documento, se ofrece una descripción general de cómo se procesan las consultas en BigQuery y se describen algunas de las funciones útiles para el análisis de datos.

Introducción

BigQuery es un motor analítico y almacén de datos en la nube completamente administrado y altamente escalable. Está optimizado para ejecutar consultas analíticas en conjuntos de datos grandes. Puede realizar consultas en terabytes de datos en segundos y petabytes en minutos. Este rendimiento le permite analizar grandes conjuntos de datos de forma eficiente y obtener estadísticas casi en tiempo real. Comprender cómo BigQuery procesa las consultas y las funciones de estadísticas que proporciona puede ayudarte a maximizar tu poder analítico.

Tipos de análisis

A continuación, se enumeran las características de estadísticas en BigQuery:

  • Análisis ad hoc: BigQuery admite el análisis ad hoc con SQL estándar, el dialecto de SQL de BigQuery. Puedes ejecutar consultas en la consola de Google Cloud o mediante herramientas de terceros que se integren en BigQuery.

  • Análisis geoespacial: Las estadísticas geoespaciales te permiten analizar y visualizar datos geoespaciales en BigQuery mediante tipos de datos geográficos y funciones geográficas de SQL estándar de Google. Para obtener información sobre estos tipos de datos y funciones, consulta Introducción a las estadísticas geoespaciales.

  • Aprendizaje automático: BigQuery ML te permite crear y ejecutar modelos de aprendizaje automático en BigQuery mediante consultas de SQL estándar de Google.

  • Inteligencia empresarial: BigQuery BI Engine es un servicio de análisis rápido y en la memoria. Con BI Engine, puedes crear informes y paneles interactivos y completos sin comprometer el rendimiento, el escalamiento, la seguridad o la actualidad de los datos.

Consultas

La unidad principal de análisis con BigQuery es la consulta de SQL. BigQuery tiene dos dialectos de SQL llamados SQL estándar de Google y SQL heredado. SQL estándar de Google, que es el dialecto preferido, admite SQL:2011 y, además, incluye extensiones que proporcionan asistencia para el análisis geoespacial o el aprendizaje automático. BigQuery también admite la consulta de datos almacenados en varias fuentes.

Fuente de datos

BigQuery admite la consulta de los siguientes tipos de fuentes de datos:

  • Datos nativos: Datos almacenados en el almacenamiento de BigQuery. Puedes cargar datos en BigQuery o generar datos mediante declaraciones de lenguaje de manipulación de datos o escribiendo resultados de consultas en una tabla.
  • Datos externos: Datos almacenados en otros servicios de almacenamiento de Google Cloud, como Cloud Storage, o en otros servicios de bases de datos de Google Cloud, como Spanner o Cloud SQL. Para obtener información sobre cómo configurar conexiones a fuentes externas, consulta Introducción a las fuentes de datos externas.
  • Datos de múltiples nubes: Datos almacenados en varios servicios en la nube, como AWS o Azure. Para obtener información sobre cómo configurar las conexiones al almacenamiento de AWS y Azure, consulta las guías prácticas en la documentación de BigQuery Omni.
  • Conjunto de datos públicos: Si no tienes tus propios datos, puedes analizar cualquiera de los conjuntos de datos disponibles en el mercado de conjuntos de datos públicos.

Tipos de consultas

Después de cargar tus datos en BigQuery, puedes consultar los datos en tus tablas. BigQuery admite dos tipos de consultas:

BigQuery ejecuta consultas interactivas de forma predeterminada, lo que significa que la consulta se ejecuta lo antes posible.

BigQuery también ofrece consultas por lotes. BigQuery pone en cola cada consulta por lotes en tu nombre y, luego, inicia la consulta en cuanto los recursos inactivos estén disponibles, lo que, por lo general, toma unos minutos.

Puedes ejecutar consultas interactivas y por lotes con las siguientes opciones:

Trabajos de consulta

Los trabajos son acciones que BigQuery ejecuta por ti para cargar datos, exportarlos, consultarlos o copiarlos.

Cuando usas la consola de Google Cloud o la herramienta de línea de comandos de bq para cargar, exportar, consultar o copiar datos, un recurso de trabajo se crea, programa y ejecuta de forma automática. También puedes crear un trabajo de carga, exportación, consulta o copia de manera programática. Cuando creas un trabajo de manera programática, BigQuery programa y ejecuta el trabajo por ti.

Dado que los trabajos pueden llevar mucho tiempo en completarse, estos se ejecutan de forma asíncrona y se pueden sondear para determinar su estado. Las acciones más cortas, como obtener metadatos o realizar una lista de recursos, no se administran mediante un recurso de trabajo.

Guarda y comparte consultas

BigQuery te permite guardar y compartir consultas con otros.

Cuando guardas una consulta, puede ser privada (solo visible para ti), compartida a nivel de proyecto (visible para principales específicas) o pública (visible para todo el mundo). A fin de obtener más información, consulta Cómo guardar y compartir consultas.

Procesamiento de consultas

En BigQuery, el procesamiento se desacopla del almacenamiento y están diseñados para funcionar en conjunto a fin de organizar los datos para que las consultas sean eficientes en conjuntos de datos enormes.

Cuando ejecutas una consulta, BigQuery genera un árbol de ejecución que divide la consulta en etapas. Las etapas contienen pasos que se pueden ejecutar en paralelo. Las etapas se comunican entre sí mediante un nivel aleatorio distribuido rápido para almacenar datos intermedios producidos por los trabajadores de una etapa. El nivel aleatorio aprovecha tecnologías como una red de petabytes y RAM siempre que sea posible para garantizar que los datos se muevan con rapidez a los nodos trabajadores.

A continuación, se describen los conceptos clave del procesamiento de consultas:

  • Árbol de ejecución: La consulta se desglosa en etapas que contienen pasos que los trabajadores pueden realizar en paralelo.
  • Nivel aleatorio: El nivel aleatorio almacena datos intermedios entre etapas.
  • Plan de consultas: Se genera un plan de consultas una vez que BigQuery tiene toda la información que necesita para ejecutar la consulta. Este plan de consulta se puede ver en la consola y puede ayudarte a optimizar o solucionar problemas del rendimiento de las consultas.
  • Supervisión y planificación dinámica de consultas: Además de los trabajadores que realizan el trabajo del plan de consultas, los trabajadores adicionales supervisan y dirigen el progreso general del trabajo en todo el sistema. A medida que la consulta avanza, BigQuery también puede ajustar el plan de consulta de manera dinámica para adaptarse a los resultados de las distintas etapas.

Cuando se completa una consulta, los resultados se escriben en el almacenamiento persistente y se muestran al usuario. Esto permite que BigQuery entregue resultados en caché la próxima vez que se ejecute esa consulta.

Simultaneidad y rendimiento de las consultas

El rendimiento de las consultas que se ejecutan de manera repetida en los mismos datos puede variar por milisegundos. Esta variabilidad en la ejecución se debe a la naturaleza compartida del entorno de BigQuery y, también, debido a la ejecución dinámica de consultas, en la que BigQuery realiza ajustes en el plan de consulta mientras se ejecuta la consulta. En el contexto de un sistema que suele estar ocupado, en el que se ejecutan muchas consultas a la vez, BigQuery disminuye la variabilidad del rendimiento de las consultas mediante los siguientes mecanismos:

  • BigQuery ejecuta muchas consultas en paralelo, por lo que no suele ser necesario poner en cola las consultas. La cantidad máxima predeterminada de consultas que se ejecutan en paralelo es 100.

    En los sistemas ocupados, las colas son una fuente importante de rendimiento menos predecible, ya que no está claro cuánto tiempo permanecerá una consulta en la cola. El tiempo de consulta en una cola puede depender más de otras consultas que se ejecutan o de la cola que de las calidades de la consulta.

  • A medida que las consultas comienzan y finalizan, BigQuery redistribuye los recursos de manera equitativa entre las consultas nuevas y las que se ejecutan. Esto garantiza que el rendimiento de las consultas no dependa del orden en que se envían, sino del número de consultas que se ejecutan en un momento determinado.

Optimización de consultas

Una vez que se comple la consulta, puedes ver el plan de consulta en la consola o solicitar detalles de ejecución desde las vistas INFORMATION_SCHEMA.JOBS* o a través de la API de Jobs El plan de consulta te brinda detalles sobre las etapas de consulta, como las estadísticas de descripción general y la información detallada de los pasos.

Puedes usar los detalles del plan de consulta para identificar formas de mejorar el rendimiento de la consulta. Por ejemplo, si en los detalles de la ejecución ves que una etapa en particular está escribiendo mucho más resultado que otras etapas, es posible que debas filtrar antes en la consulta.

Supervisión de consultas

La supervisión y el registro son fundamentales para ejecutar aplicaciones confiables en la nube. Las cargas de trabajo de BigQuery no son la excepción, en especial si la tuya tiene volúmenes altos o es crítica. BigQuery proporciona varias métricas, registros y vistas de metadatos para ayudarte a supervisar el uso de BigQuery.

Precios de consulta

BigQuery ofrece dos modelos de precios para las estadísticas:

A fin de obtener información sobre los dos modelos de precios y más información para realizar reservas de precios de tarifa plana, consulta Introducción a las reservas.

Cuotas y controles de precio de las consultas

BigQuery aplica cuotas a nivel de proyecto a las consultas en ejecución. Para obtener más información sobre las cuotas de consulta, visita Cuotas y límites.

Para controlar los costos de consulta, BigQuery ofrece varias opciones, incluidas las cuotas personalizadas y las alertas de facturación. Para obtener más información, consulta Cómo crear controles de costos personalizados.

Funciones de análisis de datos

BigQuery admite estadísticas descriptivas y predictivas. Puedes usar la consola para consultar tus datos directamente a fin de responder algunas preguntas estadísticas, o usar herramientas como Tableau o Looker que se integran en BigQuery a fin de explorar los datos de forma visual para detectar tendencias, anomalías, etcétera.

Integración de herramientas de estadísticas

Además de ejecutar consultas en BigQuery, puedes analizar tus datos con varias herramientas de inteligencia empresarial y estadísticas que se integran en BigQuery, como las siguientes:

  • Google Data Studio: Puedes iniciar Google Data Studio directamente desde la consola de BigQuery después de ejecutar una consulta. En la consola de Google Data Studio, puedes crear visualizaciones y explorar los datos que se muestran desde la consulta. Para obtener información sobre Google Data Studio, consulta Descripción general de Google Data Studio.

  • Hojas conectadas: También puedes iniciar hojas conectadas directamente desde la consola de BigQuery. Las hojas conectadas ejecutan consultas de BigQuery en tu nombre en función de la solicitud o de un programa definido. Los resultados de esas consultas se guardan en la hoja de cálculo para analizar los datos y compartirlos. Para obtener información sobre las hojas conectadas, consulta Usa hojas conectadas.

  • Looker: Looker es una plataforma empresarial para la inteligencia empresarial, las aplicaciones de datos y las estadísticas incorporadas. La plataforma Looker funciona con muchos almacenes de datos, incluido BigQuery. Para obtener información sobre cómo conectar Looker con BigQuery, consulta Usa Looker.

Integración de herramientas de terceros

Varias herramientas de estadísticas de terceros funcionan con BigQuery. Por ejemplo, puedes conectar Tableau a datos de BigQuery y usar sus herramientas de visualización para analizar y compartir tu análisis. Para obtener más información sobre las consideraciones cuando se usan herramientas de terceros, consulta Integración de herramientas de terceros.

Los controladores ODBC y JDBC están disponibles y se pueden usar para integrar tu aplicación en BigQuery. El propósito de estos controladores es ayudar a los usuarios a aprovechar la potencia de BigQuery con la infraestructura y las herramientas existentes. Para obtener información sobre la actualización más reciente y los problemas conocidos, consulta Controladores de ODBC y JDBC para BigQuery.

Las bibliotecas de Pandas, como pandas-gbq, te permiten interactuar con datos de BigQuery en notebooks de Jupyter. Para obtener más información sobre esta biblioteca y cómo se compara con el uso de la biblioteca cliente de Python de BigQuery, consulta Comparación con pandas-gbqpandas-gbq.

También puedes usar BigQuery con otros notebooks y herramientas de análisis. Para obtener más información, consulta Herramientas de análisis programático.

Para obtener una lista completa de las estadísticas de BigQuery y los socios de tecnología más amplios, consulta la lista Socios en la página de productos de BigQuery.

¿Qué sigue?