Descripción general de BigQuery
BigQuery es una plataforma de datos completamente administrada y lista para la IA que te ayuda a administrar y analizar tus datos con funciones integradas como el aprendizaje automático, la búsqueda, el análisis geoespacial y la inteligencia empresarial. La arquitectura sin servidores de BigQuery te permite usar lenguajes como SQL y Python para responder las preguntas más importantes de tu organización sin necesidad de administrar la infraestructura.
BigQuery proporciona una manera uniforme de trabajar con datos estructurados y no estructurados, y es compatible con formatos de tablas abiertas, como Apache Iceberg, Delta y Hudi. La transmisión de BigQuery admite la transferencia y el análisis continuos de datos, mientras que el motor de análisis distribuido y escalable de BigQuery te permite consultar terabytes en segundos y petabytes en minutos.
La arquitectura de BigQuery consta de dos partes: una capa de almacenamiento que transfiere, almacena y optimiza datos, y una capa de procesamiento que proporciona capacidades de estadísticas. Estas capas de procesamiento y almacenamiento operan de forma independiente unas de otras gracias a la red de escala de petabytes de Google que permite la comunicación necesaria entre ellas.
Por lo general, las bases de datos heredadas deben compartir recursos entre las operaciones de lectura y escritura, y las operaciones analíticas. Esto puede generar conflictos de recursos y puede ralentizar las consultas mientras los datos se escriben o leen desde el almacenamiento. Los grupos de recursos compartidos pueden verse aún más entrenados cuando se necesitan recursos para las tareas de administración de bases de datos, como asignar o revocar permisos. La separación de las capas de procesamiento y almacenamiento de BigQuery permite que cada capa asigne recursos de forma dinámica sin afectar el rendimiento ni la disponibilidad de la otra.
Este principio de separación permite que BigQuery innove más rápido, ya que las mejoras de almacenamiento y procesamiento se pueden implementar de forma independiente, sin tiempo de inactividad ni impacto negativo en el rendimiento del sistema. También es esencial ofrecer un almacén de datos sin servidores completamente administrado en el que el equipo de ingeniería de BigQuery se encarga de las actualizaciones y el mantenimiento. Como resultado, no necesitas aprovisionar ni escalar de forma manual los recursos, lo que te permite enfocarte en entregar valor en lugar de las tareas tradicionales de administración de bases de datos.
Las interfaces de BigQuery incluyen la interfaz de la consola de Google Cloud y la herramienta de línea de comandos de BigQuery. Los desarrolladores y científicos de datos pueden usar bibliotecas cliente con programación conocida, como Python, Java, JavaScript y Go, así como la API de REST y la API de RPC de BigQuery para transformar y administrar datos. Los controladores ODBC y JDBC proporcionan interacción con las aplicaciones existentes, incluidas las herramientas y las utilidades de terceros.
Como analista de datos, ingeniero de datos, administrador de almacenes de datos o científico de datos, BigQuery te ayuda a cargar, procesar y analizar datos para tomar decisiones empresariales críticas.
Primeros pasos con BigQuery
Puedes comenzar a explorar BigQuery en minutos. Aprovecha el nivel de uso gratuito de BigQuery o la zona de pruebas sin costo para comenzar a cargar y consultar datos.
- Zona de pruebas de BigQuery: comienza a usar la zona de pruebas de BigQuery sin riesgo y sin costo.
- Guía de inicio rápido de la consola deGoogle Cloud : Familiarízate con la potencia de BigQuery Console.
- Conjuntos de datos públicos: Experimenta el rendimiento de BigQuery mediante la exploración de datos grandes y reales del programa de conjuntos de datos públicos.
Explora BigQuery
La infraestructura sin servidores de BigQuery permite que te enfoques en los datos en lugar de la administración de recursos. BigQuery combina un almacén de datos basado en la nube y herramientas de análisis potentes.
Almacenamiento de BigQuery
BigQuery almacena datos mediante un formato de almacenamiento en columnas optimizado para consultas analíticas. BigQuery presenta datos en tablas, filas y columnas y proporciona compatibilidad total con la semántica de transacción de la base de datos (ACID). El almacenamiento de BigQuery se replica de forma automática en varias ubicaciones para proporcionar una alta disponibilidad.
- Obtén más información sobre los patrones comunes para organizar los recursos de BigQuery en el almacén de datos y los data marts.
- Obtén información sobre los conjuntos de datos, el contenedor de nivel superior de tablas y vistas de BigQuery.
- Carga datos en BigQuery con lo siguiente:
- Transmite datos con la API de Storage Write.
- Datos de carga por lotes desde archivos locales o Cloud Storage con formatos que incluyen los siguientes formatos: Avro ,Parquet ,ORC ,CSV ,JSON ,Datastore yFirestore.
- El Servicio de transferencia de datos de BigQuery automatiza la transferencia de datos.
Para obtener más información, consulta Descripción general del almacenamiento de BigQuery.
Estadísticas de BigQuery
Los usos descriptivos y prescriptivos del análisis incluyen inteligencia empresarial, análisis ad hoc, estadísticas geoespaciales y aprendizaje automático. Puedes consultar datos almacenados en BigQuery o ejecutar consultas sobre datos en su ubicación mediante tablas externas o consultas federadas, incluidas Cloud Storage, Bigtable, Spanner o Hojas de cálculo de Google almacenadas en Google Drive.
- Consultas de SQL estándar ANSI (compatibilidad con SQL:2011), incluida la compatibilidad con uniones, campos anidados y repetidos, funciones analíticas y de agregación, consultas de varias instrucciones y una variedad de funciones espaciales con estadísticas geoespaciales: sistemas de información geográfica.
- Crea vistas para compartir tu análisis.
- Compatibilidad con herramientas de inteligencia empresarial, incluida BI Engine con Looker Studio, Looker, Hojas de cálculo de Google y herramientas de terceros como Tableau y Power BI.
- BigQuery ML proporciona aprendizaje automático y estadísticas predictivas.
- BigQuery Studio (vista previa) ofrece funciones como los notebooks de Python y el control de versión para los notebooks y las consultas guardadas. Estas funciones te facilitan completar los análisis de datos y los flujos de trabajo de aprendizaje automático (AA) en BigQuery.
- Consulta datos fuera de BigQuery con tablas externas y consultas federadas.
Para obtener más información, consulta Descripción general de las estadísticas de BigQuery.
Administración de BigQuery
BigQuery proporciona administración centralizada de recursos de datos y procesamiento, mientras que Identity and Access Management (IAM) te ayuda a proteger esos recursos con el modelo de acceso que se usa en Google Cloud. Las prácticas recomendadas de seguridad deGoogle Cloud proporcionan un enfoque sólido pero flexible que puede incluir seguridad perimetral tradicional o un enfoque de defensa en profundidad más complejo y detallado.
- La introducción a la seguridad y administración de datos te ayuda a comprender la administración de datos y qué controles podrías necesitar para proteger los recursos de BigQuery.
- Los trabajos son acciones que BigQuery ejecuta en tu nombre para cargar, exportar, consultar o copiar datos.
- Las reservas te permiten cambiar entre precios según demanda y basados en capacidad.
Para obtener más información, consulta Introducción a la administración de BigQuery.
Recursos de BigQuery
Explora los recursos de BigQuery:
- Las notas de la versión proporcionan registros de cambios de funciones, cambios y bajas.
Precios para el análisis y el almacenamiento. Consulta también los precios de BigQuery ML, BI Engine y el Servicio de transferencia de datos.
Las ubicaciones definen dónde creas y almacenas los conjuntos de datos (ubicaciones regionales y multirregionales).
Stack Overflow aloja una comunidad activa de desarrolladores y analistas que trabajan con BigQuery.
La Asistencia de BigQuery proporciona ayuda con BigQuery.
Google BigQuery: The Definitive Guide: almacenamiento de datos, Analytics y aprendizaje automático a gran escala, por Valliappa Lakshmanan y Jordan Tigani, se explica cómo funciona BigQuery y se ofrece una explicación completa sobre cómo usar el servicio.
API, herramientas y referencias
Materiales de referencia para desarrolladores y analistas de BigQuery:
- Sintaxis de consulta de SQL para obtener detalles sobre cómo usar GoogleSQL.
- En la API de BigQuery y las bibliotecas cliente, se presentan descripciones generales de las funciones de BigQuery y su uso.
- En las muestras de código de BigQuery, se proporcionan cientos de fragmentos para las bibliotecas cliente en C#, Go, Java, Node.js, Python y Ruby. También puedes consultar el navegador de muestra.
- La sintaxis de DML, DDL y las funciones definidas por el usuario (UDF) te permiten administrar y transformar tus datos de BigQuery.
- La referencia de la herramienta de línea de comandos de bq documenta la sintaxis, los comandos, las marcas y los argumentos para la interfaz de la CLI de
bq
. - La integración de ODBC/JDBC conecta BigQuery con tu infraestructura y herramientas existentes.
Funciones y recursos de BigQuery
BigQuery aborda las necesidades de los profesionales de datos en las siguientes funciones y responsabilidades.
Analista de datos
Orientación sobre las tareas para ayudarte si necesitas hacer lo siguiente:
- Consulta datos de BigQuery con consultas interactivas o por lotes mediante la sintaxis de consultas de SQL.
- Consulta las funciones, los operadores y las expresiones condicionales de SQL para consultar datos.
Usa herramientas para analizar y visualizar datos de BigQuery, incluidas Looker, Looker Studio y Hojas de cálculo de Google.
Usa estadísticas geoespaciales para analizar y visualizar datos geoespaciales con los sistemas de información geográfica de BigQuery.
Optimiza el rendimiento de las consultas mediante lo siguiente:
- Tablas particionadas: Reduce las tablas grandes según rangos de tiempo o números enteros.
- Vistas materializadas: Define las vistas almacenadas en caché para optimizar las consultas o proporcionar resultados persistentes.
- BI Engine: El servicio de análisis en memoria rápido y de BigQuery.
Para realizar un recorrido por las funciones de análisis de datos de BigQuery directamente en la consola de Google Cloud , haz clic en Realizar el recorrido.
Administrador de datos
Orientación sobre las tareas para ayudarte si necesitas hacer lo siguiente:
- Administra costos con reservas para equilibrar los precios según demanda y los basados en la capacidad.
- Comprende la seguridad y la administración de los datos para proteger los datos por conjunto de datos, tabla, columna, fila o vista
- Crea una copia de seguridad de los datos con instantáneas de tabla para conservar el contenido de una tabla en un momento determinado.
- Visualiza BigQuery INFORMATION_SCHEMA para comprender los metadatos de conjuntos de datos, trabajos, control de acceso, reservas, tablas y más.
- Usa trabajos para que las cargas, exportaciones, consultas o copias de datos de BigQuery sean acciones en tu nombre.
- Supervisa registros y recursos para comprender BigQuery y las cargas de trabajo.
Para obtener más información, consulta Introducción a la administración de BigQuery.
Para hacer un recorrido por las funciones de administración de datos de BigQuery directamente en la consola de Google Cloud , haz clic en Realizar el recorrido.
Científico de datos
Orientación sobre tareas que te ayudarán si necesitas usar el aprendizaje automático de BigQuery ML a fin de realizar las siguientes acciones:
- Comprender el recorrido del usuario de extremo a extremo para modelos de aprendizaje automático
- Administrar el control de acceso para BigQuery ML
- Crear y entrenar modelos de BigQuery ML, que incluyen lo siguiente:
- Previsión de regresión lineal
- Clasificaciones de regresión de logística binaria y de logística multiclase
- Agrupamiento en clústeres de k-means para la segmentación de datos
- Previsión de series temporales con modelos Arima+
Desarrollador de datos
Orientación sobre las tareas para ayudarte si necesitas hacer lo siguiente:
- Carga datos en BigQuery con lo siguiente:
Usar la biblioteca de muestra de código, que incluye lo siguiente:
Navegador de muestras deGoogle Cloud (con alcance para BigQuery)
Videos instructivos de BigQuery
En la siguiente serie de videos instructivos, puedes comenzar a usar BigQuery:
Título |
Descripción |
---|---|
Cómo comenzar a usar BigQuery (17:18) | Una descripción general que resume qué es BigQuery y cómo usarlo. Los segmentos incluyen lo siguiente: canalizaciones de ETL, precios y optimización, BigQuery ML, BI Engine y una demostración de BigQuery en la consola de Google Cloud . |
¿Qué es BigQuery? (4:39) | Una descripción general de BigQuery sobre cómo está diseñado BigQuery para transferir y almacenar grandes cantidades de datos que ayuden a analistas y desarrolladores por igual. |
Usa la zona de pruebas de BigQuery (3:05) | Cómo configurar una zona de pruebas de BigQuery para que puedas ejecutar consultas sin necesidad de una tarjeta de crédito |
Haz preguntas, ejecuta consultas (5:11) | Cómo escribir y ejecutar consultas de SQL en la IU de BigQuery, además de elegir un número de jersey ganador |
Carga datos en BigQuery (5:31) | Cómo transferir y analizar datos en tiempo real o solo un análisis por lotes de datos único, además de gatos frente a perros |
Visualiza los resultados de las consultas (5:38) | Cómo es útil la visualización de datos para facilitar y comprender los conjuntos de datos complejos |
Administra el acceso con la IAM (5:23) | Cómo permitir que otros usuarios consulten tus conjuntos de datos en BigQuery con permisos de IAM y control de acceso |
Guarda y comparte consultas (6:17) | Cómo guardar y compartir consultas en BigQuery sin complicaciones |
Protege datos sensibles con vistas autorizadas (7:12) | Cómo compartir conjuntos de datos con facilidad con diferentes usuarios mediante la configuración de controles de acceso personalizados |
Consulta datos externos con BigQuery (5:49) | Cómo configurar una fuente de datos externa en BigQuery y consultar datos de Cloud Storage, Cloud SQL, Google Drive y otros servicios |
¿Qué son las funciones definidas por el usuario? (4:59) | Cómo crear funciones definidas por el usuario (UDF) para analizar conjuntos de datos en BigQuery |
¿Qué sigue?
- Si deseas obtener una descripción general del almacenamiento de BigQuery, consulta Descripción general del almacenamiento de BigQuery.
- Si deseas obtener una descripción general de las consultas de BigQuery, consulta Descripción general de las estadísticas de BigQuery.
- Para obtener una descripción general de la administración de BigQuery, consulta Introducción a la administración de BigQuery.
- Si deseas obtener una descripción general de la seguridad de BigQuery, consulta Descripción general de la seguridad y la administración de datos.