Resumen de BigQuery
BigQuery es una plataforma de datos totalmente gestionada y preparada para la IA que te ayuda a gestionar y analizar tus datos con funciones integradas como el aprendizaje automático, la búsqueda, el análisis geoespacial y la inteligencia empresarial. La arquitectura sin servidor de BigQuery te permite usar lenguajes como SQL y Python para responder a las preguntas más importantes de tu organización sin necesidad de gestionar la infraestructura.
BigQuery ofrece una forma uniforme de trabajar con datos estructurados y sin estructurar, y admite formatos de tabla abiertos como Apache Iceberg, Delta y Hudi. El streaming de BigQuery admite la ingestión y el análisis continuos de datos, mientras que el motor de análisis escalable y distribuido de BigQuery te permite consultar terabytes en segundos y petabytes en minutos.
BigQuery ofrece funciones de gobierno integradas que te permiten descubrir y organizar datos, así como gestionar metadatos y la calidad de los datos. Gracias a funciones como la búsqueda semántica y el linaje de datos, puede encontrar y validar datos relevantes para el análisis. Puedes compartir datos y recursos de IA en toda tu organización y disfrutar de las ventajas del control de acceso. Estas funciones se basan en Dataplex Universal Catalog, que es una solución de gobernanza unificada e inteligente para los recursos de datos y de IA en Google Cloud.
La arquitectura de BigQuery consta de dos partes: una capa de almacenamiento que ingiere, almacena y optimiza datos, y una capa de computación que proporciona funciones analíticas. Estas capas de computación y almacenamiento funcionan de forma eficiente e independiente entre sí gracias a la red a escala de petabits de Google, que permite la comunicación necesaria entre ellas.
Las bases de datos antiguas suelen tener que compartir recursos entre operaciones de lectura y escritura, así como operaciones analíticas. Esto puede provocar conflictos de recursos y ralentizar las consultas mientras se escriben o leen datos del almacenamiento. Los grupos de recursos compartidos pueden verse aún más presionados cuando se necesitan recursos para tareas de gestión de bases de datos, como asignar o revocar permisos. La separación de las capas de computación y almacenamiento de BigQuery permite que cada capa asigne recursos de forma dinámica sin que afecte al rendimiento ni a la disponibilidad de la otra.
Este principio de separación permite a BigQuery innovar más rápido, ya que las mejoras de almacenamiento y de computación se pueden implementar de forma independiente, sin tiempo de inactividad ni repercusiones negativas en el rendimiento del sistema. También es fundamental para ofrecer un almacén de datos sin servidor totalmente gestionado en el que el equipo de ingeniería de BigQuery se encarga de las actualizaciones y el mantenimiento. De esta forma, no tendrás que aprovisionar ni escalar recursos manualmente, por lo que podrás centrarte en ofrecer valor en lugar de en las tareas tradicionales de gestión de bases de datos.
Las interfaces de BigQuery incluyen la interfaz de la consola y la herramienta de línea de comandos de BigQuery. Google Cloud Los desarrolladores y los científicos de datos pueden usar bibliotecas de cliente con lenguajes de programación conocidos, como Python, Java, JavaScript y Go, así como la API REST y la API RPC de BigQuery para transformar y gestionar datos. Los controladores ODBC y JDBC permiten interactuar con aplicaciones, herramientas y utilidades de terceros.
Si eres analista de datos, ingeniero de datos, administrador de almacén de datos o científico de datos, BigQuery te ayuda a cargar, procesar y analizar datos para tomar decisiones empresariales cruciales.
Empieza a usar BigQuery
Puedes empezar a explorar BigQuery en cuestión de minutos. Aprovecha el nivel de uso gratuito o el entorno aislado sin coste de BigQuery para empezar a cargar y consultar datos.
- Entorno aislado de BigQuery: empieza a usar el entorno aislado de BigQuery sin coste y sin riesgos.
- Google Cloud Guía de inicio rápido de la consola: familiarízate con las funciones de BigQuery Studio.
- Conjuntos de datos públicos: descubre el rendimiento de BigQuery explorando grandes conjuntos de datos reales del programa de conjuntos de datos públicos.
Descubrir BigQuery
La infraestructura sin servidor de BigQuery te permite centrarte en tus datos en lugar de en la gestión de recursos. BigQuery combina un almacén de datos basado en la nube con potentes herramientas analíticas.
Almacenamiento de BigQuery
BigQuery almacena los datos con un formato de almacenamiento en columnas optimizado para las consultas analíticas. BigQuery presenta los datos en tablas, filas y columnas, y ofrece compatibilidad total con la semántica de las transacciones de bases de datos (ACID). El almacenamiento de BigQuery se replica automáticamente en varias ubicaciones para ofrecer una alta disponibilidad.
- Consulta información sobre los patrones habituales para organizar los recursos de BigQuery en el almacén de datos y los mercados de datos.
- Consulta información sobre los conjuntos de datos, el contenedor de nivel superior de tablas y vistas de BigQuery.
- BigQuery Data Transfer Service automatiza la ingestión de datos.
- Carga datos en BigQuery mediante:
- Transmite datos con la API Storage Write.
- Carga datos por lotes desde archivos locales o de Cloud Storage con formatos como: Avro, Parquet, ORC, CSV, JSON, Datastore y Firestore.
Para obtener más información, consulta la información general sobre el almacenamiento de BigQuery.
Analíticas de BigQuery
Entre los usos del análisis descriptivo y prescriptivo se incluyen la inteligencia empresarial, el análisis ad hoc, la analítica geoespacial y el aprendizaje automático. Puede consultar los datos almacenados en BigQuery o ejecutar consultas sobre los datos allí donde se encuentren mediante tablas externas o consultas federadas, como Cloud Storage, Bigtable, Spanner u Hojas de cálculo de Google almacenadas en Google Drive.
- Consultas SQL estándar ANSI (compatibilidad con SQL:2011), incluida la compatibilidad con combinaciones, campos anidados y repetidos, funciones analíticas y de agregación, consultas de varias instrucciones y una variedad de funciones espaciales con analíticas geoespaciales (sistemas de información geográfica).
- Crea vistas para compartir tu análisis.
- Compatibilidad con herramientas de inteligencia empresarial, como Hojas de cálculo de Google y herramientas de terceros, como Tableau y Power BI. BI Engine con Looker Studio, Looker, Hojas de cálculo de Google y herramientas de terceros como Tableau y Power BI.
- BigQuery ML proporciona aprendizaje automático y analíticas predictivas.
- BigQuery Studio ofrece funciones como cuadernos de Python y control de versiones tanto para cuadernos como para consultas guardadas. Estas funciones te facilitan la realización de tus flujos de trabajo de análisis de datos y aprendizaje automático (ML) en BigQuery.
- Consulta datos fuera de BigQuery con consultas federadas y tablas externas.
Para obtener más información, consulta la descripción general de las analíticas de BigQuery.
Administración de BigQuery
BigQuery ofrece una gestión centralizada de los recursos de datos y de computación, mientras que Gestión de Identidades y Accesos (IAM) te ayuda a proteger esos recursos con el modelo de acceso que se usa en todo Google Cloud. Las Google Cloud prácticas recomendadas de seguridad proporcionan un enfoque sólido y flexible que puede incluir seguridad perimetral o un enfoque de defensa en profundidad más complejo y granular.
- Introducción a la seguridad y el gobierno de datos te ayuda a entender el gobierno de datos y los controles que puedes necesitar para proteger los recursos de BigQuery.
- Las tareas son acciones que BigQuery ejecuta en tu nombre para cargar, exportar, consultar o copiar datos.
- Reservas te permite cambiar entre precios bajo demanda y precios basados en la capacidad.
Para obtener más información, consulta la introducción a la administración de BigQuery.
Recursos de BigQuery
Explorar recursos de BigQuery:
- Las notas de la versión proporcionan registros de cambios de funciones, modificaciones y obsolescencias.
- Precios del análisis y el almacenamiento. Consulta también los precios de BigQuery ML, BI Engine y Data Transfer Service.
- Las ubicaciones definen dónde se crean y almacenan los conjuntos de datos (ubicaciones regionales y multirregionales).
- Stack Overflow alberga una comunidad activa de desarrolladores y analistas que trabajan con BigQuery.
- El equipo de Asistencia de BigQuery puede ayudarte con BigQuery.
- Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale de Valliappa Lakshmanan y Jordan Tigani explica cómo funciona BigQuery y ofrece una guía completa sobre cómo usar el servicio.
APIs, herramientas y referencias
Materiales de referencia para desarrolladores y analistas de BigQuery:
- La API de BigQuery y las bibliotecas de cliente ofrecen información general sobre las funciones de BigQuery y su uso.
- Sintaxis de las consultas de SQL para obtener más información sobre cómo usar GoogleSQL.
- Los códigos de ejemplo de BigQuery proporcionan cientos de fragmentos de código para bibliotecas de cliente en C#, Go, Java, Node.js, Python y Ruby. También puedes consultar el navegador de ejemplo.
- La sintaxis de DML, DDL y funciones definidas por el usuario (UDF) te permite gestionar y transformar tus datos de BigQuery.
- La referencia de la herramienta de línea de comandos bq
documenta la sintaxis, los comandos, las marcas y los argumentos de la interfaz de la CLI
bq
. - Integración de ODBC y JDBC: conecta BigQuery con tu infraestructura y tus herramientas actuales.
Funciones de Gemini en BigQuery
Gemini en BigQuery forma parte de la suite de productos Gemini for Google Cloud, que proporciona asistencia basada en IA para ayudarte a trabajar con tus datos.
Gemini en BigQuery ofrece asistencia basada en IA para ayudarte a hacer lo siguiente:
- Explora y comprende tus datos con estadísticas. Estadísticas de datos ofrece una forma automatizada e intuitiva de descubrir patrones y realizar análisis estadísticos mediante consultas útiles que se generan a partir de los metadatos de sus tablas. Esta función es especialmente útil para abordar los retos de arranque en frío de la exploración de datos inicial. Para obtener más información, consulta el artículo sobre cómo generar estadísticas de datos en BigQuery.
- Descubre, transforma, consulta y visualiza datos con el lienzo de datos de BigQuery. Puedes usar el lenguaje natural con Gemini en BigQuery para buscar, combinar y consultar recursos de tablas, visualizar resultados y colaborar con otros usuarios a lo largo de todo el proceso. Para obtener más información, consulta el artículo Analizar con el lienzo de datos.
- Obtener análisis de datos asistido en SQL y Python. Puedes usar Gemini en BigQuery para generar o sugerir código en SQL o Python, así como para explicar una consulta SQL. También puede usar consultas en lenguaje natural para empezar a analizar los datos. Para
consultar cómo generar, completar y resumir código, consulta la siguiente documentación:
- Asistencia de código SQL
- Asistencia de código de Python
- Prepara los datos para el análisis. La preparación de datos en BigQuery te ofrece recomendaciones de transformación generadas por IA y adaptadas al contexto para limpiar los datos y poder analizarlos. Para obtener más información, consulta Preparar datos con Gemini.
- Personaliza tus traducciones de SQL con reglas de traducción. Vista previa Crea reglas de traducción mejoradas con Gemini para personalizar tus traducciones de SQL cuando utilices el traductor de SQL interactivo. Puedes describir los cambios que quieres hacer en el resultado de la traducción de SQL mediante peticiones de lenguaje natural o especificar patrones de SQL para buscar y reemplazar. Para obtener más información, consulta el artículo Crear una regla de traducción.
Para saber cómo configurar Gemini en BigQuery, consulta el artículo Configurar Gemini en BigQuery.
Roles y recursos de BigQuery
BigQuery satisface las necesidades de los profesionales de datos en los siguientes puestos y responsabilidades.
Analista de datos
Guía de tareas para ayudarte si necesitas hacer lo siguiente:
- Consultar datos de BigQuery con consultas interactivas o por lotes mediante la sintaxis de consultas SQL
- Consulta las funciones, los operadores y las expresiones condicionales de SQL para consultar datos.
Usa herramientas para analizar y visualizar datos de BigQuery, como Looker, Looker Studio y Hojas de cálculo de Google.
Usa las analíticas geoespaciales para analizar y visualizar datos geoespaciales con los sistemas de información geográfica de BigQuery.
Optimizar el rendimiento de las consultas con lo siguiente:
- Tablas con particiones: recorta tablas grandes en función de intervalos de tiempo o de números enteros.
- Vistas materializadas: define vistas almacenadas en caché para optimizar las consultas o proporcionar resultados persistentes.
- BI Engine: servicio de análisis en memoria de alta velocidad de BigQuery.
Para hacer un recorrido por las funciones de analíticas de datos de BigQuery directamente en la Google Cloud consola, haz clic en Hacer el recorrido.
Administrador de datos
Guía de tareas para ayudarte si necesitas hacer lo siguiente:
- Gestiona los costes con reservas para equilibrar los precios en función de la demanda y de la capacidad.
- Conocer la seguridad y el gobierno de los datos para proteger los datos por conjunto de datos, tabla, columna, fila o vista
- Crea copias de seguridad de los datos con capturas de tablas para conservar el contenido de una tabla en un momento concreto.
- Consulta INFORMATION_SCHEMA de BigQuery para conocer los metadatos de los conjuntos de datos, los trabajos, el control de acceso, las reservas, las tablas y más.
- Usa tareas para que BigQuery cargue, exporte, consulte o copie datos en tu nombre.
- Monitoriza los registros y los recursos para comprender BigQuery y las cargas de trabajo.
Para obtener más información, consulta la introducción a la administración de BigQuery.
Para hacer un recorrido por las funciones de administración de datos de BigQuery directamente en la Google Cloud consola, haz clic en Hacer el recorrido.
Científico de datos
Guía de tareas para ayudarte si necesitas usar el aprendizaje automático de BigQuery ML para hacer lo siguiente:
- Conocer el recorrido de usuario completo de los modelos de aprendizaje automático
- Gestionar el control de acceso de BigQuery ML
- Crea y entrena modelos de BigQuery ML
incluyendo lo siguiente:
- Previsión con regresión lineal
- Clasificaciones de regresión logística binaria y logística multiclase
- Agrupamiento K-medias para la segmentación de datos
- Previsión de series temporales con modelos Arima+
Desarrollador de datos
Guía de tareas para ayudarte si necesitas hacer lo siguiente:
- Carga datos en BigQuery con:
- Carga de datos por lotes para los formatos Avro, Parquet, ORC, CSV, JSON, Datastore y Firestore
- BigQuery Data Transfer Service
- API Storage Write de BigQuery
Usa la biblioteca de códigos de ejemplo, que incluye lo siguiente:
Google Cloud Navegador de ejemplos (con ámbito de BigQuery)
Tutoriales en vídeo de BigQuery
En la siguiente serie de videotutoriales se explica cómo empezar a usar BigQuery:
Título |
Descripción |
---|---|
Cómo empezar a usar BigQuery (17:18) | Descripción general de BigQuery y cómo usarlo. Entre los temas que se tratan se incluyen las canalizaciones de ETL, los precios y la optimización, BigQuery ML y BI Engine, y se termina con una demostración de BigQuery en la consola de Google Cloud . |
¿Qué es BigQuery? (4:39) | Descripción general de BigQuery sobre cómo se ha diseñado para ingerir y almacenar grandes cantidades de datos con el fin de ayudar a analistas y desarrolladores |
Usar el entorno aislado de BigQuery (3:05) | Cómo configurar un entorno aislado de BigQuery para ejecutar consultas sin necesidad de una tarjeta de crédito |
Hacer preguntas y ejecutar consultas (5:11) | Cómo escribir y ejecutar consultas de SQL en la interfaz de BigQuery, además de elegir un número de camiseta ganador |
Cargar datos en BigQuery (5:31) | Cómo ingerir y analizar datos en tiempo real, o simplemente un análisis de datos por lotes único, además de gatos contra perros |
Visualizar los resultados de una consulta (5:38) | Cómo ayuda la visualización de datos a comprender y asimilar conjuntos de datos complejos |
Gestionar el acceso con IAM (5:23) | Cómo permitir que otros usuarios consulten tus conjuntos de datos en BigQuery con permisos de gestión de identidades y accesos y control de acceso |
Guardar y compartir consultas (6:17) | Cómo guardar y compartir tus consultas en BigQuery sin complicaciones |
Protección de datos sensibles con vistas autorizadas (7:12) | Cómo compartir conjuntos de datos con diferentes usuarios configurando controles de acceso personalizados |
Consultar datos externos con BigQuery (5:49) | Cómo configurar una fuente de datos externa en BigQuery y consultar datos de Cloud Storage, Cloud SQL, Google Drive y más |
¿Qué son las funciones definidas por el usuario? (4:59) | Cómo crear funciones definidas por el usuario (UDFs) para analizar conjuntos de datos en BigQuery |
Siguientes pasos
- Para obtener una descripción general del almacenamiento de BigQuery, consulta Información general sobre el almacenamiento de BigQuery.
- Para ver una descripción general de las consultas de BigQuery, consulta Descripción general de los análisis de BigQuery.
- Para obtener una descripción general de la administración de BigQuery, consulta el artículo Introducción a la administración de BigQuery.
- Para obtener una descripción general de la seguridad de BigQuery, consulta Descripción general de la seguridad y la gestión de datos.