Genera estadísticas de datos en BigQuery
Las estadísticas de datos ofrecen una forma automatizada de explorar y comprender tus datos. Con las estadísticas de datos, Gemini usa metadatos para generar preguntas en lenguaje natural sobre tu tabla y las consultas para responderlas. Esto te permite descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
En este documento, se describen las características clave de las estadísticas de datos y el proceso para automatizar la generación de consultas para la exploración de datos valiosa.
Antes de comenzar
Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery. Es posible que Gemini no procese tus datos en la misma región en la que se almacenan. Para obtener más información, consulta Ubicaciones de publicación de Gemini.
Roles obligatorios
Para crear, administrar y recuperar estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:
Editor de DataScan de Dataplex (
roles/dataplex.dataScanEditor
) o Administrador de DataScan de Dataplex (roles/dataplex.dataScanAdmin
) en el proyecto en el que deseas generar estadísticas.Visualizador de datos de BigQuery (
roles/bigquery.dataViewer
) en las tablas de BigQuery para las que deseas generar estadísticas.Editor de datos de BigQuery (
roles/bigquery.dataEditor
) en las tablas de BigQuery para las que deseas generar estadísticas.Usuario de BigQuery (
roles/bigquery.user
) o Usuario de BigQuery Studio (roles/bigquery.studioUser
) en el proyecto en el que quieres generar estadísticas.
Para obtener acceso de solo lectura a las estadísticas generadas, pídele a tu administrador que te otorgue el siguiente rol de IAM:
- Visualizador de datos de DataScan de Dataplex (
roles/dataplex.dataScanDataViewer
) en el proyecto que contiene las tablas de BigQuery para las que deseas ver estadísticas.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a las cuentas de servicio.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido. Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos necesarios:
Permisos necesarios
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
Habilita las APIs
Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:
Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud.
Acerca de las estadísticas de datos
Cuando exploran una tabla nueva y desconocida, los analistas de datos a menudo se enfrentan al problema de inicio en frío. A menudo, el problema implica incertidumbres sobre la estructura de datos, los patrones clave y las estadísticas pertinentes en los datos, lo que dificulta comenzar a escribir consultas.
Las estadísticas de datos abordan el problema de inicio en frío generando automáticamente consultas de lenguaje natural y sus equivalentes en SQL en función de los metadatos de una tabla. En lugar de comenzar con un editor de consultas vacío, puedes iniciar rápidamente la exploración de datos con consultas significativas que ofrezcan estadísticas valiosas. Para investigar más, puedes hacer preguntas adicionales en el lienzo de datos.
Ejemplo de una ejecución de estadística
Considera una tabla llamada telco_churn
con los siguientes metadatos:
Nombre del campo | Tipo |
---|---|
CustomerID | STRING |
Género | STRING |
Permanencia | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Contrato | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Deserción | BOOLEAN |
Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:
Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identifica qué servicio de Internet tiene los clientes más desertores.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifica las tasas de deserción por segmento entre los clientes valiosos.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Prácticas recomendadas
Para mejorar la precisión de las estadísticas generadas, sigue estas prácticas recomendadas:
Basar las estadísticas en los resultados de la generación de perfiles de datos
En la IA generativa, los fundamentos son la capacidad de conectar el resultado del modelo con fuentes de información verificables. Puedes basar las estadísticas generadas en los resultados de la creación de perfiles de datos. La creación de perfiles de datos analiza las columnas de tus tablas de BigQuery y, luego, identifica las características estadísticas comunes, como los valores de datos y la distribución de datos típicos. Cuando creas un análisis de generación de perfiles de datos para una tabla, puedes elegir publicar los resultados del análisis en BigQuery y Dataplex Catalog. BigQuery usa los resultados de la generación de perfiles de datos para crear consultas más precisas y relevantes haciendo lo siguiente:
- Analiza los resultados de la generación de perfiles de datos para identificar patrones, valores atípicos o tendencias interesantes en los datos.
- Genera consultas que se centren en estos patrones, tendencias o valores atípicos para descubrir estadísticas.
- Valida las consultas generadas con los resultados del perfilamiento de datos para garantizar que las consultas muestren resultados significativos.
Sin análisis de perfiles de datos, es más probable que las consultas que genera Gemini incluyan cláusulas imprecisas o produzcan resultados sin sentido.
Asegúrate de que el análisis de perfiles de datos de tu tabla esté actualizado y de que los resultados se publiquen en BigQuery.
Puedes ajustar la configuración de perfilado de datos para aumentar el tamaño del muestreo yfiltrar filas y columnas. Después de ejecutar un nuevo análisis de perfiles de datos, regenera las estadísticas.
Agrega una descripción de la tabla
Las descripciones detalladas de las tablas que describen lo que deseas analizar en ellas pueden ayudar a Gemini en BigQuery a generar estadísticas más relevantes. Después de agregar una descripción de la tabla, regenera las estadísticas.
Por ejemplo, puedes agregar la siguiente descripción a la tabla telco_churn
: "Esta tabla realiza un seguimiento de los datos de deserción de clientes, incluidos los detalles de la suscripción, la antigüedad y el uso del servicio, para predecir el comportamiento de deserción de los clientes".
Agrega descripciones de columnas
Las descripciones de las columnas que explican qué es cada una o cómo se relaciona una con otra pueden mejorar la calidad de tus estadísticas. Después de actualizar las descripciones de las columnas en tu tabla, vuelve a generar las estadísticas.
Por ejemplo, puedes agregar las siguientes descripciones a columnas específicas de la tabla telco_churn
:
Tenure
: “La cantidad de meses que el cliente lleva con el servicio”.Churn
: "Si el cliente dejó de usar el servicio. VERDADERO indica que el cliente ya no usa el servicio, FALSO indica que el cliente está activo".
Genera estadísticas para una tabla de BigQuery
Para generar estadísticas para una tabla de BigQuery, debes acceder a la entrada de la tabla en BigQuery mediante BigQuery Studio.
En la consola de Google Cloud, ve a BigQuery Studio.
En el panel Explorador, selecciona la tabla para la que deseas generar estadísticas.
Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.
Para activar la canalización de estadísticas, haz clic en Generar estadísticas.
Las estadísticas tardan unos minutos en propagarse.
Si los resultados de la creación de perfiles de datos publicados para la tabla están disponibles, se usan para generar estadísticas. De lo contrario, las estadísticas se generan en función de los nombres y las descripciones de las columnas.
En la pestaña Estadísticas, explora las preguntas generadas en lenguaje natural.
Para ver la consulta en SQL que responde una pregunta, haz clic en ella.
Para abrir una consulta en BigQuery, haz clic en Copiar en consulta.
Para hacer preguntas de seguimiento, haz lo siguiente:
Haz clic en Pedir una pregunta adicional. La consulta se abrirá en un nuevo lienzo de datos.
Haz clic en Ejecutar y, luego, en Consultar estos resultados.
Para hacer una pregunta adicional, ingresa una instrucción en el campo de instrucción Lenguaje natural o edita la SQL en el editor de consultas.
Para generar un conjunto de consultas nuevo, haz clic en Generar estadísticas y vuelve a activar la canalización.
Después de generar estadísticas para una tabla, cualquier persona que tenga el permiso dataplex.datascans.getData
y acceso a la tabla puede ver esas estadísticas.
Genera estadísticas para una tabla externa de BigQuery
Las estadísticas de datos de BigQuery admiten la generación de estadísticas para las tablas externas de BigQuery con datos en Cloud Storage.
Tú y la cuenta de servicio de Dataplex del proyecto actual deben tener el rol de visualizador de objetos de almacenamiento (roles/storage.objectViewer
) en el bucket de Cloud Storage que contiene los datos. Para obtener más información, consulta Agrega una principal a una política a nivel del bucket.
A fin de generar estadísticas para una tabla externa de BigQuery, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.
Genera estadísticas para una tabla de BigLake
Para generar estadísticas para una tabla de BigLake, sigue estos pasos:
Habilita la API de conexión de BigQuery en tu proyecto.
Crea una conexión de BigQuery. Para obtener más información, consulta Administra conexiones.
Otórgale el rol de IAM de visualizador de objetos de almacenamiento (
roles/storage.objectViewer
) a la cuenta de servicio correspondiente a la conexión de BigQuery que creaste.Puedes recuperar el ID de la cuenta de servicio desde los detalles de conexión.
Para generar estadísticas, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.
Precios
Para obtener detalles sobre los precios de esta función, consulta la descripción general de los precios de Gemini en BigQuery.
Cuotas y límites
Si deseas obtener más información sobre las cuotas y los límites de esta función, consulta Cuotas de Gemini en BigQuery.
Limitaciones
- Las estadísticas de datos están disponibles para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
- Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
- Las estadísticas de datos no admiten tipos de columna
Geo
niJSON
. - Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, reinicia la canalización de estadísticas.
- Para las tablas con control de acceso (LCA) a nivel de columna y permisos de usuario restringidos, puedes generar estadísticas si tienes acceso de lectura a todas las columnas de la tabla. Para ejecutar las consultas generadas, debes tener permisos suficientes.
¿Qué sigue?
- Obtén más información sobre la generación de perfiles de datos de Dataplex.
- Aprende a escribir consultas con la asistencia de Gemini en BigQuery.