Las estadísticas de datos ofrecen una forma automatizada de explorar y comprender tus datos. Usa Gemini para generar consultas basadas en los metadatos de una tabla y te permite descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
En este documento, se describen las funciones clave de las estadísticas de datos y cómo verlas. para una exploración de datos perspicaz.
Antes de comenzar
Las estadísticas de datos se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio. Nombre configurar Gemini en BigQuery luego, generar estadísticas en BigQuery. Después de generar estadísticas, puedes verlas en Dataplex.
Roles obligatorios
Para obtener acceso de solo lectura a las estadísticas generadas, pídele a tu administrador que te otorgue el siguiente rol de IAM:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) en el proyecto que contiene las tablas de BigQuery para las que quieres y ver las estadísticas.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a las cuentas de servicio.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido. Para ver los permisos exactos que se requieran para generar estadísticas, expande la sección Permisos necesarios sección:
Permisos necesarios
dataplex.datascans.get
dataplex.datascans.getData
Habilita las APIs
Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:
Si quieres obtener más información para habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud.
Acerca de las estadísticas de datos
Al explorar una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al inicio en frío, problema. A menudo, el problema implica incertidumbres sobre la estructura de datos, los patrones clave y las estadísticas pertinentes en los datos, lo que dificulta comenzar a escribir consultas. Las estadísticas de datos abordan el problema de inicio en frío generando automáticamente consultas en lenguaje natural y SQL en función de los metadatos de la tabla. En lugar de comenzar con un editor de consultas vacío, puedes iniciar rápidamente la exploración de datos con y significativas que ofrecen estadísticas valiosas. Las consultas generadas con estadísticas de datos se basan en los resultados de la generación de perfiles de datos publicados para mejorar su exactitud y utilidad.
Ejemplo de una ejecución de estadística
Considera una tabla llamada telco_churn
con los siguientes metadatos:
Nombre del campo | Tipo |
---|---|
CustomerID | STRING |
Género | STRING |
Permanencia | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Contrato | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Deserción | BOOLEAN |
Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:
Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identifica qué servicio de Internet tiene los clientes más desertores.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifica las tasas de deserción por segmento entre los clientes valiosos.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Ver estadísticas
Para ver las estadísticas de una tabla de BigQuery, accede al la entrada de la tabla en Dataplex con la Búsqueda de Dataplex.
En la consola de Google Cloud, ve a la página Búsqueda de Dataplex.
Busca la entrada de la tabla en Dataplex.
Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron. Puedes generar estadísticas de datos en BigQuery Studio.
Precios
Para obtener más información sobre los precios de esta función, consulta Descripción general de los precios de Gemini en BigQuery.
Cuotas y límites
Si deseas obtener más información sobre las cuotas y los límites de esta función, consulta Cuotas de Gemini en BigQuery.
Limitaciones
- Las estadísticas de datos están disponibles para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
- Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
- Las estadísticas de datos no admiten tipos de columna
Geo
niJSON
. - Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para Aumentar la probabilidad de generar búsquedas más atractivas, regenerar estadísticas en BigQuery Studio.
¿Qué sigue?
- Aprende a generar estadísticas en BigQuery.
- Obtén información para generar un análisis de perfil de datos.
- Aprende a escribir consultas con la asistencia de Gemini en BigQuery.