Se usó la API de Cloud Translation para traducir esta página.

Accede a las estadísticas de datos en Dataplex

Las estadísticas de datos ofrecen una forma automatizada de explorar y comprender tus datos. Con las estadísticas de datos, Gemini usa metadatos para generar preguntas en lenguaje natural sobre tu tabla y las consultas para responderlas. Esto te permite descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

En este documento, se describen las características clave de las estadísticas de datos y cómo verlas para la exploración de datos valiosa.

Antes de comenzar

Las estadísticas de datos se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio. Primero, configura Gemini en BigQuery y, luego, genera estadísticas en BigQuery. Gemini procesa tus metadatos para obtener estadísticas exclusivamente en la región us-central1. Para obtener más información, consulta Ubicaciones de publicación de Gemini. Después de generar estadísticas, puedes verlas en Dataplex.

Roles obligatorios

Para obtener acceso de solo lectura a las estadísticas generadas, pídele a tu administrador que te otorgue el siguiente rol de IAM:

Visualizador de datos de DataScan de Dataplex (roles/dataplex.dataScanDataViewer) en el proyecto que contiene las tablas de BigQuery para las que deseas ver estadísticas.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido. Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos necesarios:

Permisos necesarios

dataplex.datascans.get
dataplex.datascans.getData

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud.

Acerca de las estadísticas de datos

Cuando exploran una tabla nueva y desconocida, los analistas de datos a menudo se enfrentan al problema de inicio en frío. A menudo, el problema implica incertidumbres sobre la estructura de datos, los patrones clave y las estadísticas pertinentes en los datos, lo que dificulta comenzar a escribir consultas.

Las estadísticas de datos abordan el problema de inicio en frío generando automáticamente consultas de lenguaje natural y sus equivalentes en SQL en función de los metadatos de una tabla. En lugar de comenzar con un editor de consultas vacío, puedes iniciar rápidamente la exploración de datos con consultas significativas que ofrezcan estadísticas valiosas. Para investigar más, puedes hacer preguntas adicionales en el lienzo de datos.

Ejemplo de una ejecución de estadística

Considera una tabla llamada telco_churn con los siguientes metadatos:

Nombre del campo	Tipo
CustomerID	`STRING`
Género	`STRING`
Permanencia	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
Contrato	`STRING`
TechSupport	`STRING`
PaymentMethod	`STRING`
MonthlyCharges	`FLOAT`
Deserción	`BOOLEAN`

Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:

Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

Identifica qué servicio de Internet tiene los clientes más desertores.

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

Identifica las tasas de deserción por segmento entre los clientes valiosos.

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

Ver estadísticas

Para ver las estadísticas de una tabla de BigQuery, accede a la entrada de la tabla en Dataplex con la Búsqueda de Dataplex.

En la consola de Google Cloud, ve a la página Búsqueda de Dataplex.

Ir a Búsqueda de Dataplex
Busca la entrada de la tabla en Dataplex.
Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron. Puedes generar estadísticas de datos en BigQuery Studio.

Precios

Para obtener detalles sobre los precios de esta función, consulta la descripción general de los precios de Gemini en BigQuery.

Cuotas y límites

Si deseas obtener más información sobre las cuotas y los límites de esta función, consulta Cuotas de Gemini en BigQuery.

Limitaciones

Las estadísticas de datos están disponibles para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
Las estadísticas de datos no admiten tipos de columna Geo ni JSON.
Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, vuelve a generar las estadísticas en BigQuery Studio.

¿Qué sigue?

Aprende a generar estadísticas en BigQuery.
Obtén información para generar un análisis de perfil de datos.
Aprende a escribir consultas con la asistencia de Gemini en BigQuery.