Genera estadísticas de datos en BigQuery

Para obtener asistencia, envía un correo electrónico a dataplex-data-insights-help@google.com.

Las estadísticas de datos ofrecen una forma automatizada de explorar y comprender tus datos. Usa Gemini para generar consultas basadas en los metadatos de una tabla y te permite descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

En este documento, se describen las características clave de las estadísticas de datos y el proceso para automatizar la generación de consultas para la exploración de datos valiosa.

Acerca de las estadísticas de datos

Los analistas de datos se enfrentan al problema de inicio en frío en la exploración de datos cuando exploran un conjunto de datos nuevo con poco o ningún conocimiento previo. A menudo, el problema implica incertidumbres sobre la estructura de datos, los patrones clave y las estadísticas relevantes. Mediante la generación automática de consultas basadas en metadatos, las estadísticas de datos abordan el problema de inicio en frío en la exploración de datos. Las estadísticas proporcionan indicaciones valiosas que te ayudan a tomar decisiones fundamentadas y a obtener estadísticas más detalladas sobre tus datos. En lugar de comenzar con una cortinilla de video en blanco, puedes iniciar más rápido la exploración de datos con consultas significativas que ofrezcan estadísticas valiosas.

Las consultas generadas con estadísticas de datos se basan en los datos de análisis de perfil publicados. Estadísticas de datos usa datos de análisis de perfil publicados para crear consultas que entreguen resultados, lo que proporciona una recuperación de información eficiente y confiable. Esto acelera mucho el inicio del proceso de análisis de datos y te permite profundizar en los datos con una dirección y un propósito más claros.

Las estadísticas de datos sirven como una herramienta de guía que resuelve el desafío común de navegar por conjuntos de datos desconocidos, lo que te permite tomar decisiones fundamentadas y descubrir patrones con mayor rapidez durante la exploración de datos.

Ejemplo de una ejecución de estadística

Considera una tabla llamada telco_churn con los siguientes metadatos:

Nombre del campo Tipo
CustomerID STRING
Gender STRING
Tenure INT64
PhoneService STRING
OnlineBackup STRING
Dependents BOOLEAN
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:

  • Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Identifica qué servicio de Internet tiene los clientes más desertores.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica las tasas de deserción por segmento entre los clientes valiosos.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Acerca de la fundamentación de estadísticas con análisis de perfiles

Las estadísticas de datos usan los datos del análisis de perfiles publicados para mejorar la exactitud de las consultas generadas. Los datos de análisis de perfiles proporcionan información valiosa sobre la distribución de datos, los tipos de datos y los resúmenes estadísticos del conjunto de datos.

Acerca de los datos de análisis de perfiles

Los datos de análisis de perfiles son los metadatos que describen el contenido de una tabla. Incluyen la siguiente información:

  • Tipos de datos de columnas
  • Valores mínimos y máximos
  • Distribución de valores
  • Valores nulos o faltantes
  • Valores principales
  • Valores únicos y sus frecuencias

Las estadísticas de datos usan esta información para generar consultas personalizadas para una tabla específica.

Cómo las estadísticas de datos fundamentan las consultas con los datos de análisis de perfiles

Las estadísticas de datos usan datos de análisis de perfiles para crear consultas basadas en la distribución de datos y los patrones reales dentro del conjunto de datos. Este proceso implica los siguientes pasos:

  • Analizar los datos de análisis de perfil para identificar patrones, tendencias o valores atípicos interesantes en los datos
  • Generar consultas que se centren en estos patrones, tendencias o valores atípicos para descubrir estadísticas
  • Validar las consultas generadas con los datos del análisis de perfil para garantizar que las consultas muestren resultados significativos

Sugerencias para maximizar los beneficios de las estadísticas de datos

Las consultas fundamentadas garantizan que las estadísticas que obtengas sean precisas, relevantes y prácticas, lo que te permite tomar mejores decisiones basadas en datos. Para aprovechar al máximo las consultas basadas en los datos de análisis de perfil, sigue estas sugerencias:

  • Asegúrate de que tu tabla tenga datos de análisis de perfil publicados y actualizados. Esto ayuda a que las estadísticas de datos generen consultas más precisas y relevantes.
  • Revisa las consultas generadas para comprender cómo se basan en los datos de análisis de perfil. Esto te permite interpretar los resultados y obtener estadísticas más detalladas sobre tus datos.
  • Ajusta la configuración del análisis de perfil de tu tabla o proporciona contexto adicional a las estadísticas de datos si las consultas generadas no son relevantes o útiles.

Precios

La función de estadísticas de datos de BigQuery no se factura durante la vista previa.

Limitaciones

  • Las estadísticas de datos están disponibles para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
  • Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
  • Las estadísticas de datos no admiten tipos de columna Geo ni JSON.
  • Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, reinicia la canalización de estadísticas.
  • Para las tablas con control de acceso (LCA) a nivel de columna y permisos de usuario restringidos, puedes generar estadísticas si tienes acceso de lectura a todas las columnas de la tabla. Para ejecutar las consultas generadas, debes tener permisos suficientes.

Antes de comenzar

Roles y permisos requeridos

A fin de obtener los permisos que necesitas para usar las estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM en el proyecto:

  • Ejecuta la canalización de estadísticas:

    • Rol de IAM Usuario complementario de Cloud AI (roles/cloudaicompanion.user) en la cuenta de servicio del proyecto en el que activas el análisis de estadísticas.

      La dirección de correo electrónico de la cuenta de servicio tiene el siguiente formato:

      service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com

    • Permiso dataplex.datascans.create en el proyecto

    • Permiso bigquery.tables.getData en la tabla de BigQuery

    • Acceso de lectura a todas las columnas de la tabla

  • Visualiza las estadísticas generadas:

    • dataplex.datascans.getData en el análisis de datos generado
  • Fundamenta consultas mediante el análisis de perfiles:

    • Rol de IAM de BigQuery DataScan DataViewer (roles/dataplex.dataScanDataViewer) en la cuenta de servicio (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)

    • Permiso dataplex.datascans.getData en el análisis de perfil de datos publicado

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a las cuentas de servicio.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:

Para obtener más información para habilitar la API de Gemini, consulta Activa Gemini Code Assist en un proyecto de Google Cloud.

Genera estadísticas para una tabla de BigQuery

A fin de generar estadísticas para una tabla de BigQuery, debes acceder a la entrada de la tabla en BigQuery mediante BigQuery Studio.

  1. En la consola de Google Cloud, ve a BigQuery Studio.

    Ve a BigQuery Studio

  2. Busca la entrada de la tabla en BigQuery.

  3. Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.

  4. Para activar la canalización de estadísticas, haz clic en Generar estadísticas.

    Las estadísticas tardan entre 5 y 10 minutos en propagarse.

    Si se puede acceder a un análisis de perfil publicado para la tabla, se usará a fin de generar estadísticas completas. De lo contrario, las estadísticas se formulan en función de los nombres de las columnas y sus respectivas descripciones. Este enfoque garantiza que recibas estadísticas sin importar la disponibilidad de un análisis de perfil.

  5. En la pestaña Estadísticas, explora las consultas generadas y sus descripciones.

  6. Para abrir una consulta en BigQuery, haz clic en Abrir en BigQuery.

  7. Para generar un conjunto de consultas nuevo, haz clic en Generar estadísticas y vuelve a activar la canalización.

Genera estadísticas para una tabla externa de BigQuery

Las estadísticas de datos de BigQuery admiten tablas externas de BigQuery que se encuentran en el mismo proyecto de Google Cloud. Si la tabla de BigQuery hace referencia a datos almacenados en Cloud Storage en otro proyecto de Google Cloud, la generación de estadísticas falla.

A fin de generar estadísticas para una tabla externa de BigQuery, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.

Genera estadísticas para una tabla de BigLake

Para generar estadísticas para una tabla de BigLake, sigue estos pasos:

  1. Habilita la API de conexión de BigQuery en tu proyecto.

    Habilita la API de conexión de BigQuery

  2. Crea una conexión de BigQuery. Para obtener más información, consulta Administra conexiones.

  3. Otórgale el rol de IAM Visualizador de objetos de almacenamiento (roles/storage.objectViewer) a la cuenta de servicio correspondiente a la conexión de BigQuery que creaste.

    Puedes recuperar el ID de la cuenta de servicio desde los detalles de conexión.

  4. Para generar estadísticas, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.

¿Qué sigue?