Genera estadísticas de perfil de datos con análisis

En este documento, se explica cómo usar BigQuery y Dataplex en conjunto para comprender mejor tus datos. BigQuery usa Dataplex para analizar las características estadísticas de tus datos, como valores promedio, valores únicos y valores máximos. Dataplex también usa esta información para recomendar reglas para las verificaciones de calidad de los datos.

Para obtener más información sobre la generación de perfiles de datos, consulta Acerca de la generación de perfiles de datos.

Antes de comenzar

  • Para crear y modificar análisis en tu proyecto: habilita la API de Dataplex.

    Habilitar la API de Dataplex

  • Para análisis entre proyectos: crea un identificador de servicio de Dataplex con el comando gcloud beta services identity create. Si no existe un identificador de servicio de Dataplex, este comando muestra uno nuevo. Si ya existe un identificador de servicio, el comando muestra el existente. Es posible que este comando te solicite instalar el componente de comandos beta de gcloud CLI.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Roles obligatorios

Solicita al administrador que otorgue los siguientes roles a las principales de la cuenta adecuadas en los casos de uso a los que necesiten acceso. Si quieres obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Funciones de BigQuery

  • Visualizador de datos de BigQuery en una tabla para crear un análisis en esa tabla sin publicar los resultados.
  • Editor de datos de BigQuery en una tabla para crear un análisis en esa tabla con publicación.
  • Si la tabla de BigQuery y el análisis del perfil de datos están en proyectos diferentes, debes otorgar al permiso de lectura principal o Dataplex asociado el permiso de lectura bigquery.tables.getData (o el rol Visualizador de datos de BigQuery) en la tabla de BigQuery correspondiente. Para obtener la identidad de servicio para una cuenta de servicio, consulta Antes de comenzar.
  • Si analizas una tabla externa de BigQuery desde Cloud Storage, asigna el rol de Cloud Storage (roles/storage.objectViewer) a la cuenta de servicio de Dataplex.

Roles de Dataplex

  • Administrador de DataScan de Dataplex a nivel de proyecto para crear análisis.
  • Editor de DataScan de Dataplex en un análisis para editar las propiedades de un análisis (excepto los permisos), ejecuta el análisis y bórralo.
  • Visualizador de datos de DataScan de Dataplex en un análisis para ver los resultados de un análisis.

Estos roles contienen los permisos necesarios para los casos de uso anteriores. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos.

Permisos necesarios

Los siguientes permisos son necesarios para usar varios aspectos de los análisis de perfiles de los datos:

  • Para cambiar la configuración de un análisis de datos: dataplex.datascans.update, en el recurso de análisis de datos
  • Para cambiar la política de un análisis de datos: dataplex.datascans.setIamPolicy, en el recurso de análisis de datos
  • Para crear un análisis de datos en una tabla de BigQuery, bigquery.tables.getData, la tabla que se analizará
  • Para crear análisis de datos en un proyecto: dataplex.datascans.create, en el proyecto
  • Para borrar un análisis de datos: dataplex.datascans.delete, en el recurso de análisis de datos
  • Para exportar los resultados del análisis de datos a un conjunto de datos de BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update y bigquery.tables.updateData, el conjunto de datos de destino
  • Para publicar los resultados de un análisis de datos en una tabla: bigquery.tables.update, la tabla de destino
  • Para ejecutar un análisis de datos: dataplex.datascans.run, en el recurso de análisis de datos
  • Para analizar una tabla externa desde Cloud Storage: storage.buckets.get, storage.objects.get, el bucket que contiene las tablas que se analizarán
  • Para ver los resultados de un análisis de datos: dataplex.datascans.getData, en el recurso de análisis de datos
  • Para ver los resultados de un análisis de datos: dataplex.datascans.get, en el recurso de análisis de datos
  • Para ver los resultados de un análisis de datos: dataplex.datascans.list, en el recurso de análisis de datos

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Crea un análisis de perfil de datos

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, haz clic en una tabla para el análisis de perfil de los datos.

  3. Haz clic en la pestaña Perfil de datos.

  4. Haz clic en Análisis de perfil de los datos > Crear análisis nuevo.

  5. Opcional: Edita los siguientes valores:

    • Nombre visible: el nombre mutable del recurso en la consola.
    • ID: un identificador único para el análisis. No se puede cambiar después de crear el análisis.
    • Descripción: una descripción del análisis.
    • Región: define la región en la que se procesa el análisis de datos.
    • Alcance: el rango de datos disponibles para el análisis. Selecciona Datos incrementales o Datos completos. Si eliges Datos incrementales, te recomendamos incluir una columna DATE o TIMESTAMP que aumente de forma lineal. Esta columna se puede usar para identificar registros nuevos. Para las tablas particionadas en columnas de tipo DATE o TIMESTAMP, se recomienda usar la columna de partición como el campo de marca de tiempo.
    • Filtros: se aplican a los datos antes de que se ejecute el análisis. Puedes seleccionar Filtrar filas, Filtrar columnas o ambas.
      • Para filtrar filas, selecciona la casilla de verificación Filtrar filas y, luego, ingresa una expresión de SQL válida en el campo de texto de entrada. La expresión debe estar en la sintaxis de SQL estándar de BigQuery y se puede usar en una cláusula WHERE.
      • Para filtrar columnas, selecciona la casilla de verificación Filtrar columnas y completa el campo Incluir columnas, el campo Excluir columnas, o ambos.
    • Tamaño de muestreo: el porcentaje de datos que deseas muestrear. Para los análisis de datos incrementales, solo se muestrea el incremento más reciente.
    • Publicar los resultados en la IU de BigQuery y Data Catalog: esta opción hace que los resultados más recientes del análisis de generación de perfiles de datos estén disponibles en la IU de BigQuery, en el perfil de datos de la tabla de origen. Si se ejecuta un análisis y está configurado para publicarse, es posible que esta opción no esté disponible.
    • Programa: A pedido (predeterminado) o Repetir. Si seleccionas Repetir, especifica la frecuencia del análisis programado con Diariamente, Semanalmente, Mensualmente o Personalizado. La opción personalizada usa el formato de tiempo cron para especificar el programa. Por ejemplo, un análisis configurado para ejecutarse el segundo martes del mes a la 1:00 a.m. tendría el siguiente aspecto: 0 1 8-14 * 2.
  6. Opcional: Para avanzar al panel para que se muestren configuraciones opcionales adicionales, haz clic en Continuar y edita los siguientes valores:

    • Exportar los resultados del análisis a la tabla de BigQuery: selecciona un conjunto de datos de BigQuery y una tabla para guardar los resultados del análisis de perfil. Si se define un conjunto de datos, pero no se define una tabla, Dataplex crea una tabla por ti. Las tablas creadas de esta manera pueden generar costos de almacenamiento.
    • Etiquetas: agrega una etiqueta al análisis.
  7. Haz clic en uno de los siguientes botones según tus necesidades:

    • Para guardar la configuración del análisis, haz clic en Crear.
    • Para guardar y ejecutar el análisis, haz clic en Ejecutar.

Administra los permisos del análisis de perfiles de datos

Para cambiar los permisos de acceso de los análisis de perfil existentes, haz lo siguiente:

  1. Dirígete a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de perfil de los datos.

  3. Haz clic en la pestaña Perfil de datos.

  4. Haz clic en Análisis de perfil de los datos > Administrar permisos de análisis. Se abrirá Dataplex en una pestaña nueva.

  5. Haz clic en la pestaña Permisos.

    • Para otorgar acceso a una principal, haz clic en Otorgar acceso y otorga el rol Visualizador de datos de DataScan de Dataplex a la principal asociada.
    • Para quitar el acceso de una principal, haz clic en Quitar acceso y quita Dataplex DataScan DataViewer del principal asociado.

Edita un análisis de perfil de datos existente

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de perfil de los datos.

  3. Haz clic en Análisis de perfil de los datos > Editar configuración del análisis.

Esto abre la configuración del análisis de perfil de los datos, que se puede modificar y guardar para análisis futuros.

Visualiza los resultados del análisis de perfiles de datos

Hay varias maneras de ver los resultados del análisis de perfil de los datos. Selecciona la opción más adecuada para tus necesidades.

Visualiza los resultados publicados

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de perfil de los datos.

  3. Haz clic en la pestaña Perfil de datos.

Los resultados publicados más recientes se muestran en esta vista.

Visualiza los resultados del análisis histórico

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de perfil de los datos.

  3. Haz clic en la pestaña Perfil de datos.

  4. Haz clic en Análisis de perfil de los datos > Ver resultados históricos.

Visualiza todos los análisis de perfil de los datos en una tabla

Para abrir Dataplex con un historial de análisis de una tabla específica, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de perfil de los datos.

  3. Haz clic en Análisis de perfil de los datos > Ver todos los análisis.