Supervisa la calidad de los datos con análisis

En este documento, se explica cómo usar BigQuery y Dataplex en conjunto para garantizar que los datos cumplan con las expectativas de calidad. BigQuery usa Dataplex para definir verificaciones continuas de datos, supervisar resultados y solucionar problemas con la calidad de los datos.

Para obtener más información sobre la calidad de los datos automáticos, consulta Información sobre la calidad de los datos automáticos.

Antes de comenzar

  • Para crear y modificar análisis en tu proyecto: habilita la API de Dataplex.

    Habilita la API de Dataplex

  • Para análisis entre proyectos: crea un identificador de servicio de Dataplex con el comando gcloud beta services identity create. Si no existe un identificador de servicio de Dataplex, este comando muestra uno nuevo. Si ya existe un identificador de servicio, el comando muestra el existente. Es posible que este comando te solicite instalar el componente de comandos beta de gcloud CLI.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Roles obligatorios

Solicita al administrador que otorgue los siguientes roles a las principales de la cuenta adecuadas en los casos de uso a los que necesiten acceso. Si quieres obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Funciones de BigQuery

  • Visualizador de datos de BigQuery en una tabla para crear un análisis en esa tabla sin publicar los resultados.
  • Editor de datos de BigQuery en una tabla para crear un análisis en esa tabla con publicación.
  • Si la tabla de BigQuery y el análisis de calidad de los datos están en proyectos diferentes, debes otorgar a la cuenta de servicio de Dataplex permiso de lectura bigquery.tables.getData (o el rol de visualizador de datos de BigQuery) en la tabla de BigQuery correspondiente. Para obtener la identidad de servicio para una cuenta de servicio, consulta Antes de comenzar.
  • Si analizas una tabla externa de BigQuery desde Cloud Storage, asigna el rol de Cloud Storage (roles/storage.objectViewer) a la cuenta de servicio de Dataplex.

Roles de Dataplex

  • Administrador de DataScan de Dataplex a nivel de proyecto para crear análisis.
  • Editor de DataScan de Dataplex en un análisis para editar las propiedades de un análisis (excepto los permisos), ejecuta el análisis y bórralo.
  • Visualizador de datos de DataScan de Dataplex en un análisis para ver los resultados de un análisis.

Estos roles contienen los permisos necesarios para los casos de uso anteriores. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos.

Permisos necesarios

Los siguientes permisos son necesarios para usar varios aspectos de los análisis de calidad de los datos:

  • Para cambiar la configuración de un análisis de datos: dataplex.datascans.update, en el recurso de análisis de datos
  • Para cambiar la política de un análisis de datos: dataplex.datascans.setIamPolicy, en el recurso de análisis de datos
  • Para crear un análisis de datos en una tabla de BigQuery, bigquery.tables.getData, la tabla que se analizará
  • Para crear análisis de datos en un proyecto: dataplex.datascans.create, en el proyecto
  • Para borrar un análisis de datos: dataplex.datascans.delete, en el recurso de análisis de datos
  • Para exportar los resultados del análisis de datos a un conjunto de datos de BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update y bigquery.tables.updateData, el conjunto de datos de destino
  • Para publicar los resultados de un análisis de datos en una tabla: bigquery.tables.update, la tabla de destino
  • Para ejecutar un análisis de datos: dataplex.datascans.run, en el recurso de análisis de datos
  • Para analizar una tabla externa desde Cloud Storage: storage.buckets.get, storage.objects.get, el bucket que contiene las tablas que se analizarán
  • Para ver los resultados de un análisis de datos: dataplex.datascans.getData, en el recurso de análisis de datos
  • Para ver los resultados de un análisis de datos: dataplex.datascans.get, en el recurso de análisis de datos
  • Para ver los resultados de un análisis de datos: dataplex.datascans.list, en el recurso de análisis de datos

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Crea un análisis de calidad de los datos

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, haz clic en una tabla para el análisis de calidad de los datos.

  3. Haz clic en la pestaña Calidad de los datos.

  4. Haz clic en Análisis de calidad de los datos > Crear análisis nuevo.

  5. Opcional: Edita los siguientes valores:

    • Nombre visible: el nombre mutable del recurso en la consola.
    • ID: un identificador único para el análisis. No se puede cambiar después de crear el análisis.
    • Descripción: una descripción del análisis.
    • Región: define la región en la que se procesa el análisis de datos.
    • Alcance: el rango de datos disponibles para el análisis. Selecciona Datos incrementales o Datos completos. Si eliges Datos incrementales, te recomendamos incluir una columna DATE o TIMESTAMP que aumente de forma lineal. Esta columna se puede usar para identificar registros nuevos. Para las tablas particionadas en columnas de tipo DATE o TIMESTAMP, se recomienda usar la columna de partición como el campo de marca de tiempo.
    • Filtros: se aplican a los datos antes de que se ejecute el análisis. Para filtrar filas, selecciona la casilla de verificación Filtrar filas y, luego, ingresa una expresión de SQL válida en el campo de texto de entrada. La expresión debe estar en la sintaxis de SQL estándar de BigQuery y se puede usar en una cláusula WHERE.
    • Tamaño de muestreo: el porcentaje de datos que deseas muestrear. Para los análisis de datos incrementales, solo se muestrea el incremento más reciente.
    • Publicar los resultados en la IU de BigQuery y Data Catalog: esta opción hace que los últimos resultados del análisis de generación de perfiles de datos estén disponibles en la IU de BigQuery, en la pestaña Calidad de los datos de la tabla de origen. Si se ejecuta un análisis y está configurado para publicarse, es posible que esta opción no esté disponible.
    • Programa: A pedido (predeterminado) o Repetir. Si seleccionas Repetir, especifica la frecuencia del análisis programado con Diariamente, Semanalmente, Mensualmente o Personalizado. La opción personalizada usa el formato de tiempo cron para especificar el programa. Por ejemplo, un análisis configurado para ejecutarse el segundo martes del mes a la 1:00 a.m. tendría el siguiente aspecto: 0 1 8-14 * 2.
  6. Para avanzar al panel para que se muestre la configuración de las reglas de calidad de los datos, haz clic en Continuar.

  7. Haz clic en Agregar reglas y agrega una o más de las siguientes reglas según corresponda. Las reglas también se pueden borrar con Quitar.

    • Recomendaciones basadas en perfiles
    • Tipos de reglas integradas
    • Regla de verificación de fila de SQL
    • Regla de verificación de agregación de SQL
  8. Opcional: Para avanzar al panel para que se muestre la configuración opcional adicional, haz clic en Continuar y edita los siguientes valores:

    • Exportar los resultados del análisis a la tabla de BigQuery: selecciona un conjunto de datos de BigQuery y una tabla para guardar los resultados del análisis de calidad. Si se define un conjunto de datos, pero no se define una tabla, Dataplex crea una tabla por ti. Las tablas creadas de esta manera pueden generar costos de almacenamiento.
    • Etiquetas: agrega una etiqueta al análisis.
  9. Haz clic en uno de los siguientes botones según tus necesidades:

    • Para guardar la configuración del análisis, haz clic en Crear.
    • Para guardar y ejecutar el análisis, haz clic en Ejecutar.

Administra los permisos de análisis de calidad de los datos

Para cambiar los permisos de acceso de los análisis de calidad existentes, haz lo siguiente:

  1. Dirígete a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de calidad de los datos.

  3. Haz clic en la pestaña Calidad de los datos.

  4. Haz clic en Análisis de calidad de los datos > Administrar permisos de análisis. Se abrirá Dataplex en una pestaña nueva.

  5. Haz clic en la pestaña Permisos.

    • Para otorgar acceso a una principal, haz clic en Otorgar acceso y otorga el rol Visualizador de datos de DataScan de Dataplex a la principal asociada.
    • Para quitar el acceso de una principal, haz clic en Quitar acceso y quita el rol Visualizador de datos de DataScan de Dataplex de la principal asociada.

Edita un análisis de calidad de los datos existente

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de calidad de los datos.

  3. Haz clic en Análisis de calidad de los datos > Editar configuración del análisis.

Esto abre la configuración del análisis de calidad de los datos, que se puede modificar y guardar para análisis futuros.

Visualiza los resultados del análisis de calidad de los datos

Hay varias maneras de ver los resultados del análisis de calidad de los datos. Selecciona la opción más adecuada para tus necesidades.

Visualiza los resultados publicados

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de calidad de los datos.

  3. Haz clic en la pestaña Calidad de los datos.

Los resultados publicados más recientes se muestran en esta vista.

Visualiza los resultados del análisis histórico

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de calidad de los datos.

  3. Haz clic en la pestaña Calidad de los datos.

  4. Haz clic en Análisis de calidad de los datos > Ver resultados históricos.

Visualiza todos los análisis de calidad de los datos de una tabla

Para abrir Dataplex con un historial de análisis de una tabla específica, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, selecciona una tabla para el análisis de calidad de los datos.

  3. Haz clic en Análisis de calidad de los datos > Ver todos los análisis.