Analiza perfiles de datos

Si configuraste el servicio de descubrimiento de datos sensibles para enviar todos los perfiles de datos generados de forma correcta a BigQuery, puedes consultar esos perfiles de datos a fin de obtener estadísticas sobre tus datos. También puedes usar herramientas de visualización como Looker Studio para crear informes personalizados que se adapten a tus necesidades comerciales. Como alternativa, puedes usar un informe prediseñado que proporciona la protección de datos sensibles, ajustarlo y compartirlo según sea necesario.

En esta página, se proporcionan ejemplos de consultas en SQL que puedes usar para obtener más información sobre tus perfiles de datos. También se muestra cómo visualizar perfiles de datos en Looker Studio.

Para obtener más información sobre los perfiles de datos, consulta Perfiles de datos.

Antes de comenzar

En esta página, se supone que configuraste la generación de perfiles a nivel de organización, carpeta o proyecto. En tu configuración, asegúrate de activar la exportación de perfiles de datos con un clic en el botón de activación Guardar copias de perfiles de datos en BigQuery.

En este documento, la tabla que contiene los perfiles de datos exportados se denomina tabla de resultado.

Asegúrate de tener disponibles el ID del proyecto, el ID del conjunto de datos y el ID de la tabla de salida. Necesita que realicen los procedimientos de esta página.

La vista latest

Cuando la protección de datos sensibles exporta perfiles de datos a la tabla de salida, también crea la vista latest. Esta vista es una tabla virtual filtrada con anterioridad que incluye solo las instantáneas más recientes de tus perfiles de datos. La vista latest tiene el mismo esquema que la tabla de salida, por lo que puedes usar las dos indistintamente en tus informes de Looker Studio y de consultas de SQL. Los resultados pueden diferir porque la tabla de salida contiene instantáneas anteriores de los perfiles de datos.

La vista latest se almacena en la misma ubicación que la tabla de salida. Su nombre tiene el siguiente formato:

OUTPUT_TABLE_latest_VERSION

Reemplaza lo siguiente:

  • OUTPUT_TABLE: El ID de la tabla que contiene los perfiles de datos exportados
  • VERSION: Es el número de versión de la vista.

Por ejemplo, si el nombre de tu tabla de salida es table-profile, entonces la vista latest tiene un nombre como table-profile_latest_v1.

Vista más reciente

Cuando uses la vista latest en consultas de SQL, usa el nombre completo de la vista, que incluye el ID del proyecto, el ID del conjunto de datos, el ID de la tabla y el sufijo, por ejemplo, myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Elegir entre la tabla de salida y la vista latest

La vista latest incluye solo las instantáneas de perfil de datos más recientes, mientras que la tabla de salida tiene todas las instantáneas de perfil de datos, incluidas las instantáneas desactualizadas. Por ejemplo, una consulta en la tabla de salida puede mostrar varios perfiles de datos de columna para la misma columna, uno por cada vez que se creó un perfil de esa columna.

Cuando elijas entre usar la tabla de salida y la vista latest en tus consultas de SQL o informes de Looker Studio, ten en cuenta lo siguiente:

  • La vista latest es útil si tienes tablas que se volvieron a generar perfiles y solo deseas ver los perfiles más recientes, no las versiones anteriores. Es decir, deseas ver el estado actual de los datos perfilados.

  • La tabla de salida es útil si deseas obtener una vista histórica de los datos perfilados. Por ejemplo, intentas determinar si tu organización almacenó un Infotipo en particular o deseas ver los cambios que sufrió un perfil de datos en particular.

Consultas en SQL de muestra

En esta sección, se proporcionan consultas de ejemplo que puedes usar cuando analizas perfiles de datos. Para ejecutar estas consultas, revisa Ejecuta consultas interactivas.

En los siguientes ejemplos, reemplaza TABLE_OR_VIEW por cualquiera de las siguientes opciones:

  • El nombre de la tabla de salida, que es la tabla que contiene los perfiles de datos exportados, por ejemplo, myproject.mydataset.table-profile.
  • El nombre de la vista latest de la tabla de salida, por ejemplo, myproject.mydataset.table-profile_latest_v1

En cualquier caso, debes incluir el ID del proyecto y el ID del conjunto de datos.

Para obtener más información, consulta Elige entre la tabla de salida y la vista latest en esta página.

Para solucionar cualquier error que encuentres, consulta Mensajes de error.

Enumera todas las columnas que tengan una puntuación de texto libre alta y evidencia de otras coincidencias de Infotipo

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`,
  UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Para obtener información sobre cómo solucionar estos resultados, consulta Puntuación de texto libre alta.

Para obtener más información sobre las métricas Puntuación de texto libre y Otros infotipos, consulta Perfiles de datos de columnas.

Enumerar todas las tablas que contienen una columna de números de tarjeta de crédito

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER es un Infotipo integrado que representa un número de tarjeta de crédito.

Para obtener información sobre cómo solucionar estos resultados, consulta Alto riesgo de datos.

Enumerar los perfiles de tabla que contengan columnas de números de tarjeta de crédito, números de seguridad social de EE.UU. y nombres de personas

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

En esta consulta, se usan los siguientes Infotipos integrados:

  • CREDIT_CARD_NUMBER: Representa un número de tarjeta de crédito.
  • PERSON_NAME: Representa el nombre completo de una persona.
  • US_SOCIAL_SECURITY_NUMBER representa un número de seguridad social de EE.UU.

Para obtener información sobre cómo solucionar estos resultados, consulta Alto riesgo de datos.

Trabaja con perfiles de datos en Looker Studio

Para visualizar tus perfiles de datos en Looker Studio, puedes usar un informe prediseñado o crear uno propio.

Usa un informe prediseñado

La protección de datos sensibles proporciona un informe prediseñado de Looker Studio en el que se destacan las estadísticas valiosas de los perfiles de datos. El panel de protección de datos sensibles es un informe de varias páginas que te brinda una vista rápida de alto nivel de tus perfiles de datos, incluidos desgloses por riesgo, infotipo y ubicación. Explora las otras pestañas para ver las vistas por riesgo de posición y región geográfica, o desglosa las métricas específicas. Puedes usar este informe prediseñado tal como está o personalizarlo según sea necesario. Esta es la versión recomendada del informe prediseñado.

Para ver el informe prediseñado con tus datos, ingresa los valores obligatorios en la siguiente URL. Luego, copia la URL resultante en tu navegador.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Reemplaza lo siguiente:

  • PROJECT_ID: Es el proyecto que contiene la tabla de resultados.
  • DATASET_ID: Es el conjunto de datos que contiene la tabla de salida.
  • TABLE_OR_VIEW: Cualquiera de las siguientes opciones:

    • El nombre de la tabla de salida, que es la tabla que contiene los perfiles de datos exportados, por ejemplo, myproject.mydataset.table-profile.
    • El nombre de la vista latest de la tabla de salida, por ejemplo, myproject.mydataset.table-profile_latest_v1

    Para obtener más información, consulta Elige entre la tabla de salida y la vista latest en esta página.

Looker Studio puede tardar unos minutos en cargar el informe con tus datos.

En el siguiente ejemplo, el panel muestra que los datos de baja y alta sensibilidad están presentes en varios países de todo el mundo.

Informe prediseñado

Versión anterior del informe prediseñado

La primera versión del informe prediseñado aún está disponible en la siguiente dirección:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Crea un informe

Looker Studio te permite crear informes interactivos. En esta sección, crearás un informe de tabla simple en Looker Studio que se basa en los perfiles de datos exportados a tu tabla de salida en BigQuery.

Asegúrate de tener el ID del proyecto, el ID del conjunto de datos y el ID de la tabla de la tabla de salida o la vista latest disponibles. Necesitas que realicen este procedimiento.

En este ejemplo, se muestra cómo crear un informe que contiene una tabla que muestra cada infoType informado en tus perfiles de datos y su frecuencia correspondiente.

En general, generas costos de uso de BigQuery cuando accedes a BigQuery a través de Looker Studio. Para obtener más información, consulta Visualiza datos de BigQuery con Looker Studio.

Para crear un informe, haz lo siguiente:

  1. Abre Looker Studio y accede.
  2. Haga clic en Blank Report.
  3. En la pestaña Conectar a datos, haz clic en la tarjeta BigQuery.
  4. Si se te solicita, autoriza a Looker Studio para acceder a tus proyectos de BigQuery.
  5. Conéctate a tus datos de BigQuery:

    1. En Proyecto, selecciona el proyecto que contiene la tabla de resultados. Puedes buscar el proyecto en las pestañas Proyectos recientes, Mis proyectos y Proyectos compartidos.
    2. En Conjunto de datos, selecciona el conjunto de datos que contiene la tabla de salida.
    3. En Tabla, selecciona la tabla de salida o la vista latest de la tabla de resultados.

      Para obtener más información, consulta Elige entre la tabla de salida y la vista latest en esta página.

    4. Haz clic en Agregar.

    5. En el cuadro de diálogo que aparece, haz clic en Agregar al informe.

      Se crea un informe. Aparecerá una tabla que contiene perfiles de datos de tabla y sus recuentos de registros correspondientes.

  6. Para agregar una tabla que muestre cada Infotipo informado y su frecuencia correspondiente (recuento de registros), sigue estos pasos:

    1. Haga clic en Agregar un gráfico.
    2. Selecciona un estilo de tabla.
    3. Haz clic en el área en la que deseas colocar el gráfico.

      El gráfico aparecerá en formato de tabla.

    4. Cambia el tamaño de la tabla según sea necesario.

      Siempre que la tabla esté seleccionada, sus propiedades aparecerán en el panel Chart > Table.

    5. En el panel Gráfico > Tabla, en la pestaña Datos, en el campo Dimensión, quita la dimensión existente.

    6. Haz clic en Agregar dimensión (Add dimension).

    7. Busca column_profile.column_info_type.info_type.name y selecciónalo.

    La tabla resultante es similar a la siguiente:

    Una tabla en la que se muestran los Infotipos detectados y sus frecuencias correspondientes

Obtén más información sobre las tablas de Looker Studio.

¿Qué sigue?

Obtén más información sobre las acciones que puedes realizar para remediate los resultados del perfil de datos.