Si configuraste el servicio de descubrimiento de datos sensibles para enviar todos los perfiles de datos generados de forma correcta a BigQuery, puedes consultar esos perfiles de datos a fin de obtener estadísticas sobre tus datos. También puedes usar herramientas de visualización como Looker Studio para crear informes personalizados que se adapten a tus necesidades comerciales. Como alternativa, puedes usar un informe prediseñado que proporciona la protección de datos sensibles, ajustarlo y compartirlo según sea necesario.
En esta página, se proporcionan ejemplos de consultas en SQL que puedes usar para obtener más información sobre tus perfiles de datos. También se muestra cómo visualizar perfiles de datos en Looker Studio.
Para obtener más información sobre los perfiles de datos, consulta Perfiles de datos.
Antes de comenzar
En esta página, se supone que configuraste la generación de perfiles a nivel de organización, carpeta o proyecto. En tu configuración, asegúrate de activar la exportación de perfiles de datos con un clic en el botón de activación Guardar copias de perfiles de datos en BigQuery.
En este documento, la tabla que contiene los perfiles de datos exportados se denomina tabla de resultado.
Asegúrate de tener disponibles el ID del proyecto, el ID del conjunto de datos y el ID de la tabla de salida. Necesita que realicen los procedimientos de esta página.
La vista latest
Cuando la protección de datos sensibles exporta perfiles de datos a la tabla de salida, también crea la vista latest
. Esta vista es una tabla virtual filtrada con anterioridad que incluye solo las instantáneas más recientes de tus perfiles de datos. La vista latest
tiene el mismo esquema que la tabla de salida, por lo que puedes usar las dos indistintamente en tus informes de Looker Studio y de consultas de SQL. Los resultados pueden diferir porque la tabla de salida contiene instantáneas anteriores de los perfiles de datos.
La vista latest
se almacena en la misma ubicación que la tabla de salida. Su nombre tiene el siguiente formato:
OUTPUT_TABLE_latest_VERSION
Reemplaza lo siguiente:
- OUTPUT_TABLE: El ID de la tabla que contiene los perfiles de datos exportados
- VERSION: Es el número de versión de la vista.
Por ejemplo, si el nombre de tu tabla de salida es table-profile
, entonces la vista latest
tiene un nombre como table-profile_latest_v1
.
Cuando uses la vista latest
en consultas de SQL, usa el nombre completo de la vista, que incluye el ID del proyecto, el ID del conjunto de datos, el ID de la tabla y el sufijo, por ejemplo, myproject.mydataset.table-profile_latest_v1
.
PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION
Elegir entre la tabla de salida y la vista latest
La vista latest
incluye solo las instantáneas de perfil de datos más recientes, mientras que la tabla de salida tiene todas las instantáneas de perfil de datos, incluidas las instantáneas desactualizadas. Por ejemplo, una consulta en la tabla de salida puede mostrar varios perfiles de datos de columna para la misma columna, uno por cada vez que se creó un perfil de esa columna.
Cuando elijas entre usar la tabla de salida y la vista latest
en tus consultas de SQL o informes de Looker Studio, ten en cuenta lo siguiente:
La vista
latest
es útil si tienes tablas que se volvieron a generar perfiles y solo deseas ver los perfiles más recientes, no las versiones anteriores. Es decir, deseas ver el estado actual de los datos perfilados.La tabla de salida es útil si deseas obtener una vista histórica de los datos perfilados. Por ejemplo, intentas determinar si tu organización almacenó un Infotipo en particular o deseas ver los cambios que sufrió un perfil de datos en particular.
Consultas en SQL de muestra
En esta sección, se proporcionan consultas de ejemplo que puedes usar cuando analizas perfiles de datos. Para ejecutar estas consultas, revisa Ejecuta consultas interactivas.
En los siguientes ejemplos, reemplaza TABLE_OR_VIEW por cualquiera de las siguientes opciones:
- El nombre de la tabla de salida, que es la tabla que contiene los perfiles de datos exportados, por ejemplo,
myproject.mydataset.table-profile
. - El nombre de la vista
latest
de la tabla de salida, por ejemplo,myproject.mydataset.table-profile_latest_v1
En cualquier caso, debes incluir el ID del proyecto y el ID del conjunto de datos.
Para obtener más información, consulta Elige entre la tabla de salida y la vista latest
en esta página.
Para solucionar cualquier error que encuentres, consulta Mensajes de error.
Enumera todas las columnas que tengan una puntuación de texto libre alta y evidencia de otras coincidencias de Infotipo
SELECT
column_profile.table_full_resource,
column_profile.COLUMN,
other_matches.info_type.name,
column_profile.profile_last_generated
FROM
`TABLE_OR_VIEW`,
UNNEST(column_profile.other_matches) AS other_matches
WHERE
column_profile.free_text_score = 1
AND ( column_profile.column_info_type.info_type.name>""
OR ARRAY_LENGTH(column_profile.other_matches)>0 )
Para obtener información sobre cómo solucionar estos resultados, consulta Puntuación de texto libre alta.
Para obtener más información sobre las métricas Puntuación de texto libre y Otros infotipos, consulta Perfiles de datos de columnas.
Enumerar todas las tablas que contienen una columna de números de tarjeta de crédito
SELECT
column_profile.table_full_resource,
column_profile.profile_last_generated
FROM
`TABLE_OR_VIEW`
WHERE
column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"
CREDIT_CARD_NUMBER
es un Infotipo integrado que representa un número de tarjeta de crédito.
Para obtener información sobre cómo solucionar estos resultados, consulta Alto riesgo de datos.
Enumerar los perfiles de tabla que contengan columnas de números de tarjeta de crédito, números de seguridad social de EE.UU. y nombres de personas
SELECT
table_full_resource,
COUNT(*) AS count_findings
FROM (
SELECT
DISTINCT column_profile.table_full_resource,
column_profile.column_info_type.info_type.name
FROM
`TABLE_OR_VIEW`
WHERE
column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
'CREDIT_CARD_NUMBER',
'US_SOCIAL_SECURITY_NUMBER')
ORDER BY
column_profile.table_full_resource ) ot1
GROUP BY
table_full_resource
#increase this number to match the total distinct infoTypes that must be present
HAVING
count_findings>=3
En esta consulta, se usan los siguientes Infotipos integrados:
CREDIT_CARD_NUMBER
: Representa un número de tarjeta de crédito.PERSON_NAME
: Representa el nombre completo de una persona.US_SOCIAL_SECURITY_NUMBER
representa un número de seguridad social de EE.UU.
Para obtener información sobre cómo solucionar estos resultados, consulta Alto riesgo de datos.
Trabaja con perfiles de datos en Looker Studio
Para visualizar tus perfiles de datos en Looker Studio, puedes usar un informe prediseñado o crear uno propio.
Usa un informe prediseñado
La protección de datos sensibles proporciona un informe prediseñado de Looker Studio en el que se destacan las estadísticas valiosas de los perfiles de datos. El panel de protección de datos sensibles es un informe de varias páginas que te brinda una vista rápida de alto nivel de tus perfiles de datos, incluidos desgloses por riesgo, infotipo y ubicación. Explora las otras pestañas para ver las vistas por riesgo de posición y región geográfica, o desglosa las métricas específicas. Puedes usar este informe prediseñado tal como está o personalizarlo según sea necesario. Esta es la versión recomendada del informe prediseñado.
Para ver el informe prediseñado con tus datos, ingresa los valores obligatorios en la siguiente URL. Luego, copia la URL resultante en tu navegador.
https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false
Reemplaza lo siguiente:
- PROJECT_ID: Es el proyecto que contiene la tabla de resultados.
- DATASET_ID: Es el conjunto de datos que contiene la tabla de salida.
TABLE_OR_VIEW: Cualquiera de las siguientes opciones:
- El nombre de la tabla de salida, que es la tabla que contiene los perfiles de datos exportados, por ejemplo,
myproject.mydataset.table-profile
. - El nombre de la vista
latest
de la tabla de salida, por ejemplo,myproject.mydataset.table-profile_latest_v1
Para obtener más información, consulta Elige entre la tabla de salida y la vista
latest
en esta página.- El nombre de la tabla de salida, que es la tabla que contiene los perfiles de datos exportados, por ejemplo,
Looker Studio puede tardar unos minutos en cargar el informe con tus datos.
En el siguiente ejemplo, el panel muestra que los datos de baja y alta sensibilidad están presentes en varios países de todo el mundo.
Versión anterior del informe prediseñado
La primera versión del informe prediseñado aún está disponible en la siguiente dirección:
https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false
Crea un informe
Looker Studio te permite crear informes interactivos. En esta sección, crearás un informe de tabla simple en Looker Studio que se basa en los perfiles de datos exportados a tu tabla de salida en BigQuery.
Asegúrate de tener el ID del proyecto, el ID del conjunto de datos y el ID de la tabla de la tabla de salida o la vista latest
disponibles. Necesitas que realicen este procedimiento.
En este ejemplo, se muestra cómo crear un informe que contiene una tabla que muestra cada infoType informado en tus perfiles de datos y su frecuencia correspondiente.
En general, generas costos de uso de BigQuery cuando accedes a BigQuery a través de Looker Studio. Para obtener más información, consulta Visualiza datos de BigQuery con Looker Studio.
Para crear un informe, haz lo siguiente:
- Abre Looker Studio y accede.
- Haga clic en Blank Report.
- En la pestaña Conectar a datos, haz clic en la tarjeta BigQuery.
- Si se te solicita, autoriza a Looker Studio para acceder a tus proyectos de BigQuery.
Conéctate a tus datos de BigQuery:
- En Proyecto, selecciona el proyecto que contiene la tabla de resultados. Puedes buscar el proyecto en las pestañas Proyectos recientes, Mis proyectos y Proyectos compartidos.
- En Conjunto de datos, selecciona el conjunto de datos que contiene la tabla de salida.
En Tabla, selecciona la tabla de salida o la vista
latest
de la tabla de resultados.Para obtener más información, consulta Elige entre la tabla de salida y la vista
latest
en esta página.Haz clic en Agregar.
En el cuadro de diálogo que aparece, haz clic en Agregar al informe.
Se crea un informe. Aparecerá una tabla que contiene perfiles de datos de tabla y sus recuentos de registros correspondientes.
Para agregar una tabla que muestre cada Infotipo informado y su frecuencia correspondiente (recuento de registros), sigue estos pasos:
- Haga clic en Agregar un gráfico.
- Selecciona un estilo de tabla.
Haz clic en el área en la que deseas colocar el gráfico.
El gráfico aparecerá en formato de tabla.
Cambia el tamaño de la tabla según sea necesario.
Siempre que la tabla esté seleccionada, sus propiedades aparecerán en el panel Chart > Table.
En el panel Gráfico > Tabla, en la pestaña Datos, en el campo Dimensión, quita la dimensión existente.
Haz clic en Agregar dimensión (Add dimension).
Busca
column_profile.column_info_type.info_type.name
y selecciónalo.
La tabla resultante es similar a la siguiente:
Obtén más información sobre las tablas de Looker Studio.
¿Qué sigue?
Obtén más información sobre las acciones que puedes realizar para remediate los resultados del perfil de datos.