En este instructivo, se muestra cómo usar el complemento de Cloud Data Fusion para Cloud DLP a fin de ocultar datos sensibles.
Situación
Considera la siguiente situación, en la que se debe ocultar información sensible del cliente:
El equipo de asistencia al cliente documenta los detalles de cada caso de ayuda que controlan en un ticket de asistencia. Toda la información en los tickets de asistencia se extrae en un archivo CSV. No se supone que los técnicos de asistencia documentan la información de los clientes que se considera confidencial, pero a veces lo hacen erróneamente. Notarás que en el archivo CSV aparecen algunos números de teléfono de algunos clientes.
Deseas revisar el archivo CSV y ocultar todos los números de teléfono. Crea una canalización de Cloud Data Fusion que oculta los datos sensibles de los clientes con el complemento de Cloud DLP.
En este instructivo, crearás una canalización que haga lo siguiente:
- Oculta los números de teléfono de los clientes enmascarándolos con el carácter
#
. - Almacenar los datos sensibles enmascarados y los no sensibles en un bucket de Cloud Storage.
Objetivos
- Conectar Cloud Data Fusion a una fuente de Cloud Storage
- Implementa el complemento de Cloud DLP.
- Crea una plantilla personalizada de Cloud DLP.
- Usa el complemento de transformación Ocultar a fin de enmascarar los datos sensibles de los clientes.
- Escribe los datos de salida en Cloud Storage.
Costos
En este documento, usarás los siguientes componentes facturables de Google Cloud:
Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- Crea una instancia de Cloud Data Fusion.
Obtén permisos de Cloud DLP
En la consola de Google Cloud, ve a la página IAM.
En la tabla de permisos, en la columna Principal, busca la cuenta de servicio que coincida con el formato
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
.Haz clic en edit Editar.
Haz clic en Agregar otro rol.
Usa la barra de búsqueda para buscar y, luego, selecciona Administrador de DLP.
Haga clic en Save.
Verifica que el Administrador de DLP aparezca en la columna Función.
Navega a la IU de Cloud Data Fusion
Cuando usas Cloud Data Fusion, usas la consola de Google Cloud y la IU independiente de Cloud Data Fusion. En la consola de Google Cloud, puede crear un proyecto de la consola de Google Cloud, y crear y borrar Instancias de Cloud Data Fusion. En la IU de Cloud Data Fusion, puedes usar las distintas páginas, como Studio o Wrangler, para usar las funciones de Cloud Data Fusion.
En la consola de Google Cloud, abre la página Instancias.
En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. La IU de Cloud Data Fusion se abrirá en una pestaña nueva del navegador.
Crea la canalización
Crear una canalización que oculte datos sensibles de clientes La canalización que compilas hará lo siguiente:
- Lee los datos de entrada mediante el complemento de origen de Cloud Storage.
- Implementa el complemento de Cloud DLP desde Hub.
- Escribe los datos de salida mediante un complemento del receptor de Cloud Storage.
Carga los datos del cliente
En este instructivo, se usa el conjunto de datos de entrada, CallCenterRecords.csv
, que se proporciona en un bucket de Cloud Storage disponible de forma pública.
Abre tu instancia de Cloud Data Fusion y haz clic en menu Menú > Studio.
En el menú Fuente, haz clic en el complemento de Cloud Storage.
En el nodo de Cloud Storage, haz clic en Propiedades.
En el campo Nombre de referencia, ingresa un nombre.
En el campo Ruta de acceso, ingresa
gs://datafusion-sample-datasets/CallCenterRecords.csv
.En el campo Formato, selecciona
CSV
.Para el Esquema de salida, borra los campos offset y body. Haz clic en
Agregar y, luego, ingresa los siguientes campos:- Fecha
- Banco
- State
- Zip
- Notas
Haz clic en Validar para comprobar si hay errores.
Haz clic en
Cerrar.
Oculta datos sensibles
El complemento de ocultamiento de Cloud DLP identifica registros sensibles en tu flujo de entrada de y aplica las transformaciones que definas para esos registros. Un registro de datos se considera sensible si coincide con filtros de Cloud DLP predefinidos que elijas o una plantilla personalizada que definas.
En este instructivo, deseas ocultar los números de teléfono del cliente que algunos técnicos de asistencia en tu equipo tomaron nota accidentalmente. Ingresaron la información sensible en la sección Notas de los tickets de asistencia, que aparece como la columna Notas en el archivo CSV. Crea una plantilla personalizada de Cloud DLP y, luego, proporciona el ID de plantilla en el menú de propiedades del complemento.
Implementa el complemento de Cloud DLP
En tu instancia de Cloud Data Fusion, haz clic en Hub.
Haz clic en el complemento de Cloud DLP.
Haz clic en Implementar.
Haz clic en Finish (Finalizar).
Haz clic en
Cerrar para salir del diálogo de Cloud DLP.Haz clic en
Cerrar para salir de Hub.
Cómo crear una plantilla personalizada
En la consola de Google Cloud, ve a la página de Cloud DLP.
En el menú Create (Crear), elige Template (Plantilla).
En el campo ID de plantilla, ingresa un ID para tu plantilla.
Haga clic en Continuar.
En el campo Configurar detección, haz clic en Administrar infotipos.
En la pestaña Integrado, usa el filtro para buscar por “número de teléfono”.
Seleccionar número de teléfono
Haz clic en Listo > Crear.
Obtén más información sobre cómo crear plantillas de Cloud DLP.
Aplica la transformación de ocultación de Cloud DLP
Ve a la página Studio de Cloud Data Fusion y haz clic para expandir el menú Transformar.
Haz clic en el complemento Redact de Cloud DLP.
Arrastra una flecha de conexión desde el nodo de Cloud Storage hasta el nodo Redact.
Mantén el puntero sobre el nodo Ocultar y haz clic en Propiedades.
Establece Plantilla personalizada en
Yes
.En el campo ID de plantilla, ingresa el ID de la plantilla personalizada que deseas crearla.
En el campo Coincidencias, aplica Enmascaramiento en Plantilla personalizada dentro de Notas.
En el campo Masking Character, ingresa
#
.Haz clic en Validar para comprobar si hay errores.
Haz clic en
Cerrar.
Almacena los datos de salida
Almacena los resultados de la canalización en un archivo de Cloud Storage.
En la página Studio, haz clic para expandir el menú Sink.
Haz clic en Cloud Storage.
Arrastra una flecha de conexión desde el nodo Redact hasta el nodo Cloud Storage2.
Mantén el puntero sobre el nodo Cloud Storage2 y haz clic en Properties.
En el campo Nombre de referencia, ingresa un nombre.
En el campo Ruta de acceso, ingresa la ruta de acceso del bucket de Cloud Storage en el que en la que quieres almacenar los resultados de la canalización. Cloud Data Fusion crea el bucket por ti. Asegúrate de seguir los lineamientos para asignar nombres a buckets.
En el campo Formato, selecciona CSV.
Haz clic en Validar para asegurarse de que no haya errores.
Haz clic en
Cerrar.
Ejecuta la canalización en modo de vista previa
Ejecuta la canalización en modo de vista previa antes de implementarla.
Haz clic en Vista previa y, luego, en Ejecutar.
Cuando haces clic en Ejecutar, se muestra el estado de la canalización, que comienza con Iniciando, luego cambia a Detener y luego a Ejecutar.
Cuando se completa la ejecución de vista previa, en el nodo Ocultar, haz clic en Vista previa de datos para ver una comparación en paralelo de los datos de entrada y salida. Cheque que los números de teléfono se enmascararon con el carácter
#
.
Oculta otro tipo de datos
Mientras examinas los resultados de la vista previa, notas que aún hay información sensible que aparece en la columna Notas: direcciones de correo electrónico. Vuelve y edita la plantilla de Cloud DLP para ocultar las direcciones de correo electrónico.
En la consola de Google Cloud, ve a la página de Cloud DLP.
Selecciona tu plantilla en la pestaña Configuración.
Haz clic en Edit.
Haz clic en Administrar infotipos.
En la pestaña Integrado, usa el filtro para buscar “O” "dirección de correo electrónico".
Selecciona todo y haz clic en Listo.
Haga clic en Save.
Una vez más, ejecuta la canalización en el modo de vista previa. Cloud Data Fusion usará automáticamente la plantilla actualizada de Cloud DLP.
Verifica que los números de teléfono y las direcciones de correo electrónico se hayan enmascarado con el carácter
#
.
Implementa y ejecuta la canalización
Asegúrate de que el modo Vista previa esté desmarcado.
Haga clic en Save. Si haces clic en Guardar, se te solicitará que asignes un nombre a tu canalización. Luego, haga clic en Aceptar.
Haz clic en Implementar.
Cuando finalice la implementación, haz clic en Ejecutar. Puede tardar unos minutos ejecutar tu canalización. Mientras esperas, puedes observar el Estado de la transición de la canalización de Aprovisionamiento a Iniciada a En ejecución a Desaprovisionamiento a Correcto.
Vea los resultados
En la consola de Google Cloud, ve a la página de Cloud Storage.
En el navegador de Storage, navega hasta el bucket de Cloud Storage receptor que especificaste en las propiedades del complemento del Cloud Storage receptor.
En URL de vínculo, haz clic en el vínculo para descargar el archivo CSV con los resultados. Verifica que los números de teléfono y las direcciones de correo electrónico se hayan enmascarado con el carácter
#
.
Limpia
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
Borra la instancia de Cloud Data Fusion
Sigue estas instrucciones para borrar tu instancia de Cloud Data Fusion.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.
Para borrar el proyecto, sigue estos pasos:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
¿Qué sigue?
- Obtén más información sobre Cloud Data Fusion.
- Consulta cómo usar el complemento de Cloud Data Fusion, que proporciona los complementos de transformación Ocultar y Filtrar PII.