Mit der API de-identifizierte Kopien der in Cloud Storage gespeicherten Daten erstellen

Auf dieser Seite wird beschrieben, wie Sie eine Cloud Storage-Ressource überprüfen und mithilfe der Cloud Data Loss Prevention API de-identifizierte Kopien der Daten erstellen.

Dadurch wird sichergestellt, dass die Dateien, die Sie in Ihren Geschäftsprozessen verwenden, keine sensiblen Daten wie personenidentifizierbare Informationen enthalten. Der Schutz sensibler Daten kann Dateien in einem Cloud Storage-Bucket auf sensible Daten prüfen und de-identifizierte Kopien dieser Dateien in einem separaten Bucket erstellen. Diese de-identifizierten Kopien können Sie dann in Ihren Geschäftsprozessen verwenden.

Weitere Informationen zu dieser Funktion finden Sie unter Sensible Daten in Cloud Storage de-identifizieren.


Für die Speicherprüfung ist der folgende OAuth-Bereich erforderlich: Weitere Informationen finden Sie unter Bei der DLP API authentifizieren.

Erforderliche IAM-Rollen

Wenn sich alle Ressourcen für diesen Vorgang im selben Projekt befinden, ist die Rolle des DLP API-Dienst-Agents (roles/dlp.serviceAgent) auf dem Dienst-Agent ausreichend. Mit dieser Rolle können Sie Folgendes tun:

  • Inspektionsjob erstellen
  • Dateien im Eingabeverzeichnis lesen
  • De-identifizierte Dateien in das Ausgabeverzeichnis schreiben
  • Transformationsdetails in eine BigQuery-Tabelle schreiben

Zu den relevanten Ressourcen gehören der Inspektionsjob, De-Identifikationsvorlagen, Eingabe-Bucket, Ausgabe-Bucket und Tabelle mit Transformationsdetails.

Wenn Sie die Ressourcen in separaten Projekten haben müssen, muss der Dienst-Agent Ihres Projekts auch die folgenden Rollen haben:

  • Die Rolle „Storage-Objekt-Betrachter“ (roles/storage.objectViewer) für den Eingabe-Bucket oder das Projekt, das ihn enthält.
  • Die Rolle „Storage Object Creator“ (roles/storage.objectCreator) für den Ausgabe-Bucket oder das Projekt, das ihn enthält.
  • Die Rolle „BigQuery-Datenbearbeiter“ (roles/bigquery.dataEditor) für die Tabelle mit den Transformationsdetails oder für das Projekt, das sie enthält.

Informationen zum Zuweisen einer Rolle zu Ihrem Dienst-Agent, bei dem es sich um ein von Google verwaltetes Dienstkonto ist, finden Sie unter Eine einzelne Rolle zuweisen. Sie können den Zugriff auch auf den folgenden Ebenen steuern:


Zum Erstellen de-identifizierter Kopien von in Cloud Storage gespeicherten Inhalten konfigurieren Sie einen Inspektionsjob, der gemäß den von Ihnen angegebenen Kriterien nach sensiblen Daten sucht. Anschließend geben Sie im Inspektionsjob De-Identifikationsanweisungen in Form einer Deidentify-Aktion an.

Wenn Sie nur einen Teil der Dateien in Ihrem Bucket scannen möchten, können Sie die Dateien einschränken, die der Job scannt. Die unterstützten Optionen für Jobs mit De-Identifikation sind Dateifilterung nach Typ (FileType) und regulärer Ausdruck (FileSet).

Wenn Sie die Aktion Deidentify aktivieren, erstellt der Schutz sensibler Daten standardmäßig de-identifizierte (transformierte) Kopien aller unterstützten Dateitypen, die im Scan enthalten sind. Sie können den Job jedoch so konfigurieren, dass nur ein Teil der unterstützten Dateitypen transformiert wird.

Optional: De-Identifikationsvorlagen erstellen

Wenn Sie steuern möchten, wie die Ergebnisse transformiert werden, erstellen Sie die folgenden Vorlagen. Diese Vorlagen enthalten Anweisungen zum Transformieren von Ergebnissen in strukturierte Dateien, unstrukturierte Dateien und Bilder.

  • De-Identifikationsvorlage: Ein Standard-DeidentifyTemplate, der für unstrukturierte Dateien wie Freitextdateien verwendet wird. Dieser DeidentifyTemplate-Typ darf kein RecordTransformations-Objekt enthalten, was nur für strukturierte Inhalte unterstützt wird. Wenn diese Vorlage nicht vorhanden ist, verwendet der Schutz sensibler Daten die Methode ReplaceWithInfoTypeConfig, um unstrukturierte Dateien zu transformieren.

  • Strukturierte De-Identifikationsvorlage:DeidentifyTemplate, die für strukturierte Dateien wie CSV-Dateien verwendet wird. Dieses DeidentifyTemplate kann RecordTransformations enthalten. Wenn diese Vorlage nicht vorhanden ist, verwendet der Schutz sensibler Daten die von Ihnen erstellte Standard-De-Identifikationsvorlage. Wenn dies ebenfalls nicht vorhanden ist, verwendet der Schutz sensibler Daten die Methode ReplaceWithInfoTypeConfig, um strukturierte Dateien zu transformieren.

  • Vorlage zum Entfernen von Bildern: DeidentifyTemplate, die für Bilder verwendet wird. Diese Vorlage muss ein ImageTransformations-Objekt enthalten. Wenn diese Vorlage nicht vorhanden ist, werden alle Ergebnisse in Bildern mit einer schwarzen Box entfernt.

Weitere Informationen zum Erstellen einer De-Identifikationsvorlage.

Inspektionsjob mit einer De-Identifikationsaktion erstellen

Das Objekt DlpJob gibt Anweisungen dazu, was geprüft werden soll, welche Datentypen als vertraulich gekennzeichnet werden sollen und was mit den Ergebnissen geschehen soll. Zum De-Identifizieren sensibler Daten in einem Cloud Storage-Verzeichnis muss Ihre DlpJob mindestens Folgendes definieren:

  • Ein StorageConfig-Objekt, das das zu prüfende Cloud Storage-Verzeichnis angibt.
  • Ein InspectConfig-Objekt, das die zu suchenden Datentypen enthält, sowie zusätzliche Inspektionsanweisungen, wie Sie die sensiblen Daten finden
  • Eine Deidentify-Aktion, die Folgendes enthält:

    • Ein TransformationConfig-Objekt, das alle von Ihnen erstellten Vorlagen für die De-Identifikation von Daten in strukturierten und unstrukturierten Dateien angibt. Sie können auch eine Konfiguration zum Entfernen sensibler Daten aus Bildern hinzufügen.

      Wenn Sie kein TransformationConfig-Objekt angeben, ersetzt der Schutz sensibler Daten sensible Daten im Text durch seinen infoType. Auf Bildern überdeckt sie sensible Daten mit einem schwarzen Kasten.

    • Ein TransformationDetailsStorageConfig-Objekt, das eine BigQuery-Tabelle angibt, in der der Schutz sensibler Daten Details zu jeder Transformation speichern muss. Zu jeder Transformation gehören eine Beschreibung, ein Erfolgs- oder Fehlercode, Fehlerdetails, die Anzahl der transformierten Byte, der Speicherort des transformierten Inhalts und der Name des Inspektionsjobs, in dem der Schutz sensibler Daten die Umwandlung durchgeführt hat. In dieser Tabelle wird nicht der tatsächliche de-identifizierte Inhalt gespeichert.

    Wenn Daten in eine BigQuery-Tabelle geschrieben werden, werden die Abrechnungs- und Kontingentnutzung auf das Projekt angewendet, das die Zieltabelle enthält.

Nachdem der kopierte Inhalt de-identifiziert wurde, wird der De-Identifikationsjob abgeschlossen. Der Job enthält eine Zusammenfassung darüber, wie oft die angegebenen Transformationen angewendet wurden. Diese können Sie mit der Methode projects.dlpJobs.get für DlpJob abrufen. Der zurückgegebene DlpJob enthält sowohl ein DeidentifyDataSourceDetails-Objekt als auch ein InspectDataSourceDetails-Objekt. Diese Objekte enthalten sowohl die Ergebnisse einer Deidentify-Aktion als auch die Ergebnisse des Inspektionsjobs.

Wenn Sie in die Datei DlpJob ein TransformationDetailsStorageConfig-Objekt aufgenommen haben, wird eine BigQuery-Tabelle mit Metadaten zu den Transformationsdetails erstellt. Für jede auftretende Transformation schreibt der Schutz sensibler Daten eine Zeile mit Metadaten in die Tabelle. Weitere Informationen zum Inhalt der Tabelle finden Sie in der Referenz zu Transformationsdetails.


Die folgenden Beispiele zeigen, wie Sie mit der DLP API de-identifizierte Kopien von Cloud Storage-Dateien erstellen.

HTTP-Methode und URL



Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.

Richten Sie Standardanmeldedaten für Anwendungen ein, um sich beim Schutz sensibler Daten zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

using Google.Api.Gax.ResourceNames;
using Google.Cloud.Dlp.V2;
using System.Linq;

public class DeidentifyDataStoredInCloudStorage
    public static DlpJob Deidentify(
        string projectId,
        string gcsInputPath,
        string unstructuredDeidentifyTemplatePath,
        string structuredDeidentifyTemplatePath,
        string imageRedactionTemplatePath,
        string gcsOutputPath,
        string datasetId,
        string tableId)
        // Instantiate the client.
        var dlp = DlpServiceClient.Create();

        //Construct the storage config by specifying the input directory.
        var storageConfig = new StorageConfig
            CloudStorageOptions = new CloudStorageOptions
                FileSet = new CloudStorageOptions.Types.FileSet
                    Url = gcsInputPath

        // Construct the inspect config by specifying the type of info to be inspected.
        var inspectConfig = new InspectConfig
            InfoTypes =
                new InfoType[]
                    new InfoType { Name = "PERSON_NAME" },
                    new InfoType { Name = "EMAIL_ADDRESS" }
            IncludeQuote = true

        // Construct the actions to take after the inspection portion of the job is completed.
        // Specify how Cloud DLP must de-identify sensitive data in structured files, unstructured files and images
        // using Transformation config.
        // The de-identified files will be written to the the GCS bucket path specified in gcsOutputPath and the details of
        // transformations performed will be written to BigQuery table specified in datasetId and tableId.
        var actions = new Action[]
            new Action
                Deidentify = new Action.Types.Deidentify
                    CloudStorageOutput = gcsOutputPath,
                    TransformationConfig = new TransformationConfig
                        DeidentifyTemplate = unstructuredDeidentifyTemplatePath,
                        ImageRedactTemplate = imageRedactionTemplatePath,
                        StructuredDeidentifyTemplate = structuredDeidentifyTemplatePath,
                    TransformationDetailsStorageConfig = new TransformationDetailsStorageConfig
                        Table = new BigQueryTable
                            ProjectId = projectId,
                            DatasetId = datasetId,
                            TableId = tableId

        // Construct the inspect job config using created storage config, inspect config and actions.
        var inspectJob = new InspectJobConfig
            StorageConfig = storageConfig,
            InspectConfig = inspectConfig,
            Actions = { actions }

        // Create the dlp job and call the API.
        DlpJob response = dlp.CreateDlpJob(new CreateDlpJobRequest
            ParentAsLocationName = new LocationName(projectId, "global"),
            InspectJob = inspectJob

        return response;


Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.

Richten Sie Standardanmeldedaten für Anwendungen ein, um sich beim Schutz sensibler Daten zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

import (

	dlp ""

func deidentifyCloudStorage(w io.Writer, projectID, gcsUri, tableId, datasetId, outputDirectory, deidentifyTemplateId, structuredDeidentifyTemplateId, imageRedactTemplateId string) error {
	// projectId := "my-project-id"
	// gcsUri := "gs://" + "your-bucket-name" + "/path/to/your/file.txt"
	// tableId := "your-bigquery-table-id"
	// datasetId := "your-bigquery-dataset-id"
	// outputDirectory := "your-output-directory"
	// deidentifyTemplateId := "your-deidentify-template-id"
	// structuredDeidentifyTemplateId := "your-structured-deidentify-template-id"
	// imageRedactTemplateId := "your-image-redact-template-id"

	ctx := context.Background()

	// Initialize a client once and reuse it to send multiple requests. Clients
	// are safe to use across goroutines. When the client is no longer needed,
	// call the Close method to cleanup its resources.
	client, err := dlp.NewClient(ctx)
	if err != nil {
		return err

	// Closing the client safely cleans up background resources.
	defer client.Close()

	// Set path in Cloud Storage.
	cloudStorageOptions := &dlppb.CloudStorageOptions{
		FileSet: &dlppb.CloudStorageOptions_FileSet{
			Url: gcsUri,

	// Define the storage config options for cloud storage options.
	storageConfig := &dlppb.StorageConfig{
		Type: &dlppb.StorageConfig_CloudStorageOptions{
			CloudStorageOptions: cloudStorageOptions,

	// Specify the type of info the inspection will look for.
	// See for complete list of info types
	infoTypes := []*dlppb.InfoType{
		{Name: "PERSON_NAME"},
		{Name: "EMAIL_ADDRESS"},

	// inspectConfig holds the configuration settings for data inspection and analysis
	// within the context of the Google Cloud Data Loss Prevention (DLP) API.
	inspectConfig := &dlppb.InspectConfig{
		InfoTypes:    infoTypes,
		IncludeQuote: true,

	// Types of files to include for de-identification.
	fileTypesToTransform := []dlppb.FileType{

	// Specify the BigQuery table to be inspected.
	table := &dlppb.BigQueryTable{
		ProjectId: projectID,
		DatasetId: datasetId,
		TableId:   tableId,

	// transformationDetailsStorageConfig holds configuration settings for storing transformation
	// details in the context of the Google Cloud Data Loss Prevention (DLP) API.
	transformationDetailsStorageConfig := &dlppb.TransformationDetailsStorageConfig{
		Type: &dlppb.TransformationDetailsStorageConfig_Table{
			Table: table,

	transformationConfig := &dlppb.TransformationConfig{
		DeidentifyTemplate:           deidentifyTemplateId,
		ImageRedactTemplate:          imageRedactTemplateId,
		StructuredDeidentifyTemplate: structuredDeidentifyTemplateId,

	// Action to execute on the completion of a job.
	deidentify := &dlppb.Action_Deidentify{
		TransformationConfig:               transformationConfig,
		TransformationDetailsStorageConfig: transformationDetailsStorageConfig,
		Output: &dlppb.Action_Deidentify_CloudStorageOutput{
			CloudStorageOutput: outputDirectory,
		FileTypesToTransform: fileTypesToTransform,

	action := &dlppb.Action{
		Action: &dlppb.Action_Deidentify_{
			Deidentify: deidentify,

	// Configure the inspection job we want the service to perform.
	inspectJobConfig := &dlppb.InspectJobConfig{
		StorageConfig: storageConfig,
		InspectConfig: inspectConfig,
		Actions: []*dlppb.Action{

	// Construct the job creation request to be sent by the client.
	req := &dlppb.CreateDlpJobRequest{
		Parent: fmt.Sprintf("projects/%s/locations/global", projectID),
		Job: &dlppb.CreateDlpJobRequest_InspectJob{
			InspectJob: inspectJobConfig,

	// Send the request.
	resp, err := client.CreateDlpJob(ctx, req)
	if err != nil {
		fmt.Fprintf(w, "error after resp: %v", err)
		return err

	// Print the results.
	fmt.Fprint(w, "Job created successfully: ", resp.Name)
	return nil



Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.

Richten Sie Standardanmeldedaten für Anwendungen ein, um sich beim Schutz sensibler Daten zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.concurrent.TimeUnit;

public class DeidentifyCloudStorage {

  // Set the timeout duration in minutes.
  private static final int TIMEOUT_MINUTES = 15;

  public static void main(String[] args) throws IOException, InterruptedException {
    // TODO(developer): Replace these variables before running the sample.
    // The Google Cloud project id to use as a parent resource.
    String projectId = "your-project-id";
    // Specify the cloud storage directory that you want to inspect.
    String gcsPath = "gs://" + "your-bucket-name" + "/path/to/your/file.txt";
    // Specify the big query dataset id to store the transformation details.
    String datasetId = "your-bigquery-dataset-id";
    // Specify the big query table id to store the transformation details.
    String tableId = "your-bigquery-table-id";
    // Specify the cloud storage directory to store the de-identified files.
    String outputDirectory = "your-output-directory";
    // Specify the de-identify template ID for unstructured files.
    String deidentifyTemplateId = "your-deidentify-template-id";
    // Specify the de-identify template ID for structured files.
    String structuredDeidentifyTemplateId = "your-structured-deidentify-template-id";
    // Specify the de-identify template ID for images.
    String imageRedactTemplateId = "your-image-redact-template-id";

  public static void deidentifyCloudStorage(
      String projectId,
      String gcsPath,
      String tableId,
      String datasetId,
      String outputDirectory,
      String deidentifyTemplateId,
      String structuredDeidentifyTemplateId,
      String imageRedactTemplateId)
      throws IOException, InterruptedException {

    try (DlpServiceClient dlp = DlpServiceClient.create()) {
      // Set path in Cloud Storage.
      CloudStorageOptions cloudStorageOptions =

      // Set storage config indicating the type of cloud storage.
      StorageConfig storageConfig =

      // Specify the type of info the inspection will look for.
      // See for complete list of info types
      List<InfoType> infoTypes = new ArrayList<>();
      for (String typeName : new String[] {"PERSON_NAME", "EMAIL_ADDRESS"}) {

      InspectConfig inspectConfig =

      // Types of files to include for de-identification.
      List<FileType> fileTypesToTransform =
              FileType.valueOf("IMAGE"), FileType.valueOf("CSV"), FileType.valueOf("TEXT_FILE"));

      // Specify the big query table to store the transformation details.
      BigQueryTable table =

      TransformationDetailsStorageConfig transformationDetailsStorageConfig =

      // Specify the de-identify template used for the transformation.
      TransformationConfig transformationConfig =
                  ProjectDeidentifyTemplateName.of(projectId, deidentifyTemplateId).toString())
                  ProjectDeidentifyTemplateName.of(projectId, imageRedactTemplateId).toString())
                  ProjectDeidentifyTemplateName.of(projectId, structuredDeidentifyTemplateId)

      Action.Deidentify deidentify =

      Action action = Action.newBuilder().setDeidentify(deidentify).build();

      // Configure the long-running job we want the service to perform.
      InspectJobConfig inspectJobConfig =

      // Construct the job creation request to be sent by the client.
      CreateDlpJobRequest createDlpJobRequest =
              .setParent(LocationName.of(projectId, "global").toString())

      // Send the job creation request.
      DlpJob response = dlp.createDlpJob(createDlpJobRequest);

      // Get the current time.
      long startTime = System.currentTimeMillis();

      // Check if the job state is DONE.
      while (response.getState() != DlpJob.JobState.DONE) {
        // Sleep for 30 second.

        // Get the updated job status.
        response = dlp.getDlpJob(response.getName());

        // Check if the timeout duration has exceeded.
        long elapsedTime = System.currentTimeMillis() - startTime;
        if (TimeUnit.MILLISECONDS.toMinutes(elapsedTime) >= TIMEOUT_MINUTES) {
          System.out.printf("Job did not complete within %d minutes.%n", TIMEOUT_MINUTES);
      // Print the results.
      System.out.println("Job status: " + response.getState());
      System.out.println("Job name: " + response.getName());
      InspectDataSourceDetails.Result result = response.getInspectDetails().getResult();
      System.out.println("Findings: ");
      for (InfoTypeStats infoTypeStat : result.getInfoTypeStatsList()) {
        System.out.print("\tInfo type: " + infoTypeStat.getInfoType().getName());
        System.out.println("\tCount: " + infoTypeStat.getCount());


Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.

Richten Sie Standardanmeldedaten für Anwendungen ein, um sich beim Schutz sensibler Daten zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

// Imports the Google Cloud client library
const DLP = require('@google-cloud/dlp');
// Instantiates a client
const dlp = new DLP.DlpServiceClient();

// The project ID to run the API call under
// const projectId = 'my-project';

// The Cloud Storage directory that needs to be inspected
// const inputDirectory = 'your-google-cloud-storage-path';

// The ID of the dataset to inspect, e.g. 'my_dataset'
// const datasetId = 'my_dataset';

// The ID of the table to inspect, e.g. 'my_table'
// const tableId = 'my_table';

// The Cloud Storage directory that will be used to store the de-identified files
// const outputDirectory = 'your-output-directory';

// The full resource name of the default de-identify template
// const deidentifyTemplateId = 'your-deidentify-template-id';

// The full resource name of the de-identify template for structured files
// const structuredDeidentifyTemplateId = 'your-structured-deidentify-template-id';

// The full resource name of the image redaction template for images
// const imageRedactTemplateId = 'your-image-redact-template-id';

async function deidentifyCloudStorage() {
  // Specify storage configuration that uses file set.
  const storageConfig = {
    cloudStorageOptions: {
      fileSet: {
        url: inputDirectory,

  // Specify the type of info the inspection will look for.
  const infoTypes = [{name: 'PERSON_NAME'}, {name: 'EMAIL_ADDRESS'}];

  // Construct inspect configuration
  const inspectConfig = {
    infoTypes: infoTypes,
    includeQuote: true,

  // Types of files to include for de-identification.
  const fileTypesToTransform = [
    {fileType: 'IMAGE'},
    {fileType: 'CSV'},
    {fileType: 'TEXT_FILE'},

  // Specify the big query table to store the transformation details.
  const transformationDetailsStorageConfig = {
    table: {
      projectId: projectId,
      tableId: tableId,
      datasetId: datasetId,

  // Specify the de-identify template used for the transformation.
  const transformationConfig = {
    deidentifyTemplate: deidentifyTemplateId,
    structuredDeidentifyTemplate: structuredDeidentifyTemplateId,
    imageRedactTemplate: imageRedactTemplateId,

  // Construct action to de-identify sensitive data.
  const action = {
    deidentify: {
      cloudStorageOutput: outputDirectory,
      transformationConfig: transformationConfig,
      transformationDetailsStorageConfig: transformationDetailsStorageConfig,
      fileTypes: fileTypesToTransform,

  // Construct the inspect job configuration.
  const inspectJobConfig = {
    inspectConfig: inspectConfig,
    storageConfig: storageConfig,
    actions: [action],

  // Construct the job creation request to be sent by the client.
  const createDlpJobRequest = {
    parent: `projects/${projectId}/locations/global`,
    inspectJob: inspectJobConfig,
  // Send the job creation request and process the response.
  const [response] = await dlp.createDlpJob(createDlpJobRequest);
  const jobName =;

  // Waiting for a maximum of 15 minutes for the job to get complete.
  let job;
  let numOfAttempts = 30;
  while (numOfAttempts > 0) {
    // Fetch DLP Job status
    [job] = await dlp.getDlpJob({name: jobName});

    // Check if the job has completed.
    if (job.state === 'DONE') {
    if (job.state === 'FAILED') {
      console.log('Job Failed, Please check the configuration.');
    // Sleep for a short duration before checking the job status again.
    await new Promise(resolve => {
      setTimeout(() => resolve(), 30000);
    numOfAttempts -= 1;

  // Print out the results.
  const infoTypeStats = job.inspectDetails.result.infoTypeStats;
  if (infoTypeStats.length > 0) {
    infoTypeStats.forEach(infoTypeStat => {
        `  Found ${infoTypeStat.count} instance(s) of infoType ${}.`
  } else {
    console.log('No findings.');
await deidentifyCloudStorage();


Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.

Richten Sie Standardanmeldedaten für Anwendungen ein, um sich beim Schutz sensibler Daten zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

use Google\Cloud\Dlp\V2\Action;
use Google\Cloud\Dlp\V2\Action\Deidentify;
use Google\Cloud\Dlp\V2\BigQueryTable;
use Google\Cloud\Dlp\V2\Client\DlpServiceClient;
use Google\Cloud\Dlp\V2\CloudStorageOptions;
use Google\Cloud\Dlp\V2\CloudStorageOptions\FileSet;
use Google\Cloud\Dlp\V2\CreateDlpJobRequest;
use Google\Cloud\Dlp\V2\DlpJob\JobState;
use Google\Cloud\Dlp\V2\FileType;
use Google\Cloud\Dlp\V2\GetDlpJobRequest;
use Google\Cloud\Dlp\V2\InfoType;
use Google\Cloud\Dlp\V2\InspectConfig;
use Google\Cloud\Dlp\V2\InspectJobConfig;
use Google\Cloud\Dlp\V2\StorageConfig;
use Google\Cloud\Dlp\V2\TransformationConfig;
use Google\Cloud\Dlp\V2\TransformationDetailsStorageConfig;

 * De-identify sensitive data stored in Cloud Storage using the API.
 * Create an inspection job that has a de-identification action.
 * @param string $callingProjectId                  The project ID to run the API call under.
 * @param string $inputgcsPath                       The Cloud Storage directory that you want to de-identify.
 * @param string $outgcsPath                        The Cloud Storage directory where you want to store the
 *                                                  de-identified files.
 * @param string $deidentifyTemplateName            The full resource name of the default de-identify template — for
 *                                                  unstructured and structured files — if you created one. This value
 *                                                  must be in the format
 *                                                  `projects/projectName/(locations/locationId)/deidentifyTemplates/templateName`.
 * @param string $structuredDeidentifyTemplateName  The full resource name of the de-identify template for structured
 *                                                  files if you created one. This value must be in the format
 *                                                  `projects/projectName/(locations/locationId)/deidentifyTemplates/templateName`.
 * @param string $imageRedactTemplateName           The full resource name of the image redaction template for images if
 *                                                  you created one. This value must be in the format
 *                                                  `projects/projectName/(locations/locationId)/deidentifyTemplates/templateName`.
 * @param string $datasetId                         The ID of the BigQuery dataset where you want to store
 *                                                  the transformation details. If you don't provide a table ID, the
 *                                                  system automatically creates one.
 * @param string $tableId                           The ID of the BigQuery table where you want to store the
 *                                                  transformation details.
function deidentify_cloud_storage(
    // TODO(developer): Replace sample parameters before running the code.
    string $callingProjectId,
    string $inputgcsPath = 'gs://YOUR_GOOGLE_STORAGE_BUCKET',
    string $outgcsPath = 'gs://YOUR_GOOGLE_STORAGE_BUCKET',
    string $deidentifyTemplateName = 'YOUR_DEIDENTIFY_TEMPLATE_NAME',
    string $structuredDeidentifyTemplateName = 'YOUR_STRUCTURED_DEIDENTIFY_TEMPLATE_NAME',
    string $imageRedactTemplateName = 'YOUR_IMAGE_REDACT_DEIDENTIFY_TEMPLATE_NAME',
    string $datasetId = 'YOUR_DATASET_ID',
    string $tableId = 'YOUR_TABLE_ID'
): void {
    // Instantiate a client.
    $dlp = new DlpServiceClient();

    $parent = "projects/$callingProjectId/locations/global";

    // Specify the GCS Path to be de-identify.
    $cloudStorageOptions = (new CloudStorageOptions())
        ->setFileSet((new FileSet())
    $storageConfig = (new StorageConfig())

    // Specify the type of info the inspection will look for.
    $inspectConfig = (new InspectConfig())
            (new InfoType())->setName('PERSON_NAME'),
            (new InfoType())->setName('EMAIL_ADDRESS')

    // Specify the big query table to store the transformation details.
    $transformationDetailsStorageConfig = (new TransformationDetailsStorageConfig())
        ->setTable((new BigQueryTable())

    // Specify the de-identify template used for the transformation.
    $transformationConfig = (new TransformationConfig())
            DlpServiceClient::projectDeidentifyTemplateName($callingProjectId, $deidentifyTemplateName)
            DlpServiceClient::projectDeidentifyTemplateName($callingProjectId, $structuredDeidentifyTemplateName)
            DlpServiceClient::projectDeidentifyTemplateName($callingProjectId, $imageRedactTemplateName)

    $deidentify = (new Deidentify())
        ->setFileTypesToTransform([FileType::TEXT_FILE, FileType::IMAGE, FileType::CSV]);

    $action = (new Action())

    // Configure the inspection job we want the service to perform.
    $inspectJobConfig = (new InspectJobConfig())

    // Send the job creation request and process the response.
    $createDlpJobRequest = (new CreateDlpJobRequest())
    $job = $dlp->createDlpJob($createDlpJobRequest);

    $numOfAttempts = 10;
    do {
        printf('Waiting for job to complete' . PHP_EOL);
        $getDlpJobRequest = (new GetDlpJobRequest())
        $job = $dlp->getDlpJob($getDlpJobRequest);
        if ($job->getState() == JobState::DONE) {
    } while ($numOfAttempts > 0);

    // Print finding counts.
    printf('Job %s status: %s' . PHP_EOL, $job->getName(), JobState::name($job->getState()));
    switch ($job->getState()) {
        case JobState::DONE:
            $infoTypeStats = $job->getInspectDetails()->getResult()->getInfoTypeStats();
            if (count($infoTypeStats) === 0) {
                printf('No findings.' . PHP_EOL);
            } else {
                foreach ($infoTypeStats as $infoTypeStat) {
                        '  Found %s instance(s) of infoType %s' . PHP_EOL,
        case JobState::FAILED:
            printf('Job %s had errors:' . PHP_EOL, $job->getName());
            $errors = $job->getErrors();
            foreach ($errors as $error) {
        case JobState::PENDING:
            printf('Job has not completed. Consider a longer timeout or an asynchronous execution model' . PHP_EOL);
            printf('Unexpected job state. Most likely, the job is either running or has not yet started.');


Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.

Richten Sie Standardanmeldedaten für Anwendungen ein, um sich beim Schutz sensibler Daten zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

import time
from typing import List


def deidentify_cloud_storage(
    project: str,
    input_gcs_bucket: str,
    output_gcs_bucket: str,
    info_types: List[str],
    deid_template_id: str,
    structured_deid_template_id: str,
    image_redact_template_id: str,
    dataset_id: str,
    table_id: str,
    timeout: int = 300,
) -> None:
    Uses the Data Loss Prevention API to de-identify files in a Google Cloud
    Storage directory.
        project: The Google Cloud project id to use as a parent resource.
        input_gcs_bucket: The name of google cloud storage bucket to inspect.
        output_gcs_bucket: The name of google cloud storage bucket where
            de-identified files would be stored.
        info_types: A list of strings representing info types to look for.
            A full list of info type categories can be fetched from the API.
        deid_template_id: The name of the de-identify template for
            unstructured and structured files.
        structured_deid_template_id: The name of the de-identify template
            for structured files.
        image_redact_template_id: The name of the image redaction template
            for images.
        dataset_id: The identifier of the BigQuery dataset where transformation
            details would be stored.
        table_id: The identifier of the BigQuery table where transformation
            details would be stored.
        timeout: The number of seconds to wait for a response from the API.

    # Instantiate a client.
    dlp =

    # Construct the configuration dictionary.
    # Specify the type of info the inspection will look for.
    # See for complete list of info types.
    inspect_config = {"info_types": [{"name": info_type} for info_type in info_types]}

    # Construct cloud_storage_options dictionary with the bucket's URL.
    storage_config = {
        "cloud_storage_options": {"file_set": {"url": f"gs://{input_gcs_bucket}"}}

    # Specify the big query table to store the transformation details.
    big_query_table = {
        "project_id": project,
        "dataset_id": dataset_id,
        "table_id": table_id,

    # Convert the project id into a full resource id.
    parent = f"projects/{project}/locations/global"

    # Construct Transformation Configuration with de-identify Templates used
    # for transformation.
    transformation_config = {
        "deidentify_template": f"{parent}/deidentifyTemplates/{deid_template_id}",
        "structured_deidentify_template": f"{parent}/deidentifyTemplates/{structured_deid_template_id}",
        "image_redact_template": f"{parent}/deidentifyTemplates/{image_redact_template_id}",

    # Tell the API where to send notification when the job is completed.
    actions = [
            "deidentify": {
                "cloud_storage_output": f"gs://{output_gcs_bucket}",
                "transformation_config": transformation_config,
                "transformation_details_storage_config": {"table": big_query_table},
                "file_types_to_transform": ["IMAGE", "CSV", "TEXT_FILE"],

    # Construct the job definition.
    inspect_job = {
        "inspect_config": inspect_config,
        "storage_config": storage_config,
        "actions": actions,

    # Call the API.
    response = dlp.create_dlp_job(
            "parent": parent,
            "inspect_job": inspect_job,

    job_name =
    print(f"Inspection Job started : {job_name}")

    # Waiting for the job to get completed.
    job = dlp.get_dlp_job(request={"name": job_name})
    # Since the sleep time is kept as 30s, number of calls would be timeout/30.
    no_of_attempts = timeout // 30
    while no_of_attempts != 0:
        # Check if the job has completed.
        if job.state ==
        if job.state ==
            print("Job Failed, Please check the configuration.")

        # Sleep for a short duration before checking the job status again.
        no_of_attempts -= 1

        # Get DLP job status.
        job = dlp.get_dlp_job(request={"name": job_name})

    if job.state !=
        print(f"Job did not complete within {timeout} minutes.")

    # Print out the results.
    print(f"Job name: {}")
    result = job.inspect_details.result
    print(f"Processed Bytes: {result.processed_bytes}")
    if result.info_type_stats:
        for stats in result.info_type_stats:
            print(f"Info type: {}")
            print(f"Count: {stats.count}")
        print("No findings.")



   "inspect_job": {
     "storage_config": {
       "cloud_storage_options": {
         "file_set": {
           "url": "INPUT_DIRECTORY"
     "inspect_config": {
       "info_types": [
           "name": "PERSON_NAME"
     "actions": {
       "deidentify": {
         "cloud_storage_output": "OUTPUT_DIRECTORY",
         "transformation_config": {
           "deidentify_template": "DEIDENTIFY_TEMPLATE_NAME",
           "structured_deidentify_template": "STRUCTURED_DEIDENTIFY_TEMPLATE_NAME",
           "image_redact_template": "IMAGE_REDACTION_TEMPLATE_NAME"
         "transformation_details_storage_config": {
           "table": {
             "project_id": "TRANSFORMATION_DETAILS_PROJECT_ID",
             "dataset_id": "TRANSFORMATION_DETAILS_DATASET_ID",
             "table_id": "TRANSFORMATION_DETAILS_TABLE_ID"
         "fileTypesToTransform": ["IMAGE","CSV", "TEXT_FILE"]

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID des Projekts, in dem Sie den Inspektionsjob speichern möchten.
  • INPUT_DIRECTORY: das Cloud Storage-Verzeichnis, das Sie prüfen möchten, z. B. gs://input-bucket/folder1/folder1a Endet die URL mit einem abschließenden Schrägstrich, werden Unterverzeichnisse innerhalb von INPUT_DIRECTORY nicht gescannt.
  • OUTPUT_DIRECTORY: das Cloud Storage-Verzeichnis, in dem Sie die de-identifizierten Dateien speichern möchten. Dieses Verzeichnis darf sich nicht im selben Cloud Storage-Bucket wie INPUT_DIRECTORY befinden.
  • DEIDENTIFY_TEMPLATE_NAME: der vollständige Ressourcenname der standardmäßigen De-Identifikationsvorlage – für unstrukturierte und strukturierte Dateien, wenn Sie eine erstellt haben. Dieser Wert muss das Format projects/projectName/(locations/locationId)/deidentifyTemplates/templateName haben.
  • STRUCTURED_DEIDENTIFY_TEMPLATE_NAME: Der vollständige Ressourcenname der De-Identifikationsvorlage für strukturierte Dateien, falls Sie eine erstellt haben. Dieser Wert muss das Format projects/projectName/(locations/locationId)/deidentifyTemplates/templateName haben.
  • IMAGE_REDACTION_TEMPLATE_NAME: Der vollständige Ressourcenname der Vorlage zum Entfernen von Bildern für Bilder, wenn Sie eine erstellt haben. Dieser Wert muss das Format projects/projectName/(locations/locationId)/deidentifyTemplates/templateName haben.
  • TRANSFORMATION_DETAILS_PROJECT_ID: die ID des Projekts, in dem Sie die Transformationsdetails speichern möchten.
  • TRANSFORMATION_DETAILS_DATASET_ID: die ID des BigQuery-Datasets, in dem Sie die Transformationsdetails speichern möchten. Wenn Sie keine Tabellen-ID angeben, erstellt das System automatisch eine.
  • TRANSFORMATION_DETAILS_TABLE_ID: die ID der BigQuery-Tabelle, in der Sie die Transformationsdetails speichern möchten.

Beachten Sie die folgenden Objekte:

  • inspectJob: Das Konfigurationsobjekt für den Job (DlpJob). Dieses Objekt enthält die Konfiguration für die Prüfungs- und die De-Identifikationsphase.
  • storageConfig: Der Speicherort des zu prüfenden Inhalts (StorageConfig). In diesem Beispiel wird ein Cloud Storage-Bucket CloudStorageOptions angegeben.
  • inspectConfig: Informationen zu den sensiblen Daten, die überprüft werden sollen (InspectConfig). In diesem Beispiel wird nach Inhalten gesucht, die dem integrierten infoType PERSON_NAME entsprechen.
  • actions: Die Aktionen, die ausgeführt werden sollen, nachdem die Inspektion des Jobs abgeschlossen ist (Action).
  • deidentify: Wenn Sie diese Aktion angeben, wird der Schutz sensibler Daten angewiesen, die übereinstimmenden sensiblen Daten gemäß der darin angegebenen Konfiguration (Deidentify) zu de-identifizieren.
  • cloud_storage_output: Gibt die URL des Cloud Storage-Verzeichnisses an, das Sie prüfen möchten.
  • transformation_config: Gibt an, wie der Schutz sensibler Daten sensible Daten in strukturierten Dateien, unstrukturierten Dateien und Bildern de-identifizieren muss (TransformationConfig).

    Wenn Sie kein TransformationConfig-Objekt angeben, ersetzt der Schutz sensibler Daten sensible Daten im Text durch seinen infoType. Auf Bildern überdeckt sie sensible Daten mit einem schwarzen Kasten.

  • transformation_details_storage_config: gibt an, dass der Schutz sensibler Daten Metadaten zu jeder Transformation speichern muss, die er für diesen Job ausführt. Außerdem werden der Speicherort und der Name der Tabelle angegeben, in der der Schutz sensibler Daten diese Metadaten speichern muss (TransformationDetailsStorageConfig).

  • fileTypesToTransform: Beschränkt den De-Identifikationsvorgang auf die von Ihnen aufgelisteten Dateitypen. Wenn Sie dieses Feld nicht festlegen, werden alle im Inspektionsvorgang unterstützten Dateitypen auch in den De-Identifikationsvorgang einbezogen. In diesem Beispiel de-identifiziert der Schutz sensibler Daten nur Bild-, CSV- und Textdateien, auch wenn Sie DlpJob so konfiguriert haben, dass alle unterstützten Dateitypen geprüft werden.

Inspektionsjob über die REST API erstellen

Senden Sie eine projects.dlpJobs.create-Anfrage, um den Inspektionsjob (DlpJob) zu erstellen. Um die Anfrage mit cURL zu senden, speichern Sie das vorherige REST-Beispiel als JSON-Datei und führen Sie den folgenden Befehl aus:

curl -s \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \ \

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID des Projekts, in dem Sie DlpJob gespeichert haben.
  • PATH_TO_JSON_FILE: der Pfad zur JSON-Datei, die den Anfragetext enthält.

Der Schutz sensibler Daten gibt die ID des neu erstellten DlpJob, seinen Status und einen Snapshot der von Ihnen festgelegten Inspektionskonfiguration zurück.

  "name": "projects/PROJECT_ID/dlpJobs/JOB_ID",
  "type": "INSPECT_JOB",
  "state": "PENDING",

Ergebnisse des Inspektionsjobs abrufen

Senden Sie eine projects.dlpJobs.get-Anfrage, um die Ergebnisse von DlpJob abzurufen:

curl -s \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID des Projekts, in dem Sie DlpJob gespeichert haben.
  • JOB_ID: die ID des Jobs, die beim Erstellen von DlpJob zurückgegeben wurde.

Wenn der Vorgang abgeschlossen ist, erhalten Sie eine Antwort ähnlich der folgenden:

  "name": "projects/PROJECT_ID/dlpJobs/JOB_ID",
  "type": "INSPECT_JOB",
  "state": "DONE",
  "inspectDetails": {
    "requestedOptions": {
      "snapshotInspectTemplate": {},
      "jobConfig": {
        "storageConfig": {
          "cloudStorageOptions": {
            "fileSet": {
              "url": "INPUT_DIRECTORY"
        "inspectConfig": {
          "infoTypes": [
              "name": "PERSON_NAME"
          "limits": {}
        "actions": [
            "deidentify": {
              "transformationDetailsStorageConfig": {
                "table": {
                  "projectId": "TRANSFORMATION_DETAILS_PROJECT_ID",
                  "datasetId": "TRANSFORMATION_DETAILS_DATASET_ID",
                  "tableId": "TRANSFORMATION_DETAILS_TABLE_ID"
              "transformationConfig": {
                "deidentifyTemplate": "DEIDENTIFY_TEMPLATE_NAME",
                "structuredDeidentifyTemplate": "STRUCTURED_DEIDENTIFY_TEMPLATE_NAME",
                "imageRedactTemplate": "IMAGE_REDACTION_TEMPLATE_NAME"
              "fileTypesToTransform": [
              "cloudStorageOutput": "OUTPUT_DIRECTORY"
    "result": {
      "processedBytes": "25242",
      "totalEstimatedBytes": "25242",
      "infoTypeStats": [
          "infoType": {
            "name": "PERSON_NAME"
          "count": "114"
  "createTime": "2022-06-09T23:00:53.380Z",
  "startTime": "2022-06-09T23:01:27.986383Z",
  "endTime": "2022-06-09T23:02:00.443536Z",
  "actionDetails": [
      "deidentifyDetails": {
        "requestedOptions": {
          "snapshotDeidentifyTemplate": {
            "name": "DEIDENTIFY_TEMPLATE_NAME",
            "createTime": "2022-06-09T17:46:34.208923Z",
            "updateTime": "2022-06-09T17:46:34.208923Z",
            "deidentifyConfig": {
              "infoTypeTransformations": {
                "transformations": [
                    "primitiveTransformation": {
                      "characterMaskConfig": {
                        "maskingCharacter": "*",
                        "numberToMask": 25
            "locationId": "global"
          "snapshotStructuredDeidentifyTemplate": {
            "createTime": "2022-06-09T20:51:12.411456Z",
            "updateTime": "2022-06-09T21:07:53.633149Z",
            "deidentifyConfig": {
              "recordTransformations": {
                "fieldTransformations": [
                    "fields": [
                        "name": "Name"
                    "primitiveTransformation": {
                      "replaceConfig": {
                        "newValue": {
                          "stringValue": "[redacted]"
            "locationId": "global"
          "snapshotImageRedactTemplate": {
            "name": "IMAGE_REDACTION_TEMPLATE_NAME",
            "createTime": "2022-06-09T20:52:25.453564Z",
            "updateTime": "2022-06-09T20:52:25.453564Z",
            "deidentifyConfig": {},
            "locationId": "global"
        "deidentifyStats": {
          "transformedBytes": "3972",
          "transformationCount": "110"
  "locationId": "global"

