Généralisation et binning

La généralisation consiste à transformer une valeur distinctive en valeur plus générale, moins caractéristique. La généralisation tente de préserver l'utilité des données tout en réduisant leur caractère personnel.

Il peut exister plusieurs niveaux de généralisation en fonction du type de données. Le niveau de généralisation requis pour un ensemble de données ou une population réelle peut être mesuré à l'aide de techniques telles que celles incluses dans l'analyse des risques de la protection des données sensibles.

Le binning est une technique de généralisation courante disponible dans la protection des données sensibles. Il vous permet de regrouper des enregistrements dans des ensembles plus petits afin de réduire le risque qu'un pirate informatique associe des informations sensibles à des informations personnelles. Le sens et l'utilité des données sont conservés, et les valeurs individuelles qui sont associées à un nombre insuffisant de participants peuvent également être masquées.

Scénario de binning 1

Prenons un exemple de binning numérique : une base de données stocke les notes de satisfaction des utilisateurs qui vont de 0 à 100. La base de données ressemble à l'exemple suivant :

ID utilisateur Note
1 100
2 100
3 92

En parcourant les données, vous constatez que certaines valeurs sont rarement définies par les utilisateurs. En effet, certaines notes n'ont été attribuées que par un seul utilisateur. Par exemple, la majorité des utilisateurs ont choisi 0, 25, 50, 75 ou 100 comme note. Cependant, cinq utilisateurs ont choisi 95 et un seul utilisateur a choisi 92. Au lieu de conserver les données brutes, vous pouvez généraliser ces valeurs en groupes et éliminer les groupes comptant un nombre de participants insuffisant. Selon la façon dont les données sont utilisées, la généralisation des données à l'aide de cette technique pourrait permettre d'empêcher la restauration de l'identification.

Vous pouvez choisir de supprimer ces lignes uniques ou de préserver leur utilité à l'aide du binning. Pour cet exemple, classons toutes les valeurs comme suit :

  • 0-25 : "Low"
  • 26-75 : "Medium"
  • 76-100 : "High"

Le binning dans Sensitive Data Protection est l'une des nombreuses transformations primitives disponibles pour la suppression de l'identification. La configuration JSON suivante illustre comment mettre en œuvre ce scénario de binning dans l'API DLP. Elle peut être incluse dans une requête à envoyer à la méthode content.deidentify.

Pour savoir comment installer et utiliser la bibliothèque cliente pour la protection des données sensibles, consultez la page Bibliothèques clientes de la protection des données sensibles.

Pour vous authentifier auprès de la protection des données sensibles, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

using System;
using Google.Api.Gax.ResourceNames;
using Google.Cloud.Dlp.V2;

public class DeidentifyTableWithPrimitiveBucketing
    public static Table DeidentifyData(
        string projectId,
        Table tableToInspect = null)
        // Instantiate dlp client.
        var dlp = DlpServiceClient.Create();

        // Construct the table if null.
        if (tableToInspect == null)
            var row1 = new Value[]
                new Value { IntegerValue = 1 },
                new Value { IntegerValue = 95 }
            var row2 = new Value[]
                new Value { IntegerValue = 2 },
                new Value { IntegerValue = 61 }
            var row3 = new Value[]
                new Value { IntegerValue = 3 },
                new Value { IntegerValue = 22 }

            tableToInspect = new Table
                Headers =
                    new FieldId { Name = "user_id" },
                    new FieldId { Name = "score" }
                Rows =
                    new Table.Types.Row { Values = { row1 } },
                    new Table.Types.Row { Values = { row2 } },
                    new Table.Types.Row { Values = { row3 } }

        // Specify the table and construct the content item.
        var contentItem = new ContentItem { Table = tableToInspect };

        // Specify how the content should be de-identified.
        var bucketingConfig = new BucketingConfig
            Buckets =
                new BucketingConfig.Types.Bucket
                    Min = new Value { IntegerValue = 0 },
                    Max = new Value { IntegerValue = 25 },
                    ReplacementValue = new Value { StringValue = "Low" }
                new BucketingConfig.Types.Bucket
                    Min = new Value { IntegerValue = 25 },
                    Max = new Value { IntegerValue = 75 },
                    ReplacementValue = new Value { StringValue = "Medium" }
                new BucketingConfig.Types.Bucket
                    Min = new Value { IntegerValue = 75 },
                    Max = new Value { IntegerValue = 100 },
                    ReplacementValue = new Value { StringValue = "High" }

        // Specify the fields to be encrypted.
        var fields = new FieldId[] { new FieldId { Name = "score" } };

        // Associate the de-identification with the specified field.
        var fieldTransformation = new FieldTransformation
            PrimitiveTransformation = new PrimitiveTransformation
                BucketingConfig = bucketingConfig
            Fields = { fields }

        // Construct the de-identify config.
        var deidentifyConfig = new DeidentifyConfig
            RecordTransformations = new RecordTransformations
                FieldTransformations = { fieldTransformation }

        // Construct the request.
        var request = new DeidentifyContentRequest
            ParentAsLocationName = new LocationName(projectId, "global"),
            DeidentifyConfig = deidentifyConfig,
            Item = contentItem,

        // Call the API.
        DeidentifyContentResponse response = dlp.DeidentifyContent(request);

        // Inspect the response.

        return response.Item.Table;

Pour savoir comment installer et utiliser la bibliothèque cliente pour la protection des données sensibles, consultez la page Bibliothèques clientes de la protection des données sensibles.

Pour vous authentifier auprès de la protection des données sensibles, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

import (

	dlp "cloud.google.com/go/dlp/apiv2"

// deIdentifyTablePrimitiveBucketing bucket sensitive data by grouping numerical values into
// predefined ranges to generalize and protect user information.
func deIdentifyTablePrimitiveBucketing(w io.Writer, projectID string) error {
	// projectId := "your-project-id"

	row1 := &dlppb.Table_Row{
		Values: []*dlppb.Value{
			{Type: &dlppb.Value_StringValue{StringValue: "22"}},
			{Type: &dlppb.Value_StringValue{StringValue: "Jane Austen"}},
			{Type: &dlppb.Value_StringValue{StringValue: "21"}},

	row2 := &dlppb.Table_Row{
		Values: []*dlppb.Value{
			{Type: &dlppb.Value_StringValue{StringValue: "101"}},
			{Type: &dlppb.Value_StringValue{StringValue: "Charles Dickens"}},
			{Type: &dlppb.Value_StringValue{StringValue: "95"}},

	row3 := &dlppb.Table_Row{
		Values: []*dlppb.Value{
			{Type: &dlppb.Value_StringValue{StringValue: "55"}},
			{Type: &dlppb.Value_StringValue{StringValue: "Mark Twain"}},
			{Type: &dlppb.Value_StringValue{StringValue: "75"}},

	tableToDeidentify := &dlppb.Table{
		Headers: []*dlppb.FieldId{
			{Name: "AGE"},
			{Name: "PATIENT"},
		Rows: []*dlppb.Table_Row{
			{Values: row1.Values},
			{Values: row2.Values},
			{Values: row3.Values},
	ctx := context.Background()

	// Initialize a client once and reuse it to send multiple requests. Clients
	// are safe to use across goroutines. When the client is no longer needed,
	// call the Close method to cleanup its resources.
	client, err := dlp.NewClient(ctx)
	if err != nil {
		return err

	// Closing the client safely cleans up background resources.
	defer client.Close()

	// Specify what content you want the service to de-identify.
	contentItem := &dlppb.ContentItem{
		DataItem: &dlppb.ContentItem_Table{
			Table: tableToDeidentify,

	// Specify how the content should be de-identified.
	buckets := []*dlppb.BucketingConfig_Bucket{
			Min: &dlppb.Value{
				Type: &dlppb.Value_IntegerValue{
					IntegerValue: 0,
			Max: &dlppb.Value{
				Type: &dlppb.Value_IntegerValue{
					IntegerValue: 25,
			ReplacementValue: &dlppb.Value{
				Type: &dlppb.Value_StringValue{
					StringValue: "low",
			Min: &dlppb.Value{
				Type: &dlppb.Value_IntegerValue{
					IntegerValue: 25,
			Max: &dlppb.Value{
				Type: &dlppb.Value_IntegerValue{
					IntegerValue: 75,
			ReplacementValue: &dlppb.Value{
				Type: &dlppb.Value_StringValue{
					StringValue: "Medium",
			Min: &dlppb.Value{
				Type: &dlppb.Value_IntegerValue{
					IntegerValue: 75,
			Max: &dlppb.Value{
				Type: &dlppb.Value_IntegerValue{
					IntegerValue: 100,
			ReplacementValue: &dlppb.Value{
				Type: &dlppb.Value_StringValue{
					StringValue: "High",

	// Specify the BucketingConfig in primitive transformation.
	primitiveTransformation := &dlppb.PrimitiveTransformation_BucketingConfig{
		BucketingConfig: &dlppb.BucketingConfig{
			Buckets: buckets,

	// Specify the field of the table to be de-identified
	feildId := &dlppb.FieldId{

	// Specify the field transformation which apply to input field(s) on which you want to transform.
	fieldTransformation := &dlppb.FieldTransformation{
		Transformation: &dlppb.FieldTransformation_PrimitiveTransformation{
			PrimitiveTransformation: &dlppb.PrimitiveTransformation{
				Transformation: primitiveTransformation,
		Fields: []*dlppb.FieldId{
	// Specify the record transformation to transform the record by applying various field transformations
	transformation := &dlppb.RecordTransformations{
		FieldTransformations: []*dlppb.FieldTransformation{
	// Specify the deidentification config.
	deidentifyConfig := &dlppb.DeidentifyConfig{
		Transformation: &dlppb.DeidentifyConfig_RecordTransformations{
			RecordTransformations: transformation,

	// Construct the de-identification request to be sent by the client.
	req := &dlppb.DeidentifyContentRequest{
		Parent:           fmt.Sprintf("projects/%s/locations/global", projectID),
		DeidentifyConfig: deidentifyConfig,
		Item:             contentItem,

	// Send the request.
	resp, err := client.DeidentifyContent(ctx, req)
	if err != nil {
		return err

	// Print the results.
	fmt.Fprintf(w, "Table after de-identification : %v", resp.GetItem().GetTable())
	return nil

Pour savoir comment installer et utiliser la bibliothèque cliente pour la protection des données sensibles, consultez la page Bibliothèques clientes de la protection des données sensibles.

Pour vous authentifier auprès de la protection des données sensibles, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

import com.google.cloud.dlp.v2.DlpServiceClient;
import com.google.privacy.dlp.v2.BucketingConfig;
import com.google.privacy.dlp.v2.ContentItem;
import com.google.privacy.dlp.v2.DeidentifyConfig;
import com.google.privacy.dlp.v2.DeidentifyContentRequest;
import com.google.privacy.dlp.v2.DeidentifyContentResponse;
import com.google.privacy.dlp.v2.FieldId;
import com.google.privacy.dlp.v2.FieldTransformation;
import com.google.privacy.dlp.v2.LocationName;
import com.google.privacy.dlp.v2.PrimitiveTransformation;
import com.google.privacy.dlp.v2.RecordTransformations;
import com.google.privacy.dlp.v2.Table;
import com.google.privacy.dlp.v2.Value;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class DeIdentifyTableWithBucketingConfig {
  public static void main(String[] args) throws Exception {

    // TODO(developer): Replace these variables before running the sample.
    // The Google Cloud project id to use as a parent resource.
    String projectId = "your-project-id";
    // Specify the table to be considered for de-identification.
    Table tableToDeIdentify =
            .addHeaders(FieldId.newBuilder().setName("HAPPINESS SCORE").build())
                    .addValues(Value.newBuilder().setStringValue("Charles Dickens").build())
                    .addValues(Value.newBuilder().setStringValue("Jane Austen").build())
                    .addValues(Value.newBuilder().setStringValue("Mark Twain").build())

    deIdentifyTableBucketing(projectId, tableToDeIdentify);

  // Performs data de-identification on a table by replacing the values within each bucket with
  // predefined replacement values.
  public static Table deIdentifyTableBucketing(String projectId, Table tableToDeIdentify)
      throws IOException {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (DlpServiceClient dlp = DlpServiceClient.create()) {
      // Specify what content you want the service to de-identify.
      ContentItem contentItem = ContentItem.newBuilder().setTable(tableToDeIdentify).build();

      List<BucketingConfig.Bucket> buckets = new ArrayList<>();

      BucketingConfig bucketingConfig = BucketingConfig.newBuilder().addAllBuckets(buckets).build();

      PrimitiveTransformation primitiveTransformation =

      // Specify the field of the table to be de-identified.
      FieldId fieldId = FieldId.newBuilder().setName("HAPPINESS SCORE").build();

      FieldTransformation fieldTransformation =
      RecordTransformations transformations =

      DeidentifyConfig deidentifyConfig =

      // Combine configurations into a request for the service.
      DeidentifyContentRequest request =
              .setParent(LocationName.of(projectId, "global").toString())

      // Send the request and receive response from the service.
      DeidentifyContentResponse response = dlp.deidentifyContent(request);

      // Print the results.
      System.out.println("Table after de-identification: " + response.getItem().getTable());
      return response.getItem().getTable();

Pour savoir comment installer et utiliser la bibliothèque cliente pour la protection des données sensibles, consultez la page Bibliothèques clientes de la protection des données sensibles.

Pour vous authentifier auprès de la protection des données sensibles, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

// Imports the Google Cloud client library
const DLP = require('@google-cloud/dlp');
// Instantiates a client
const dlp = new DLP.DlpServiceClient();

// The project ID to run the API call under
// const projectId = 'your-project-id';

// Construct the tabular data
const tablularData = {
  headers: [{name: 'AGE'}, {name: 'PATIENT'}, {name: 'HAPPINESS SCORE'}],
  rows: [
      values: [
        {stringValue: '101'},
        {stringValue: 'Charles Dickens'},
        {integerValue: 95},
      values: [
        {stringValue: '22'},
        {stringValue: 'Jane Austen'},
        {integerValue: 21},
      values: [
        {stringValue: '55'},
        {stringValue: 'Mark Twain'},
        {integerValue: 75},

async function deIdentifyTableBucketing() {
  // Construct bucket confiugrations
  const buckets = [
      min: {integerValue: 0},
      max: {integerValue: 25},
      replacementValue: {stringValue: 'Low'},
      min: {integerValue: 25},
      max: {integerValue: 75},
      replacementValue: {stringValue: 'Medium'},
      min: {integerValue: 75},
      max: {integerValue: 100},
      replacementValue: {stringValue: 'High'},

  const bucketingConfig = {
    buckets: buckets,

  // The list of fields to be transformed.
  const fieldIds = [{name: 'HAPPINESS SCORE'}];

  // Associate fields with bucketing configuration.
  const fieldTransformations = [
      primitiveTransformation: {bucketingConfig: bucketingConfig},
      fields: fieldIds,

  // Specify de-identify configuration using transformation object.
  const deidentifyConfig = {
    recordTransformations: {
      fieldTransformations: fieldTransformations,

  // Combine configurations into a request for the service.
  const request = {
    parent: `projects/${projectId}/locations/global`,
    deidentifyConfig: deidentifyConfig,
    item: {
      table: tablularData,
  // Send the request and receive response from the service.
  const [response] = await dlp.deidentifyContent(request);

  // Print the results.
    `Table after de-identification: ${JSON.stringify(

Pour savoir comment installer et utiliser la bibliothèque cliente pour la protection des données sensibles, consultez la page Bibliothèques clientes de la protection des données sensibles.

Pour vous authentifier auprès de la protection des données sensibles, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

use Google\Cloud\Dlp\V2\BucketingConfig;
use Google\Cloud\Dlp\V2\BucketingConfig\Bucket;
use Google\Cloud\Dlp\V2\Client\DlpServiceClient;
use Google\Cloud\Dlp\V2\ContentItem;
use Google\Cloud\Dlp\V2\DeidentifyConfig;
use Google\Cloud\Dlp\V2\DeidentifyContentRequest;
use Google\Cloud\Dlp\V2\FieldId;
use Google\Cloud\Dlp\V2\FieldTransformation;
use Google\Cloud\Dlp\V2\PrimitiveTransformation;
use Google\Cloud\Dlp\V2\RecordTransformations;
use Google\Cloud\Dlp\V2\Table;
use Google\Cloud\Dlp\V2\Table\Row;
use Google\Cloud\Dlp\V2\Value;

 * De-identify data using primitive bucketing.
 * https://cloud.google.com/dlp/docs/concepts-bucketing#bucketing_scenario_1
 * @param string $callingProjectId      The Google Cloud project id to use as a parent resource.
 * @param string $inputCsvFile          The input file(csv) path to deidentify.
 * @param string $outputCsvFile         The oupt file path to save deidentify content.
function deidentify_table_primitive_bucketing(
    // TODO(developer): Replace sample parameters before running the code.
    string $callingProjectId,
    string $inputCsvFile = './test/data/table4.csv',
    string $outputCsvFile = './test/data/deidentify_table_primitive_bucketing_output.csv'
): void {
    // Instantiate a client.
    $dlp = new DlpServiceClient();

    // Read a CSV file.
    $csvLines = file($inputCsvFile, FILE_IGNORE_NEW_LINES);
    $csvHeaders = explode(',', $csvLines[0]);
    $csvRows = array_slice($csvLines, 1);

    // Convert CSV file into protobuf objects.
    $tableHeaders = array_map(function ($csvHeader) {
        return (new FieldId)->setName($csvHeader);
    }, $csvHeaders);

    $tableRows = array_map(function ($csvRow) {
        $rowValues = array_map(function ($csvValue) {
            return (new Value())
        }, explode(',', $csvRow));
        return (new Row())
    }, $csvRows);

    // Construct the table object.
    $tableToDeIdentify = (new Table())

    // Specify what content you want the service to de-identify.
    $contentItem = (new ContentItem())

    // Specify how the content should be de-identified.
    $buckets = [
        (new Bucket())
            ->setMin((new Value())
            ->setMax((new Value())
            ->setReplacementValue((new Value())
        (new Bucket())
            ->setMin((new Value())
            ->setMax((new Value())
            ->setReplacementValue((new Value())
        (new Bucket())
            ->setMin((new Value())
            ->setMax((new Value())
            ->setReplacementValue((new Value())

    $bucketingConfig = (new BucketingConfig())

    $primitiveTransformation = (new PrimitiveTransformation())

    // Specify the field of the table to be de-identified.
    $fieldId = (new FieldId())

    $fieldTransformation = (new FieldTransformation())

    $recordTransformations = (new RecordTransformations())

    // Create the deidentification configuration object.
    $deidentifyConfig = (new DeidentifyConfig())

    $parent = "projects/$callingProjectId/locations/global";

    // Send the request and receive response from the service.
    $deidentifyContentRequest = (new DeidentifyContentRequest())
    $response = $dlp->deidentifyContent($deidentifyContentRequest);

    // Print the results.
    $csvRef = fopen($outputCsvFile, 'w');
    fputcsv($csvRef, $csvHeaders);
    foreach ($response->getItem()->getTable()->getRows() as $tableRow) {
        $values = array_map(function ($tableValue) {
            return $tableValue->getStringValue();
        }, iterator_to_array($tableRow->getValues()));
        fputcsv($csvRef, $values);
    printf('Table after deidentify (File Location): %s', $outputCsvFile);

Pour savoir comment installer et utiliser la bibliothèque cliente pour la protection des données sensibles, consultez la page Bibliothèques clientes de la protection des données sensibles.

Pour vous authentifier auprès de la protection des données sensibles, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

import google.cloud.dlp

def deidentify_table_primitive_bucketing(
    project: str,
) -> None:
    """Uses the Data Loss Prevention API to de-identify sensitive data in
    a table by replacing them with generalized bucket labels.
        project: The Google Cloud project id to use as a parent resource.

    # Instantiate a client.
    dlp = google.cloud.dlp_v2.DlpServiceClient()

    # Convert the project id into a full resource id.
    parent = f"projects/{project}/locations/global"

    # Dictionary representing table to de-identify.
    # The table can also be taken as input to the function.
    table_to_deid = {
        "header": ["age", "patient", "happiness_score"],
        "rows": [
            ["101", "Charles Dickens", "95"],
            ["22", "Jane Austen", "21"],
            ["90", "Mark Twain", "75"],

    # Construct the `table`. For more details on the table schema, please see
    # https://cloud.google.com/dlp/docs/reference/rest/v2/ContentItem#Table
    headers = [{"name": val} for val in table_to_deid["header"]]
    rows = []
    for row in table_to_deid["rows"]:
        rows.append({"values": [{"string_value": cell_val} for cell_val in row]})

    table = {"headers": headers, "rows": rows}

    # Construct the `item` for table to de-identify.
    item = {"table": table}

    # Construct generalised bucket configuration.
    buckets_config = [
            "min_": {"integer_value": 0},
            "max_": {"integer_value": 25},
            "replacement_value": {"string_value": "Low"},
            "min_": {"integer_value": 25},
            "max_": {"integer_value": 75},
            "replacement_value": {"string_value": "Medium"},
            "min_": {"integer_value": 75},
            "max_": {"integer_value": 100},
            "replacement_value": {"string_value": "High"},

    # Construct de-identify configuration that groups values in a table field and replace those with bucket labels.
    deidentify_config = {
        "record_transformations": {
            "field_transformations": [
                    "fields": [{"name": "happiness_score"}],
                    "primitive_transformation": {
                        "bucketing_config": {"buckets": buckets_config}

    # Call the API to deidentify table data through primitive bucketing.
    response = dlp.deidentify_content(
            "parent": parent,
            "deidentify_config": deidentify_config,
            "item": item,

    # Print the results.
    print(f"Table after de-identification: {response.item.table}")

            "integerValue": "0"
            "integerValue": "25"
            "stringValue": "Low"
            "integerValue": "26"
            "integerValue": "75"
            "stringValue": "Medium"
            "integerValue": "76"
            "integerValue": "100"
            "stringValue": "High"

Scénario de binning 2

Le binning peut également être appliqué sur des chaînes ou des valeurs désignées. Supposons que vous vouliez partager des données sur les salaires et inclure les fonctions. Cependant, certaines fonctions, tels que PDG ou ingénieur distingué, peuvent se rapporter à une personne ou à un petit groupe de personnes. Ces fonctions peuvent facilement être associées aux employés qui les occupent.

Le binning peut également vous être utile dans cette situation. Au lieu d'inclure les fonctions exactes, vous pouvez les généraliser et les placer dans un ensemble. Par exemple, les fonctions "ingénieur principal", "ingénieur junior" et "ingénieur distingué" sont généralisées dans la catégorie "ingénieur". Le tableau suivant illustre la manière dont les fonctions spécifiques sont regroupées dans des familles de fonctions.

Diagramme illustrant le binning de fonctions

Autres scénarios

Dans ces exemples, nous avons appliqué la transformation à des données structurées. Le binning peut également être utilisé avec des exemples non structurés, tant que la valeur peut être classée avec un infotype prédéfini ou personnalisé. Voici quelques exemples de scénarios :

  • Classer des dates et les regrouper dans des plages d'années
  • Classer des noms et les regrouper en fonction de la première lettre (A-M, N-Z)


Pour en savoir plus sur la généralisation et le binning, consultez la page Supprimer l'identification de données sensibles dans du contenu textuel.

Dans la documentation sur l'API, consultez les articles suivants :