Übereinstimmungswahrscheinlichkeit

Die Scanergebnisse werden nach der Wahrscheinlichkeit kategorisiert, dass sie eine Übereinstimmung darstellen. Beim Schutz sensibler Daten wird eine Bucket-basierte Darstellung der Wahrscheinlichkeit verwendet, um anzugeben, wie wahrscheinlich es ist, dass ein Datenelement mit einem bestimmten infoType übereinstimmt.

Funktionsweise der Wahrscheinlichkeit

Wenn Sie einen Scan für den Schutz sensibler Daten konfigurieren, legen Sie die infoTypes fest, nach denen der Schutz sensibler Daten suchen soll. Wenn Sie die Scanergebnisse eingrenzen möchten, können Sie in Ihrer Anfrage eine Mindestwahrscheinlichkeit festlegen.

Für jede potenzielle Übereinstimmung (Ergebnis), die während des Scans erkannt wird, weist der Schutz sensibler Daten ein Wahrscheinlichkeitsniveau zu. Die Wahrscheinlichkeitsstufe eines Ergebnisses beschreibt, wie wahrscheinlich es ist, dass das Ergebnis mit einem infoType übereinstimmt, nach dem Sie suchen. Der Schutz sensibler Daten kann beispielsweise einem Ergebnis, das wie eine E-Mail-Adresse aussieht, die Wahrscheinlichkeit LIKELY zuweisen.

Wenn der Schutz sensibler Daten die Ergebnisse zurückgibt, werden alle Ergebnisse herausgefiltert, die eine niedrigere Wahrscheinlichkeit als die Mindestwahrscheinlichkeit haben, die Sie in der Anfrage festgelegt haben. Wenn Sie beispielsweise die Mindestwahrscheinlichkeit auf POSSIBLE festlegen, erhalten Sie nur die Ergebnisse, die als POSSIBLE, LIKELY und VERY_LIKELY ausgewertet wurden. Wenn Sie die Mindestwahrscheinlichkeit auf VERY_LIKELY festlegen, erhalten Sie die geringste Anzahl von Ergebnissen.

Wahrscheinlichkeitsstufen

In der folgenden Tabelle sind die möglichen Wahrscheinlichkeitswerte aufgeführt, die der Schutz sensibler Daten einem Ergebnis zuweisen kann.

ENUM Beschreibung
VERY_UNLIKELY Kennzeichnet durch:
  • Ein schwaches Signal.
  • Es liegen keine kontextbezogenen Hinweise vor.
  • Negative Signale für einen bestimmten infoType.
UNLIKELY Kennzeichnet durch:
  • Ein oder mehrere schwache Signale.
  • Ein stärkeres Signal für einen anderen infoType.
POSSIBLE Kennzeichnet durch:
  • Ein oder mehrere Signale zu einem bestimmten infoType. Signale können das Bestehen von Prüfsummen beinhalten.
  • Wenig aussagekräftiger kontextbezogener Hinweis und einzigartige, spezifische Formatierung.
LIKELY Sie ist durch ein oder mehrere starke Signale für einen bestimmten infoType gekennzeichnet. Signale können das Übergeben von Prüfsummen, starke kontextabhängige Hinweise und eine eindeutige, spezifische Formatierung umfassen.
VERY_LIKELY Kennzeichnet durch viele starke Signale für einen bestimmten infoType. Signale können das Übergeben von Prüfsummen, starke kontextabhängige Hinweise und eine eindeutige, spezifische Formatierung umfassen.

Mindestwahrscheinlichkeitsgrad für die Scanergebnisse auswählen

Wenn Sie in Ihrer Anfrage zum Schutz sensibler Daten eine höhere Mindestwahrscheinlichkeit festlegen, haben die Ergebnisse eine geringere Anzahl falsch positiver Ergebnisse (manchmal auch als Rauschen bezeichnet). Die Ergebnisse können jedoch auch eher richtig positive Ergebnisse ausschließen. Die Auswahl eines Mindestwahrscheinlichkeitsgrades beinhaltet das richtige Verhältnis zwischen Trefferquote und Genauigkeit.

Angenommen, ein Dokument enthält zehn Adressen und der Schutz sensibler Daten hat fünf Adressen identifiziert. Allerdings hat der Schutz sensibler Daten festgestellt, dass es tatsächlich nur vier Adressen gibt.

  • Trefferquote ist die Anzahl richtig positiver Instanzen bezogen auf die Gesamtzahl der relevanten Instanzen. In diesem Beispiel liegt die Trefferquote bei 4/10.
  • Die Genauigkeit ist die Anzahl richtig positiver Instanzen bezogen auf die Gesamtzahl der Instanzen, die der Schutz sensibler Daten identifiziert. In diesem Beispiel beträgt die Genauigkeit 4/5.

In diesem Beispiel ist die Precision hoch, aber die Recall relativ gering.

Die von Ihnen festgelegte Mindestwahrscheinlichkeitsstufe wirkt sich auf die Trefferquote und die Genauigkeit in den Scanergebnissen aus. In der folgenden Tabelle wird beschrieben, wann die einzelnen Mindestwahrscheinlichkeitsstufen nützlich sind und wie Trefferquote und Genauigkeit auf jeder Ebene variieren.

Mindestwahrscheinlichkeitsgrad Beschreibung
LIKELIHOOD_UNSPECIFIED Standardwert; wie bei POSSIBLE
VERY_UNLIKELY Nützlich, wenn die Anzeigenerinnerung sehr hoch ist. Dieses Mindestwahrscheinlichkeitsniveau erzeugt das größte Rauschen.
UNLIKELY Nützlich, wenn Sie die Anzeigenerinnerung verbessern möchten. Dieses Mindestwahrscheinlichkeitsniveau erzeugt etwas Rauschen.
POSSIBLE Dies ist hilfreich, wenn Sie ein Gleichgewicht zwischen Precision und Recall anstreben.
LIKELY Nützlich, wenn Sie eine höhere Genauigkeit auf Kosten einer gewissen Trefferquote benötigen.
VERY_LIKELY Dies ist hilfreich, wenn Sie bei hoher Trefferquote die höchste Präzision erzielen möchten.

Standardmäßige Mindestwahrscheinlichkeit

Wenn Sie in Ihrer Anfrage keine Mindestwahrscheinlichkeit festlegen oder sie auf LIKELIHOOD_UNSPECIFIED setzen, gibt der Schutz sensibler Daten nur die Ergebnisse mit einer Wahrscheinlichkeit von POSSIBLE oder höher zurück.