Die Scanergebnisse werden nach der Wahrscheinlichkeit kategorisiert, dass sie eine Übereinstimmung darstellen. Beim Schutz sensibler Daten wird eine Bucket-basierte Darstellung der Wahrscheinlichkeit verwendet, um anzugeben, wie wahrscheinlich es ist, dass ein Datenelement mit einem bestimmten infoType übereinstimmt.
Funktionsweise der Wahrscheinlichkeit
Wenn Sie einen Scan für den Schutz sensibler Daten konfigurieren, legen Sie die infoTypes fest, nach denen der Schutz sensibler Daten suchen soll. Wenn Sie die Scanergebnisse eingrenzen möchten, können Sie in Ihrer Anfrage eine Mindestwahrscheinlichkeit festlegen.
Für jede potenzielle Übereinstimmung (Ergebnis), die während des Scans erkannt wird, weist der Schutz sensibler Daten ein Wahrscheinlichkeitsniveau zu. Die Wahrscheinlichkeitsstufe eines Ergebnisses beschreibt, wie wahrscheinlich es ist, dass das Ergebnis mit einem infoType übereinstimmt, nach dem Sie suchen. Der Schutz sensibler Daten kann beispielsweise einem Ergebnis, das wie eine E-Mail-Adresse aussieht, die Wahrscheinlichkeit LIKELY
zuweisen.
Wenn der Schutz sensibler Daten die Ergebnisse zurückgibt, werden alle Ergebnisse herausgefiltert, die eine niedrigere Wahrscheinlichkeit als die Mindestwahrscheinlichkeit haben, die Sie in der Anfrage festgelegt haben. Wenn Sie beispielsweise die Mindestwahrscheinlichkeit auf POSSIBLE
festlegen, erhalten Sie nur die Ergebnisse, die als POSSIBLE
, LIKELY
und VERY_LIKELY
ausgewertet wurden. Wenn Sie die Mindestwahrscheinlichkeit auf VERY_LIKELY
festlegen, erhalten Sie die geringste Anzahl von Ergebnissen.
Wahrscheinlichkeitsstufen
In der folgenden Tabelle sind die möglichen Wahrscheinlichkeitswerte aufgeführt, die der Schutz sensibler Daten einem Ergebnis zuweisen kann.
ENUM | Beschreibung |
---|---|
VERY_UNLIKELY |
Kennzeichnet durch:
|
UNLIKELY |
Kennzeichnet durch:
|
POSSIBLE |
Kennzeichnet durch:
|
LIKELY |
Sie ist durch ein oder mehrere starke Signale für einen bestimmten infoType gekennzeichnet. Signale können das Übergeben von Prüfsummen, starke kontextabhängige Hinweise und eine eindeutige, spezifische Formatierung umfassen. |
VERY_LIKELY |
Kennzeichnet durch viele starke Signale für einen bestimmten infoType. Signale können das Übergeben von Prüfsummen, starke kontextabhängige Hinweise und eine eindeutige, spezifische Formatierung umfassen. |
Mindestwahrscheinlichkeitsgrad für die Scanergebnisse auswählen
Wenn Sie in Ihrer Anfrage zum Schutz sensibler Daten eine höhere Mindestwahrscheinlichkeit festlegen, haben die Ergebnisse eine geringere Anzahl falsch positiver Ergebnisse (manchmal auch als Rauschen bezeichnet). Die Ergebnisse können jedoch auch eher richtig positive Ergebnisse ausschließen. Die Auswahl eines Mindestwahrscheinlichkeitsgrades beinhaltet das richtige Verhältnis zwischen Trefferquote und Genauigkeit.
Angenommen, ein Dokument enthält zehn Adressen und der Schutz sensibler Daten hat fünf Adressen identifiziert. Allerdings hat der Schutz sensibler Daten festgestellt, dass es tatsächlich nur vier Adressen gibt.
- Trefferquote ist die Anzahl richtig positiver Instanzen bezogen auf die Gesamtzahl der relevanten Instanzen. In diesem Beispiel liegt die Trefferquote bei 4/10.
- Die Genauigkeit ist die Anzahl richtig positiver Instanzen bezogen auf die Gesamtzahl der Instanzen, die der Schutz sensibler Daten identifiziert. In diesem Beispiel beträgt die Genauigkeit 4/5.
In diesem Beispiel ist die Precision hoch, aber die Recall relativ gering.
Die von Ihnen festgelegte Mindestwahrscheinlichkeitsstufe wirkt sich auf die Trefferquote und die Genauigkeit in den Scanergebnissen aus. In der folgenden Tabelle wird beschrieben, wann die einzelnen Mindestwahrscheinlichkeitsstufen nützlich sind und wie Trefferquote und Genauigkeit auf jeder Ebene variieren.
Mindestwahrscheinlichkeitsgrad | Beschreibung |
---|---|
LIKELIHOOD_UNSPECIFIED |
Standardwert; wie bei POSSIBLE |
VERY_UNLIKELY |
Nützlich, wenn die Anzeigenerinnerung sehr hoch ist. Dieses Mindestwahrscheinlichkeitsniveau erzeugt das größte Rauschen. |
UNLIKELY |
Nützlich, wenn Sie die Anzeigenerinnerung verbessern möchten. Dieses Mindestwahrscheinlichkeitsniveau erzeugt etwas Rauschen. |
POSSIBLE |
Dies ist hilfreich, wenn Sie ein Gleichgewicht zwischen Precision und Recall anstreben. |
LIKELY |
Nützlich, wenn Sie eine höhere Genauigkeit auf Kosten einer gewissen Trefferquote benötigen. |
VERY_LIKELY |
Dies ist hilfreich, wenn Sie bei hoher Trefferquote die höchste Präzision erzielen möchten. |
Standardmäßige Mindestwahrscheinlichkeit
Wenn Sie in Ihrer Anfrage keine Mindestwahrscheinlichkeit festlegen oder sie auf LIKELIHOOD_UNSPECIFIED
setzen, gibt der Schutz sensibler Daten nur die Ergebnisse mit einer Wahrscheinlichkeit von POSSIBLE
oder höher zurück.