Die Scanergebnisse werden nach der Wahrscheinlichkeit kategorisiert, dass sie eine Übereinstimmung darstellen. Der Schutz sensibler Daten verwendet eine Bucket-basierte Darstellung der Wahrscheinlichkeit, die angeben soll, wie wahrscheinlich es ist, dass ein Datenelement mit einem bestimmten infoType übereinstimmt.
Funktionsweise der Wahrscheinlichkeit
Wenn Sie einen Scan für den Schutz sensibler Daten konfigurieren, legen Sie die InfoTypes fest, nach denen der Schutz sensibler Daten suchen soll. Wenn Sie die Scanergebnisse eingrenzen möchten, können Sie in Ihrer Anfrage eine Mindestwahrscheinlichkeit festlegen.
Für jede potenzielle Übereinstimmung (Ergebnis), die während des Scans erkannt wird, wird vom Schutz sensibler Daten eine Wahrscheinlichkeitsstufe zugewiesen. Das Wahrscheinlichkeitsniveau eines Ergebnisses gibt an, wie wahrscheinlich es ist, dass das Ergebnis mit einem infoType übereinstimmt, nach dem Sie suchen. Der Schutz sensibler Daten kann beispielsweise einem Ergebnis, das wie eine E-Mail-Adresse aussieht, eine Wahrscheinlichkeit von LIKELY
zuweisen.
Wenn Sensitive Data Protection die Ergebnisse zurückgibt, werden alle Ergebnisse herausgefiltert, deren Wahrscheinlichkeit unter der Mindestwahrscheinlichkeit liegt, die Sie in Ihrer Anfrage festgelegt haben. Wenn Sie beispielsweise die Mindestwahrscheinlichkeit auf POSSIBLE
festlegen, erhalten Sie nur die Ergebnisse, die als POSSIBLE
, LIKELY
und VERY_LIKELY
bewertet wurden. Wenn Sie die Mindestwahrscheinlichkeit auf VERY_LIKELY
festlegen, erhalten Sie die geringste Anzahl von Ergebnissen.
Wahrscheinlichkeitsstufen
In der folgenden Tabelle sind die möglichen Wahrscheinlichkeitswerte aufgeführt, die dem Datenschutz bei sensiblen Daten einer Feststellung zuweisen kann.
ENUM | Beschreibung |
---|---|
VERY_UNLIKELY |
Sie zeichnen sich durch Folgendes aus:
|
UNLIKELY |
Sie zeichnen sich durch Folgendes aus:
|
POSSIBLE |
Sie zeichnen sich durch Folgendes aus:
|
LIKELY |
Sie zeichnen sich durch ein oder mehrere starke Signale für einen bestimmten infoType aus. Signale können Prüfsummen, starke kontextbezogene Hinweise und eindeutige, spezifische Formatierungen umfassen. |
VERY_LIKELY |
Sie zeichnen sich durch viele starke Signale für einen bestimmten infoType aus. Signale können Prüfsummen, starke kontextbezogene Hinweise und eindeutige, spezifische Formatierungen umfassen. |
Mindestwahrscheinlichkeit für die Scanergebnisse auswählen
Wenn Sie in Ihrer Anfrage für den Schutz sensibler Daten eine höhere Mindestwahrscheinlichkeit festlegen, enthalten die Ergebnisse im Allgemeinen weniger falsch positive Ergebnisse (manchmal auch als Störungen bezeichnet). Die Ergebnisse können jedoch auch mehr echte Positive ausschließen. Bei der Auswahl einer Mindestwahrscheinlichkeitsstufe geht es darum, die richtige Balance zwischen Trefferquote und Genauigkeit zu finden.
Angenommen, in einem Dokument befinden sich 10 Adressen und der Schutz sensibler Daten hat 5 Adressen erkannt. Unter den Ergebnissen, die mit dem Schutz sensibler Daten ermittelt wurden, befinden sich jedoch nur vier Straßenadressen.
- Die Trefferquote ist die Anzahl der richtig positiven Instanzen bezogen auf die Gesamtzahl der relevanten Instanzen. In diesem Beispiel beträgt die Wiedererkennung 4/10.
- Die Genauigkeit ist die Anzahl der echten positiven Instanzen bezogen auf die Gesamtzahl der Instanzen, die mit dem Tool „Vertraulicher Datenschutz“ identifiziert wurden. In diesem Beispiel beträgt die Genauigkeit 4/5.
In diesem Beispiel ist die Precision hoch, der Recall aber relativ niedrig.
Die von Ihnen festgelegte Mindestwahrscheinlichkeit wirkt sich auf die Trefferquote und Genauigkeit Ihrer Scanergebnisse aus. In der folgenden Tabelle wird beschrieben, wann die einzelnen Mindestwahrscheinlichkeitsstufen nützlich sind und wie sich die Trefferquote und die Genauigkeit auf den einzelnen Stufen unterscheiden.
Mindestwahrscheinlichkeit | Beschreibung |
---|---|
LIKELIHOOD_UNSPECIFIED |
Standardwert; identisch mit POSSIBLE . |
VERY_UNLIKELY |
Nützlich, wenn Sie die höchste Wiedererkennung benötigen. Dieser Mindestwahrscheinlichkeitsgrad erzeugt das meiste Rauschen. |
UNLIKELY |
Nützlich, wenn Sie eine höhere Abrufleistung benötigen. Diese Mindestwahrscheinlichkeitsstufe führt zu einigen Störungen. |
POSSIBLE |
Nützlich, wenn Sie ein Gleichgewicht zwischen Precision und Recall erzielen möchten. |
LIKELY |
Nützlich, wenn Sie eine höhere Präzision auf Kosten der Trefferquote benötigen. |
VERY_LIKELY |
Nützlich, wenn Sie die höchste Genauigkeit erzielen möchten, auch wenn dies zu Lasten der Trefferquote geht. |
Standard-Mindestwahrscheinlichkeit
Wenn Sie in Ihrer Anfrage keine Mindestwahrscheinlichkeit festlegen oder sie auf LIKELIHOOD_UNSPECIFIED
festlegen, gibt der Schutz sensibler Daten nur die Ergebnisse mit einer Wahrscheinlichkeit von POSSIBLE
oder höher zurück.