Übereinstimmungswahrscheinlichkeit

Die Scanergebnisse werden nach der Wahrscheinlichkeit kategorisiert, dass sie eine Übereinstimmung darstellen. Der Schutz sensibler Daten verwendet eine Bucket-basierte Darstellung der Wahrscheinlichkeit, die angeben soll, wie wahrscheinlich es ist, dass ein Datenelement mit einem bestimmten infoType übereinstimmt.

Funktionsweise der Wahrscheinlichkeit

Wenn Sie einen Scan für den Schutz sensibler Daten konfigurieren, legen Sie die InfoTypes fest, nach denen der Schutz sensibler Daten suchen soll. Wenn Sie die Scanergebnisse eingrenzen möchten, können Sie in Ihrer Anfrage eine Mindestwahrscheinlichkeit festlegen.

Für jede potenzielle Übereinstimmung (Ergebnis), die während des Scans erkannt wird, wird vom Schutz sensibler Daten eine Wahrscheinlichkeitsstufe zugewiesen. Das Wahrscheinlichkeitsniveau eines Ergebnisses gibt an, wie wahrscheinlich es ist, dass das Ergebnis mit einem infoType übereinstimmt, nach dem Sie suchen. Der Schutz sensibler Daten kann beispielsweise einem Ergebnis, das wie eine E-Mail-Adresse aussieht, eine Wahrscheinlichkeit von LIKELY zuweisen.

Wenn Sensitive Data Protection die Ergebnisse zurückgibt, werden alle Ergebnisse herausgefiltert, deren Wahrscheinlichkeit unter der Mindestwahrscheinlichkeit liegt, die Sie in Ihrer Anfrage festgelegt haben. Wenn Sie beispielsweise die Mindestwahrscheinlichkeit auf POSSIBLE festlegen, erhalten Sie nur die Ergebnisse, die als POSSIBLE, LIKELY und VERY_LIKELY bewertet wurden. Wenn Sie die Mindestwahrscheinlichkeit auf VERY_LIKELY festlegen, erhalten Sie die geringste Anzahl von Ergebnissen.

Wahrscheinlichkeitsstufen

In der folgenden Tabelle sind die möglichen Wahrscheinlichkeitswerte aufgeführt, die dem Datenschutz bei sensiblen Daten einer Feststellung zuweisen kann.

ENUM Beschreibung
VERY_UNLIKELY Sie zeichnen sich durch Folgendes aus:
  • Ein schwaches Signal.
  • Fehlende kontextbezogene Hinweise
  • Negative Signale für einen bestimmten infoType.
UNLIKELY Sie zeichnen sich durch Folgendes aus:
  • Eines oder mehrere schwache Signale.
  • Ein stärkeres Signal für einen anderen infoType.
POSSIBLE Sie zeichnen sich durch Folgendes aus:
  • Ein oder mehrere Signale für einen bestimmten infoType. Signale können auch das Übergeben von Prüfsummen umfassen.
  • Fehlender eindeutiger Kontexthinweis und fehlende eindeutige, spezifische Formatierung
LIKELY Sie zeichnen sich durch ein oder mehrere starke Signale für einen bestimmten infoType aus. Signale können Prüfsummen, starke kontextbezogene Hinweise und eindeutige, spezifische Formatierungen umfassen.
VERY_LIKELY Sie zeichnen sich durch viele starke Signale für einen bestimmten infoType aus. Signale können Prüfsummen, starke kontextbezogene Hinweise und eindeutige, spezifische Formatierungen umfassen.

Mindestwahrscheinlichkeit für die Scanergebnisse auswählen

Wenn Sie in Ihrer Anfrage für den Schutz sensibler Daten eine höhere Mindestwahrscheinlichkeit festlegen, enthalten die Ergebnisse im Allgemeinen weniger falsch positive Ergebnisse (manchmal auch als Störungen bezeichnet). Die Ergebnisse können jedoch auch mehr echte Positive ausschließen. Bei der Auswahl einer Mindestwahrscheinlichkeitsstufe geht es darum, die richtige Balance zwischen Trefferquote und Genauigkeit zu finden.

Angenommen, in einem Dokument befinden sich 10 Adressen und der Schutz sensibler Daten hat 5 Adressen erkannt. Unter den Ergebnissen, die mit dem Schutz sensibler Daten ermittelt wurden, befinden sich jedoch nur vier Straßenadressen.

  • Die Trefferquote ist die Anzahl der richtig positiven Instanzen bezogen auf die Gesamtzahl der relevanten Instanzen. In diesem Beispiel beträgt die Wiedererkennung 4/10.
  • Die Genauigkeit ist die Anzahl der echten positiven Instanzen bezogen auf die Gesamtzahl der Instanzen, die mit dem Tool „Vertraulicher Datenschutz“ identifiziert wurden. In diesem Beispiel beträgt die Genauigkeit 4/5.

In diesem Beispiel ist die Precision hoch, der Recall aber relativ niedrig.

Die von Ihnen festgelegte Mindestwahrscheinlichkeit wirkt sich auf die Trefferquote und Genauigkeit Ihrer Scanergebnisse aus. In der folgenden Tabelle wird beschrieben, wann die einzelnen Mindestwahrscheinlichkeitsstufen nützlich sind und wie sich die Trefferquote und die Genauigkeit auf den einzelnen Stufen unterscheiden.

Mindestwahrscheinlichkeit Beschreibung
LIKELIHOOD_UNSPECIFIED Standardwert; identisch mit POSSIBLE.
VERY_UNLIKELY Nützlich, wenn Sie die höchste Wiedererkennung benötigen. Dieser Mindestwahrscheinlichkeitsgrad erzeugt das meiste Rauschen.
UNLIKELY Nützlich, wenn Sie eine höhere Abrufleistung benötigen. Diese Mindestwahrscheinlichkeitsstufe führt zu einigen Störungen.
POSSIBLE Nützlich, wenn Sie ein Gleichgewicht zwischen Precision und Recall erzielen möchten.
LIKELY Nützlich, wenn Sie eine höhere Präzision auf Kosten der Trefferquote benötigen.
VERY_LIKELY Nützlich, wenn Sie die höchste Genauigkeit erzielen möchten, auch wenn dies zu Lasten der Trefferquote geht.

Standard-Mindestwahrscheinlichkeit

Wenn Sie in Ihrer Anfrage keine Mindestwahrscheinlichkeit festlegen oder sie auf LIKELIHOOD_UNSPECIFIED festlegen, gibt der Schutz sensibler Daten nur die Ergebnisse mit einer Wahrscheinlichkeit von POSSIBLE oder höher zurück.