Hybridjobs und Job-Trigger

Hybridjobs und Job-Trigger sind asynchrone API-Methoden, mit denen Sie Nutzlasten von Daten aus praktisch jeder Quelle auf sensible Informationen untersuchen können. Die Ergebnisse werden in Google Cloud gespeichert. Mit Hybridjobs können Sie eigene Daten-Crawler schreiben, die sich ähnlich wie die Speicherinspektionsmethoden für den Schutz sensibler Daten verhalten und Daten bereitstellen.

Mit Hybridjobs können Sie Daten aus jeder Quelle zum Schutz sensibler Daten streamen. Der Schutz sensibler Daten prüft die Daten auf vertrauliche Informationen oder personenidentifizierbare Informationen und speichert die Ergebnisse des Inspektionsscans in einer Jobressource für den Schutz sensibler Daten. Sie können die Scanergebnisse in der UI oder API der Console für sensible Daten prüfen oder Aktionen nach dem Scan festlegen, z. B. das Speichern von Inspektionsergebnisdaten in einer BigQuery-Tabelle oder das Senden einer Pub/Sub-Benachrichtigung.

Der Workflow für Hybridjobs ist im folgenden Diagramm zusammengefasst:

Diagramm des Dataflow-Hybridjobs, das zeigt, wie Ihre Anwendung Daten von einer externen Quelle an den Schutz sensibler Daten sendet, den Schutz sensibler Daten prüft und dann die Ergebnisse entweder speichert oder veröffentlicht.

In diesem Konzeptthema werden Hybridjobs und Job-Trigger sowie deren Funktionsweise beschrieben. Informationen zum Implementieren von Hybridjobs und Job-Triggern finden Sie unter Externe Daten mit Hybridjobs prüfen.

Informationen zu Hybridumgebungen

"Hybrid"-Umgebungen sind in Organisationen üblich. Viele Organisationen speichern und verarbeiten vertrauliche Daten mithilfe einer Kombination aus folgenden Elementen:

  • Andere Cloudanbieter
  • Lokale Server oder andere Daten-Repositories
  • Nicht native Speichersysteme, z. B. Systeme, die in einer virtuellen Maschine ausgeführt werden
  • Web- und mobile Apps
  • Google Cloud-basierte Lösungen

Bei Hybridjobs kann der Schutz sensibler Daten Daten prüfen, die von einer dieser Quellen an ihn gesendet werden. Im Folgenden finden Sie einige Beispielszenarien:

  • Prüfen Sie Daten, die im Amazon Relational Database Service (RDS), einem in einer virtuellen Maschine ausgeführten MySQL oder einer lokalen Datenbank gespeichert sind.
  • Prüfen und tokenisieren Sie Daten, während Sie Daten von der lokalen Umgebung zur Cloud oder zwischen Produktion, Entwicklung und Analysen migrieren.
  • Sie können Transaktionen in einer Web- oder mobilen Anwendung prüfen und entfernen, bevor Sie inaktive Daten speichern.

Prüfungsoptionen

Wie unter Methodentypen ausführlicher beschrieben, bietet der Schutz sensibler Daten drei Standardoptionen, wenn Sie Inhalte auf sensible Daten prüfen möchten:

  • Prüfung von Inhaltsmethoden: Mit der Inhaltsprüfung streamen Sie kleine Nutzlasten von Daten zusammen mit Anweisungen zur Prüfung an den Schutz sensibler Daten. Der Schutz sensibler Daten prüft die Daten dann auf sensible Inhalte und personenidentifizierbare Informationen und gibt die Ergebnisse des Scans an Sie zurück.
  • Prüfung von Speichermethoden: Mit der Speicherprüfung prüft der Schutz sensibler Daten ein Google Cloud-basiertes Speicher-Repository wie eine BigQuery-Datenbank, einen Cloud Storage-Bucket oder eine Datastore-Art. Sie legen für den Schutz sensibler Daten fest, was geprüft werden soll und was geprüft werden soll. Anschließend führt der Schutz sensibler Daten einen Job aus, der das Repository scannt. Nach Abschluss des Scans speichert der Schutz sensibler Daten eine Zusammenfassung der Ergebnisse des Scans wieder im Job. Außerdem können Sie angeben, dass die Ergebnisse zur Analyse an ein anderes Google Cloud-Produkt gesendet werden, z. B. eine separate BigQuery-Tabelle.
  • Prüfung von Hybridjobs: Hybridjobs bieten die Vorteile der beiden vorherigen Methoden. Sie ermöglichen das Streamen von Daten wie bei Inhaltsmethoden und stellen gleichzeitig Speicher, Visualisierung und Aktionen von Speicherprüfungsjobs bereit. Die gesamte Inspektionskonfiguration wird innerhalb des Schutzes sensibler Daten verwaltet, ohne dass eine zusätzliche Konfiguration auf der Clientseite erforderlich ist. Hybridjobs können nützlich sein, um nicht native Speichersysteme wie eine Datenbank zu scannen, die auf einer virtuellen Maschine (VM), lokal oder in einer anderen Cloud ausgeführt wird. Hybridmethoden können auch bei der Prüfung von Verarbeitungssystemen wie Migrationsarbeitslasten und sogar bei der Weiterleitung von Dienst-zu-Dienst-Kommunikation nützlich sein. Während Inhaltsmethoden dies auch leisten können, bieten Hybridmethoden das Ergebnisspeicher-Back-End, mit dem Ihre Daten über mehrere API-Aufrufe hinweg aggregiert werden können.

Informationen zu Hybridjobs und Job-Trigger

Ein Hybridjob ist eine Kombination aus Inhalts- und Speichermethoden. Der grundlegende Workflow zur Verwendung von Hybridjobs und Job-Triggern ist:

  1. Sie schreiben ein Script oder erstellen einen Workflow, der Daten zusammen mit einigen Metadaten zur Prüfung an den Schutz sensibler Daten sendet.
  2. Sie konfigurieren und erstellen eine hybride Jobressource oder einen Trigger und aktivieren diese, wenn sie Daten empfängt.
  3. Ihr Skript oder Workflow wird clientseitig ausgeführt und sendet Daten in Form einer hybridInspect-Anfrage an den Schutz sensibler Daten. Die Daten enthalten eine Aktivierungsnachricht und die Kennung des Jobs oder Job-Triggers, die die Prüfung auslöst.
  4. Der Schutz sensibler Daten prüft die Daten gemäß den Kriterien, die Sie im Hybridjob oder Trigger festgelegt haben.
  5. Der Schutz sensibler Daten speichert die Ergebnisse des Scans zusammen mit den von Ihnen bereitgestellten Metadaten in der Hybridjobressource. Sie können die Ergebnisse in der Google Cloud Console auf der Benutzeroberfläche zum Schutz sensibler Daten prüfen.
  6. Optional kann der Schutz sensibler Daten nach dem Scan Aktionen ausführen, z. B. das Speichern von Inspektionsergebnisdaten in einer BigQuery-Tabelle oder eine Benachrichtigung per E-Mail oder Pub/Sub.

Mit einem Hybridjob-Trigger können Sie Jobs erstellen, aktivieren und beenden, sodass Sie bei Bedarf Aktionen auslösen können. Wenn Sie dafür sorgen, dass Ihr Skript oder Code Daten mit der Kennung des Hybridjobs sendet, müssen Sie das Skript oder den Code nicht aktualisieren, wenn ein neuer Job gestartet wird.

Typische Hybridjobszenarien

Hybridjobs eignen sich gut für folgende Ziele:

  • Führen Sie einen einmaligen Scan einer Datenbank außerhalb von Google Cloud im Rahmen einer vierteljährlichen Stichprobenprüfung von Datenbanken aus.
  • Überwachen Sie alle neuen Inhalte, die täglich einer Datenbank hinzugefügt werden, die der Schutz sensibler Daten nativ nicht unterstützt.
  • Sie können Daten scannen, die in eine Datenbank eingehen, und dabei steuern, wie die Daten partitioniert werden.
  • Überwachen Sie den Traffic in einem Netzwerk mit dem Filter für den Schutz sensibler Daten für Envoy (ein WebAssembly-HTTP-Filter für Envoy-Sidecar-Proxys), um problematische Bewegungen sensibler Daten zu identifizieren.

Informationen zu diesen Szenarien finden Sie unter Typische Szenarien für Hybridprüfungen.

Arten von Metadaten, die Sie bereitstellen können

In diesem Abschnitt werden die Arten von Metadaten beschrieben, die Sie an die externen Daten, die Sie überprüfen möchten, oder an die Ergebnisse anhängen können.

Sie können Metadaten auf den folgenden Ebenen festlegen:

Metadaten in einem Hybridjob oder Hybridjob-Trigger

In diesem Abschnitt werden die Arten von Metadaten beschrieben, die Sie an einen Hybridjob- oder Hybridjob-Trigger anhängen können.

Erforderliche Labels

Im Hybridjob oder Hybridjob-Trigger können Sie eine Liste der erforderlichen Labels angeben, die in allen von Ihnen gesendeten Hybridprüfungsanfragen enthalten sein müssen. Alle Anfragen für diesen Hybridjob oder Hybridjob-Trigger, die diese erforderlichen Labels nicht enthalten, werden abgelehnt. Weitere Informationen finden Sie unter Labels aus hybridInspect-Anfragen anfordern.

Optionale Labels

Sie können Schlüssel/Wert-Paare angeben, die an alle Ergebnisse aus einem Hybridjob oder Hybridjob-Trigger angehängt werden. Wenn beispielsweise alle Ergebnisse eines Hybridjobs das Label "env"="prod" haben sollen, geben Sie dieses Schlüssel/Wert-Paar beim Erstellen des Hybridjobs an.

Tabellarische Datenoptionen

Sie können beliebige Spalten angeben, die Zeilenkennungen (Primärschlüssel) für Tabellenobjekte in Ihren Daten sind. Wenn die angegebenen Spalten in der Tabelle vorhanden sind, werden die Werte aus den angegebenen Spalten zusammen mit jedem Ergebnis aufgeführt, damit Sie das Ergebnis zur Zeile zurückverfolgen können, aus der es stammt. Diese tabellarischen Optionen gelten nur für Anfragen, die tabellarische Daten im Format item.table oder byteItem wie CSV senden.

Wenn Sie die Primärschlüssel vorab kennen, können Sie sie beim Erstellen des Triggers für Hybridjobs oder hybride Jobs als identifizierende Felder festlegen. Sie können im Feld hybridOptions.tableOptions.identifyingFields bis zu drei Spaltennamen auflisten.

Metadaten in einer hybridInspect-Anfrage

In diesem Abschnitt werden die Arten von Metadaten beschrieben, die Sie an eine hybridInspect-Anfrage anhängen können. Metadaten, die Sie in einer hybridInspect-Anfrage senden, werden nur auf diese Anfrage angewendet.

Containerdetails

Jede Anfrage, die Sie an einen Hybridjob oder Hybridjob-Trigger senden, kann Details zur Datenquelle enthalten, darunter Elemente wie fullPath, rootPath, relativePath, type, version und weitere. Wenn Sie beispielsweise Tabellen in einer Datenbank scannen, können Sie die Felder so festlegen:

{
  "hybridItem": {
    "item": {...},
    "findingDetails": {
      "containerDetails": {
        "fullPath": "10.0.0.20/database1/table1",
        "relativePath": "table1",
        "rootPath": "10.0.0.20/database1",
        "type": "postgres",
        "version": "9.6"
      },
      "labels": {...}
    }
  }
}

Sie können keine Containerdetails auf Triggerebene für Hybridjobs oder Hybridjobs festlegen.

Erforderliche Labels

Wenn Sie beim Erstellen eines Hybridjobs oder Hybridjob-Triggers erforderliche Labels festlegen, müssen diese erforderlichen Labels in jeder hybridInspect-Anfrage, die Sie an diesen Hybridjob oder Hybridjob-Trigger senden, enthalten sein. Weitere Informationen finden Sie unter Labels von hybridInspect-Anfragen anfordern.

Optionale Labels

In jeder hybridInspect-Anfrage können Sie Schlüssel/Wert-Paare angeben, die an alle Ergebnisse in dieser Anfrage angehängt werden. Mit dieser Methode können Sie mit jeder hybridInspect-Anfrage unterschiedliche Labels anhängen.

Tabellarische Datenoptionen

Sie können beliebige Spalten angeben, die Zeilenkennungen (Primärschlüssel) für Tabellenobjekte in Ihren Daten sind. Wenn die angegebenen Spalten in der Tabelle vorhanden sind, werden die Werte aus den angegebenen Spalten zusammen mit jedem Ergebnis aufgeführt, damit Sie das Ergebnis zur Zeile zurückverfolgen können, aus der es stammt. Diese tabellarischen Optionen gelten nur für Anfragen, die tabellarische Daten im Format item.table oder byteItem wie CSV senden.

Wenn Sie die Primärschlüssel nicht im Voraus kennen, müssen Sie sie nicht auf der Triggerebene für Hybridjobs oder hybride Jobs festlegen. Sie können sie zusammen mit den zu prüfenden tabellarischen Daten in Ihrer hybridInspect-Anfrage festlegen. Alle Felder, die Sie auf der Ebene des Hybridjobs oder des Hybridjob-Triggers auflisten, werden mit den Feldern kombiniert, die Sie in der hybridInspect-Anfrage auflisten.

Unterstützte Aktionen

Wie andere Jobs für den Schutz sensibler Daten unterstützen Hybridjobs Aktionen. Nicht alle Aktionen gelten für Hybridjobs. Im Folgenden werden die derzeit unterstützten Aktionen sowie Informationen zu ihrer Funktionsweise aufgeführt. Beachten Sie, dass Ergebnisse mit den Pub/Sub-, E-Mail- und Cloud Monitoring-Aktionen verfügbar werden, wenn der Job endet.

  • Ergebnisse unter dem Schutz sensibler Daten speichern und Ergebnisse in BigQuery speichern: Die Ergebnisse werden in einer Ressource zum Schutz sensibler Daten bzw. in einer BigQuery-Tabelle gespeichert. Diese Aktionen funktionieren mit Hybridjobs ähnlich wie mit anderen Jobtypen, mit einem wichtigen Unterschied: Bei Hybridjobs werden Ergebnisse verfügbar, während der Job ausgeführt wird. Bei anderen Jobtypen werden Ergebnisse nach dem Ende des Jobs zur Verfügung gestellt.
  • Pub/Sub senden: Wenn ein Job abgeschlossen ist, wird eine Pub/Sub-Nachricht ausgegeben.

  • E-Mail senden: Wenn ein Job abgeschlossen ist, wird eine E-Mail-Nachricht gesendet.

  • In Cloud Monitoring veröffentlichen: Wenn ein Job abgeschlossen ist, werden die Ergebnisse in Monitoring veröffentlicht.

Fazit

Im Folgenden sind einige wichtige Features und Vorteile der Verwendung von Hybridjobs und Job-Triggern aufgeführt:

  • Mit Hybridjobs können Sie Daten aus praktisch jeder Quelle in der Cloud oder außerhalb der Cloud an den Schutz sensibler Daten streamen.
  • Hybridjob-Trigger werden aktiviert, wenn der Schutz sensibler Daten einen Datenstrom empfängt, der eine Aktivierungsnachricht und die Kennung des Job-Triggers enthält.
  • Sie können warten, bis der Scan abgeschlossen ist. Sie können den Job aber auch manuell beenden. Inspektionsergebnisse werden unter einer Schutzmaßnahme für sensible Daten oder in BigQuery gespeichert, unabhängig davon, ob Sie den Job beenden oder vorzeitig beenden.
  • Die Ergebnisse eines Inspektionsscans für den Schutz sensibler Daten aus einem Hybridjob-Trigger werden in einer Hybridjobressource innerhalb des Schutzes sensibler Daten gespeichert.
  • Sie können die Ergebnisse des Inspektionsscans untersuchen, indem Sie sich die Job-Trigger-Ressource innerhalb des Schutzes sensibler Daten ansehen.
  • Sie können den Schutz sensibler Daten auch anweisen, über eine Aktion hybride Jobergebnisse an eine BigQuery-Datenbank zu senden und Sie per E-Mail oder Pub/Sub-Benachrichtigung zu benachrichtigen.

Nächste Schritte