Hybridjobs und Job-Trigger

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hybridjobs und Job-Trigger sind asynchrone API-Methoden, mit denen Sie Nutzlasten von Daten aus praktisch jeder Quelle auf sensible Informationen untersuchen können. Die Ergebnisse werden in Google Cloud gespeichert. Mit Hybridjobs können Sie eigene Daten-Crawler schreiben, die sich ähnlich verhalten und Daten ähnlich wie die Speicherprüfungsmethoden des Cloud Data Loss Prevention-Speichers verarbeiten.

Mit Hybridjobs können Sie Daten aus jeder Quelle in Cloud DLP streamen. Cloud DLP prüft die Daten auf sensible Informationen oder personenidentifizierbare Informationen und speichert die Inspektionsscanergebnisse in einer Cloud DLP-Jobressource. Sie können die Scanergebnisse in der UI oder API der Cloud DLP Console untersuchen oder Aktionen nach dem Scan festlegen, die ausgeführt werden sollen, z. B. das Speichern von Daten aus Inspektionsergebnissen in einer BigQuery-Tabelle oder das Senden eines Pubs/. Unterbenachrichtigung.

Der Workflow für Hybridjobs ist im folgenden Diagramm zusammengefasst:

Diagramm des Hybridjob-Dataflows, in dem gezeigt wird, wie Ihre Anwendung Daten aus einer externen Quelle an Cloud DLP sendet, Cloud DLP die Daten prüft und die Ergebnisse dann speichert oder veröffentlicht.

In diesem Konzeptthema werden Hybridjobs und Job-Trigger sowie deren Funktionsweise beschrieben. Informationen zum Implementieren von Hybridjobs und Job-Triggern finden Sie unter Externe Daten mit Hybridjobs prüfen.

Informationen zu Hybridumgebungen

"Hybrid"-Umgebungen sind in Organisationen üblich. Viele Organisationen speichern und verarbeiten vertrauliche Daten mithilfe einer Kombination aus folgenden Elementen:

  • Andere Cloudanbieter
  • Lokale Server oder andere Daten-Repositories
  • Nicht native Speichersysteme, z. B. Systeme, die in einer virtuellen Maschine ausgeführt werden
  • Web- und mobile Apps
  • Google Cloud-basierte Lösungen

Mit Hybridjobs kann Cloud DLP Daten prüfen, die von jeder dieser Quellen gesendet werden. Im Folgenden finden Sie einige Beispielszenarien:

  • Prüfen Sie Daten, die im Amazon Relational Database Service (RDS), einem in einer virtuellen Maschine ausgeführten MySQL oder einer lokalen Datenbank gespeichert sind.
  • Prüfen und tokenisieren Sie Daten, während Sie Daten von der lokalen Umgebung zur Cloud oder zwischen Produktion, Entwicklung und Analysen migrieren.
  • Sie können Transaktionen in einer Web- oder mobilen Anwendung prüfen und entfernen, bevor Sie inaktive Daten speichern.

Prüfungsoptionen

Wie unter Methodentypen genauer beschrieben, bietet Cloud DLP drei Standardoptionen, um Inhalte auf sensible Daten zu prüfen:

  • Methoden zur Inhaltsprüfung: Mit der Inhaltsprüfung streamen Sie kleine Nutzlasten an Cloud DLP zusammen mit Anleitungen dazu, was zu prüfen ist. Cloud DLP prüft dann die Daten auf sensible Inhalte und personenidentifizierbare Informationen und gibt die Ergebnisse des Scans an Sie zurück.
  • Speichermethoden-Prüfung: Mit der Speicherprüfung prüft Cloud DLP ein Google Cloud-basiertes Speicher-Repository wie eine BigQuery-Datenbank, einen Cloud Storage-Bucket oder eine Datastore-Art. Sie geben Cloud DLP an, was geprüft werden soll und was geprüft werden soll. Cloud DLP führt dann einen Job aus, der das Repository scannt. Nach Abschluss des Scans speichert Cloud DLP eine Zusammenfassung der Scanergebnisse für den Job. Außerdem können Sie angeben, dass die Ergebnisse zur Analyse an ein anderes Google Cloud-Produkt gesendet werden, z. B. eine separate BigQuery-Tabelle.
  • Prüfung von Hybridjobs: Hybridjobs bieten die Vorteile der beiden vorherigen Methoden. Sie ermöglichen das Streamen von Daten wie bei Inhaltsmethoden und stellen gleichzeitig Speicher, Visualisierung und Aktionen von Speicherprüfungsjobs bereit. Jede Prüfungskonfiguration wird in Cloud DLP verwaltet, ohne clientseitig weitere Konfigurationen vornehmen zu müssen. Hybridjobs können nützlich sein, um nicht native Speichersysteme wie eine Datenbank zu scannen, die auf einer virtuellen Maschine (VM), lokal oder in einer anderen Cloud ausgeführt wird. Hybridmethoden können auch bei der Prüfung von Verarbeitungssystemen wie Migrationsarbeitslasten und sogar bei der Weiterleitung von Dienst-zu-Dienst-Kommunikation nützlich sein. Dies ist zwar auch mit Inhaltsmethoden möglich, aber Hybridmethoden stellen das Speicher-Back-End bereit, das Ihre Daten über mehrere API-Aufrufe hinweg aggregieren kann.

Informationen zu Hybridjobs und Job-Trigger

Ein Hybridjob ist eine Kombination aus Inhalts- und Speichermethoden. Der grundlegende Workflow zur Verwendung von Hybridjobs und Job-Triggern ist:

  1. Sie schreiben ein Skript oder erstellen einen Workflow, der Daten zusammen mit einigen Metadaten zur Prüfung an Cloud DLP sendet.
  2. Sie konfigurieren und erstellen eine Hybridjobressource oder einen hybriden Job und aktivieren diese, wenn sie Daten empfängt.
  3. Ihr Skript oder Workflow wird clientseitig ausgeführt und sendet Daten in Form einer hybridInspect-Anfrage an Cloud DLP. Die Daten enthalten eine Aktivierungsnachricht und die Kennung des Jobs oder Job-Triggers, die die Prüfung auslöst.
  4. Cloud DLP prüft die Daten gemäß den Kriterien, die Sie im Hybridjob oder Trigger festgelegt haben.
  5. Cloud DLP speichert die Ergebnisse des Scans zusammen mit den von Ihnen bereitgestellten Metadaten in der Hybridjobressource. Sie können die Ergebnisse mit der Cloud DLP-UI in der Google Cloud Console prüfen.
  6. Optional kann Cloud DLP nach dem Scan Aktionen ausführen, z. B. das Speichern von Inspektionsergebnisdaten in einer BigQuery-Tabelle oder eine Benachrichtigung per E-Mail oder Pub/Sub.

Mit einem Hybridjob-Trigger können Sie Jobs erstellen, aktivieren und beenden, sodass Sie bei Bedarf Aktionen auslösen können. Wenn Sie dafür sorgen, dass Ihr Skript oder Code Daten mit der Kennung des Hybridjobs sendet, müssen Sie das Skript oder den Code nicht aktualisieren, wenn ein neuer Job gestartet wird.

Typische Hybridjobszenarien

Hybridjobs eignen sich gut für folgende Ziele:

  • Führen Sie einmalig einen Scan einer Datenbank außerhalb von Google Cloud im Rahmen einer vierteljährlichen stichprobenartigen Datenbankprüfung durch.
  • Überwachen Sie jeden Tag neue Inhalte, die einer Datenbank hinzugefügt werden, die Cloud DLP nicht nativ unterstützt.
  • Scannt Daten, die in einer Datenbank eingehen, und kontrolliert gleichzeitig, wie die Daten partitioniert sind.
  • Überwachen Sie den Traffic in einem Netzwerk mit Cloud DLP-Filter für Envoy (ein WebAssembly-HTTP-Filter für Envoy-Sidecar-Proxys), um problematische sensible Datenbewegungen zu identifizieren.

Informationen zu diesen Szenarien finden Sie unter Typische Hybridinspektionsszenarien.

Arten von Metadaten, die Sie bereitstellen können

In diesem Abschnitt werden die Arten von Metadaten beschrieben, die Sie an die zu prüfenden externen Daten oder an die Ergebnisse anhängen können.

Sie können Metadaten auf den folgenden Ebenen festlegen:

Metadaten in einem Hybridjob oder Trigger für einen Hybridjob

In diesem Abschnitt werden die Metadatentypen beschrieben, die Sie an einen Hybridjob oder einen Hybridjob-Trigger anhängen können.

Erforderliche Labels

Beim Hybridjob oder Trigger für Hybridjobs können Sie eine Liste der erforderlichen Labels angeben, die in allen von Ihnen gesendeten Hybridinspektionsanfragen enthalten sein müssen. Anfragen für diesen Hybridjob oder Hybridjob, die diese erforderlichen Labels nicht enthalten, werden abgelehnt. Weitere Informationen finden Sie unter Labels aus hybridInspect-Anfragen erforderlich.

Optionale Labels

Sie können Schlüssel/Wert-Paare angeben, die an alle Ergebnisse aus einem Hybridjob oder einem Hybridjob-Trigger angehängt werden. Wenn Sie beispielsweise möchten, dass alle Ergebnisse eines Hybridjobs das Label "env"="prod" haben, geben Sie dieses Schlüssel/Wert-Paar beim Erstellen des Hybridjobs an.

Tabellarische Datenoptionen

Sie können beliebige Spalten, die Zeilenkennungen (Primärschlüssel) für Tabellenobjekte in Ihren Daten sind, angeben. Wenn die angegebenen Spalten in der Tabelle vorhanden sind, werden die Werte aus den angegebenen Spalten zusammen mit jedem Ergebnis eingeschlossen, sodass Sie das Ergebnis zur Zeile zurückverfolgen können, aus der es stammt. Diese tabellarischen Optionen gelten nur für Anfragen, die tabellarische Daten wie ein item.table- oder byteItem-Format wie CSV senden.

Wenn Sie die Primärschlüssel im Voraus kennen, können Sie sie beim Erstellen des Hybridjobs oder des Triggers für hybride Jobs als Identifikationsfelder festlegen. Sie können im Feld hybridOptions.tableOptions.identifyingFields bis zu drei Spaltennamen auflisten.

Metadaten in einer hybridInspect-Anfrage

In diesem Abschnitt werden die Arten von Metadaten beschrieben, die Sie an eine hybridInspect-Anfrage anhängen können. Metadaten, die Sie in einer hybridInspect-Anfrage senden, werden nur auf diese Anfrage angewendet.

Containerdetails

In jeder Anfrage, die Sie an einen Hybridjob oder einen Hybridjob-Trigger senden, können Details zur Datenquelle angegeben werden, einschließlich Elementen wie fullPath, rootPath, relativePath, type, version und anderen. Wenn Sie beispielsweise Tabellen in einer Datenbank scannen, können Sie die Felder so festlegen:

{
  "hybridItem": {
    "item": {...},
    "findingDetails": {
      "containerDetails": {
        "fullPath": "10.0.0.20/database1/table1",
        "relativePath": "table1",
        "rootPath": "10.0.0.20/database1",
        "type": "postgres",
        "version": "9.6"
      },
      "labels": {...}
    }
  }
}

Sie können keine Containerdetails auf Ebene des Triggers oder des Hybridjobs festlegen.

Erforderliche Labels

Wenn Sie beim Erstellen eines Hybridjobs oder eines Triggers für Hybridjobs erforderliche Labels festgelegt haben, muss jede hybridInspect-Anfrage, die Sie an diesen Trigger senden, die erforderlichen Labels enthalten. Weitere Informationen finden Sie unter Labels aus hybridInspect-Anfragen anfordern.

Optionale Labels

In jeder hybridInspect-Anfrage können Sie Schlüssel/Wert-Paare angeben, die an alle Ergebnisse in dieser Anfrage angehängt werden sollen. Mit dieser Methode können Sie jeder hybridInspect-Anfrage verschiedene Labels zuordnen.

Tabellarische Datenoptionen

Sie können beliebige Spalten, die Zeilenkennungen (Primärschlüssel) für Tabellenobjekte in Ihren Daten sind, angeben. Wenn die angegebenen Spalten in der Tabelle vorhanden sind, werden die Werte aus den angegebenen Spalten zusammen mit jedem Ergebnis eingeschlossen, sodass Sie das Ergebnis zur Zeile zurückverfolgen können, aus der es stammt. Diese tabellarischen Optionen gelten nur für Anfragen, die tabellarische Daten wie ein item.table- oder byteItem-Format wie CSV senden.

Wenn Sie die Primärschlüssel nicht im Voraus wissen, müssen Sie sie nicht auf der Triggerebene des Hybridjobs oder des Hybridjobs festlegen. Sie können sie zusammen mit den zu prüfenden tabellarischen Daten in Ihrer hybridInspect-Anfrage festlegen. Alle Felder, die Sie auf Trigger-Ebene für Hybridjobs oder Hybridjobs angeben, werden mit den Feldern kombiniert, die Sie in der hybridInspect-Anfrage angeben.

Unterstützte Aktionen

Wie andere Cloud DLP-Jobs unterstützen Hybridjobs Aktionen. Nicht alle Aktionen gelten für Hybridjobs. Im Folgenden werden die derzeit unterstützten Aktionen sowie Informationen zu ihrer Funktionsweise aufgeführt. Beachten Sie, dass Ergebnisse mit den Pub/Sub-, E-Mail- und Cloud Monitoring-Aktionen verfügbar werden, wenn der Job endet.

  • Ergebnisse in DLP speichern und Ergebnisse in BigQuery speichern: Die Ergebnisse werden in einer Cloud DLP-Ressource bzw. in einer BigQuery-Tabelle gespeichert. Diese Aktionen funktionieren mit Hybridjobs ähnlich wie mit anderen Jobtypen, mit einem wichtigen Unterschied: Bei Hybridjobs werden Ergebnisse verfügbar, während der Job ausgeführt wird. Bei anderen Jobtypen werden Ergebnisse nach dem Ende des Jobs zur Verfügung gestellt.
  • Pub/Sub senden: Wenn ein Job abgeschlossen ist, wird eine Pub/Sub-Nachricht ausgegeben.
  • E-Mail senden: Wenn ein Job abgeschlossen ist, wird eine E-Mail-Nachricht gesendet.
  • In Cloud Monitoring veröffentlichen: Wenn ein Job abgeschlossen ist, werden die Ergebnisse in Monitoring veröffentlicht.

Fazit

Im Folgenden sind einige wichtige Features und Vorteile der Verwendung von Hybridjobs und Job-Triggern aufgeführt:

  • Mit Hybridjobs können Sie Daten aus praktisch jeder Quelle, innerhalb oder außerhalb von der Cloud, nach Cloud DLP streamen.
  • Hybridjob-Trigger werden aktiviert, wenn Cloud DLP einen Datenstream empfängt, der eine Aktivierungsnachricht und die ID des Job-Triggers enthält.
  • Sie können warten, bis der Scan abgeschlossen ist. Sie können den Job aber auch manuell beenden. Prüfergebnisse werden in Cloud DLP oder BigQuery gespeichert, unabhängig davon, ob der Job fertig abgeschlossen ist oder vorher angehalten wurde.
  • Cloud DLP-Prüfscanergebnisse eines Hybridjob-Triggers werden in einer Hybridjobressource in Cloud DLP gespeichert.
  • Sie können die Ergebnisse des Prüfscans prüfen, indem Sie die Job-Trigger-Ressource in Cloud DLP aufrufen.
  • Sie können Cloud DLP auch anweisen, mithilfe einer Aktion Hybridjobergebnisse an eine BigQuery-Datenbank zu senden und Ihnen Benachrichtigungen per E-Mail oder Pub/Sub zu senden.

Weitere Informationen