画像の検査と秘匿化

Cloud Data Loss Prevention(DLP)を使用すると、指定した基準で画像に含まれる機密データを検査し、秘匿化できます。

Cloud DLP は infoType 検出器と光学式文字認識(OCR)を使用し、Base64 でエンコードされた画像のテキストを検査して、テキスト内の機密データを検出します。それから、画像内の機密データの場所に関する情報を返すか、不透明な長方形で機密データをマスキングすることで秘匿化します。

検査と秘匿化は 2 つの異なるアクションです。

  • 検査: Cloud DLP は、指定された infoType について、送信された Base64 エンコード画像を検査します。そして、検出された infoType と、1 つ以上のピクセル座標と寸法のセットを返します。ピクセル座標値と寸法値のセットは、それぞれ境界ボックスの左下隅の座標と寸法を示します。各境界ボックスは、Cloud DLP の検査結果のすべてまたは一部に対応します。
  • 秘匿化: Cloud DLP は、指定された infoType について、送信された Base64 エンコード画像を検査します。Cloud DLP は、見つかった機密データを不透明な長方形でマスキングすることで秘匿化します。秘匿化された Base64 エンコード画像は、元の画像と同じ画像形式で返されます。秘匿化のボックスの色をリクエストで構成することもできます。

検査について

Cloud DLP の画像検査では、Base64 エンコード画像を取得し、画像内のテキストを認識して、検査基準に一致するテキスト内のデータを検索します。最後に、Cloud DLP は検出された機密データの場所を返します。

次の画像について考えてみましょう。この画像は、紙のドキュメントをスキャンして生成された一般的な画像ファイルの例です。

秘匿化されていない元の画像(クリックして拡大)

この画像内に米国社会保障番号が含まれていないか調べるように Cloud DLP に指示すると、次の図のプロセスが行われます。

画像検査プロセス(クリックして拡大)
  1. Base64 エンコード画像は、content.inspect メソッドを使用して Cloud DLP にストリーミングされます。
  2. Cloud DLP は、光学式文字認識(OCR)を使用してドキュメント内のテキストを認識します。
  3. Cloud DLP は、以前設定した機密データ検出構成を使用して、認識されたテキストをスキャンし、一致するものを識別します。
  4. Cloud DLP は、検出基準に従って機密データを検出した画像内の領域の座標と寸法を返します。

返された座標は、機密データがある場所を示します。Cloud DLP では、1 つの機密データのインスタンスが画像内のどこにあるかを示すために、複数のボックスが使われることが多いことに注意してください。これは、この例のようにテキストが手書きで記述されている場合に特によくある現象です。

検出基準に一致する画像内のデータが Cloud DLP で見つからない場合、空の正常な HTTP 200 レスポンスが返されます。

秘匿化の概要

画像の秘匿化は画像の検査と同じ手順ですが、1 つ追加の手順があります。Cloud DLP は、画像内の機密データの場所を特定すると、データを含む領域の座標を返すのではなく、その領域を秘匿化した Base64 エンコード画像を返します。

前のセクションの元の画像を例に、もう一度考えてみましょう。画像から米国社会保障番号をすべて秘匿化するように Cloud DLP に指示すると、次の図に示すプロセスが実行されます。

画像の秘匿化プロセス(クリックして拡大)
  1. image.redact メソッドを使用して、Base64 エンコード画像が Cloud DLP にストリーミングされます。
  2. Cloud DLP は、光学式文字認識(OCR)を使用してドキュメント内のテキストを認識します。
  3. Cloud DLP は、以前設定した機密データ検出構成を使用して、認識されたテキストをスキャンし、一致するものを識別します。
  4. Cloud DLP は、検出した機密データをすべて不透明な長方形でカバーすることで秘匿化します。次に、画像を Base64 でエンコードし、リクエスト レスポンスで返します。

検出基準に一致する画像内のデータが Cloud DLP で見つからない場合は、Base64 エンコード画像が変更されずに返されます。

次のステップ