画像の検査と秘匿化

機密データの保護では、指定した基準で画像に含まれる機密データを検査し、秘匿化できます。

機密データの保護は、infoType 検出器と光学式文字認識(OCR)を使用し、Base64 でエンコードされた画像のテキストを検査して、テキスト内の機密データを検出します。それから、画像内の機密データの場所に関する情報を返すか、不透明な長方形で機密データをマスキングすることで秘匿化します。

検査と秘匿化は 2 つの異なるアクションです。

  • 検査: 機密データの保護は、指定された infoType について、送信された Base64 エンコード画像を検査します。そして、検出された infoType と、1 つ以上のピクセル座標と寸法のセットを返します。ピクセル座標値と寸法値のセットは、それぞれ境界ボックスの左下隅の座標と寸法を示します。各境界ボックスは、機密データの保護の検出結果のすべてまたは一部に対応します。
  • 秘匿化: 機密データの保護は、指定された infoType について、送信された Base64 エンコード画像を検査します。機密データの保護は、見つかった機密データを不透明な長方形でマスキングすることで秘匿化します。秘匿化された Base64 エンコード画像は、元の画像と同じ画像形式で返されます。秘匿化のボックスの色をリクエストで構成することもできます。

検査について

機密データの保護の画像検査では、Base64 エンコード画像を取得し、画像内のテキストを認識して、検査基準に一致するテキスト内のデータを検索します。最後に、機密データの保護は検出された機密データの場所を返します。

次の画像について考えてみましょう。この画像は、紙のドキュメントをスキャンして生成された一般的な画像ファイルの例です。

秘匿化されていない元の画像。
秘匿化されていない元の画像(クリックして拡大)。

この画像内の米国社会保障番号を調べるように機密データの保護に指示すると、次の図に示すプロセスが行われます。

画像検査プロセス。
画像検査プロセス(クリックして拡大)。
  1. content.inspect メソッドを使用して、Base64 エンコード画像が機密データの保護にストリーミングされます。
  2. 機密データの保護は、光学式文字認識(OCR)を使用してドキュメント内のテキストを認識します。
  3. 機密データの保護は、以前に設定した機密データ検出構成を使用して、認識されたテキストをスキャンし、一致するものを識別します。
  4. 機密データの保護は、検出基準に従って機密データを検出した画像内の領域の座標と寸法を返します。

返された座標は、機密データがある場所を示します。機密データの保護では、1 つの機密データのインスタンスが画像内のどこにあるかを示すために、複数のボックスが使われることが多いことに注意してください。これは、この例のようにテキストが手書きで記述されている場合に特によくある現象です。

検出基準に一致する画像内のデータが機密データの保護で見つからない場合、空の正常な HTTP 200 レスポンスが返されます。

秘匿化の概要

画像の秘匿化は画像の検査と同じ手順ですが、1 つ追加の手順があります。機密データの保護は、画像内の機密データの場所を特定すると、データを含む領域の座標を返すのではなく、その領域を秘匿化した Base64 エンコード画像を返します。

前のセクションの元の画像を例に、もう一度考えてみましょう。画像から米国社会保障番号をすべて秘匿化するように機密データの保護に指示すると、次の図に示すプロセスが実行されます。

画像の秘匿化プロセス。
画像の秘匿化プロセス(クリックして拡大)。
  1. image.redact メソッドを使用して、Base64 エンコード画像が機密データの保護にストリーミングされます。
  2. 機密データの保護は、光学式文字認識(OCR)を使用してドキュメント内のテキストを認識します。
  3. 機密データの保護は、以前に設定した機密データ検出構成を使用して、認識されたテキストをスキャンし、一致するものを識別します。
  4. 機密データの保護は、検出した機密データをすべて不透明な長方形でカバーすることで秘匿化します。次に、画像を Base64 でエンコードし、リクエスト レスポンスで返します。

検出基準に一致する画像内のデータが機密データの保護で見つからない場合は、Base64 エンコード画像が変更されずに返されます。

次のステップ