サポートされているファイル形式とスキャンモード

ファイル形式

次の表に、機密データの保護がサポートするファイル形式、対応するスキャン制限、スキャンモード、変換のサポートを示します。

機密データの保護は、ファイル拡張子とメディア(MIME)タイプを使用して、スキャンするファイルの形式と、適用するスキャンモードを識別します。たとえば、機密データの保護では、通常は構造化解析モードでスキャンされる CSV ファイルとしてファイルが構造化されている場合でも、書式なしテキストモードで .txt ファイルをスキャンします。

ファイル形式 ファイル拡張子 上限 スキャンモード 変換サポート
Apache Avro

avro

Avro の上限 構造化解析
Comma- or tab-separated values

csv、tsv

構造化解析 De-identify content
PDF

pdf

PDF の上限 インテリジェントなドキュメント解析
Text

asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh、hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json、jsonl、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py、pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml、xml、xsl、xsd、yml、yaml。

書式なしテキスト De-identify content
Microsoft Word

docx、dotx、docm、dotm

Word の上限 インテリジェントなドキュメント解析
Microsoft Excel

xlsx、xlsm、xltx、xltm

Excel の上限 インテリジェントなドキュメント解析
Microsoft Powerpoint

pptx、pptm、potx、potm

PowerPoint の上限 インテリジェントなドキュメント解析
Image

bmp、gif、jpg、jpeg、jpe、png

OCR 削除
Binary

サポートされていないファイル形式と光学式文字認識(OCR)を使用してスキャンできないファイル形式と画像

2 項

Cloud Storage でサポートされていないファイル形式

ストレージ スキャン中にファイルが認識されなかった場合、デフォルトではシステムによりバイナリ ファイルとしてスキャンされます。コンテンツの UTF_8 への変換が試みられ、その後書式なしテキストとしてスキャンされます。

機密データの保護でサポートされていないファイルのために、スキップするファイルのコレクションがある場合は、CloudStorageOptions.file_set.regex_file_set.exclude_regex を使用して除外リストを指定できます。

ファイルごとにスキャンされるバイト数の制限

一般に、ファイルごとにスキャンされるバイト数を制限できます。Google Cloud コンソールでサンプリングを行うには、サンプリングを有効にします。Cloud Data Loss Prevention API で、bytes_limit_per_file フィールドまたは bytesLimitPerFilePercent フィールドを設定します。

サンプリングは、OCR とインテリジェントな解析モードでサポートされていません。つまり、次のファイル形式が OCR またはインテリジェントなドキュメント解析モードでスキャンされると、機密データの保護では、ファイルごとにスキャンされるバイト数を制限するために適用した設定は無視されます。

  • Image
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

これらのファイルをバイナリモードでスキャンする場合、制限が適用されます。

スキャンモード

各スキャンモードでは、検査結果場所の詳細が追加で表示されます。

スキャンモード 場所についての追加情報
2 項

ファイルが他の形式として解析されない場合は、UTF_8 に変換され、テキストとしてスキャンされます。 バイナリ スキャンは検出品質に影響します。

インテリジェントなドキュメント解析

ドキュメントは書式設定されたものから抽出されたテキストで解析されます。埋め込まれた画像は、OCR をサポートしているリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。

DocumentLocation
メタデータ抽出

Cloud Storage からスキャンされたすべてのファイルには、ファイルの内容に加えて、スキャンされた metadata があります。

MetadataLocation
光学式文字認識(OCR)

画像は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。

ImageLocation
書式なしテキスト

詳細情報なし
構造化解析

構造情報は検出結果に影響を与えます。 このスキャンモードでは、機密データの保護はヘッダー情報をコンテキストに使用します。クロス行・クロス列分析を行って相関データを見つけます。たとえば、このスキャンモードでは、番地の構成要素が 1 行の複数の列に分散されている番地を特定できます。

スキャン結果には、検出結果を含む行、列の名前などの構造情報が含まれます。

検出結果がテーブルのセル境界を超えることはありません。

RecordLocation

構造化解析モードで構造化ファイルをスキャンする

構造化ファイル(Avro、CSV、TSV ファイルなど)をスキャンする場合、機密データの保護は構造化解析スキャンモードでファイルのスキャンを試みます。構造化解析モードでは、構造化データの行と列の相関関係が検索されるため、このスキャンモードでは、バイナリ スキャンに比べて優れた検出品質が得られます。検出結果は、fieldId といった検出結果の場所を示す追加のメタデータとともに返されます。

ただし、次のような場合は、機密データの保護は、構造化解析モードの拡張機能がないバイナリ スキャンモードに戻る場合があります。

  • ファイルまたはヘッダーが破損している。
  • 検査ジョブの構成にサイズ制限(bytesLimitPerFilebytesLimitPerFilePercent など)がある。たとえば、bytesLimitPerFile の上限がブロック ヘッダー全体と有効なデータの少なくとも 1 行を収容するのに十分な大きさがない場合、機密データの保護はそのファイルをバイナリ スキャンモードでスキャンする可能性があります。

スキャンされるデータの選択は、サンプリングがファイルの先頭から開始するように設定されているか、ランダムな位置から開始するように設定されているかによって異なります。

たとえば、50 KB のブロック ヘッダーと 2 MB のデータブロックを持つ Avro ファイルがあるとします。一般に、サンプルを上から開始すると、センシティブ データの保護に使用されるサンプルにブロック ヘッダーが常に含まれていることを保証できます。ファイル内のランダムな位置からサンプリングを開始し、サンプルサイズがデータブロックよりも小さい場合、サンプルにブロック ヘッダーが含まれていない可能性があります。この例では、bytesLimitPerFile または bytesLimitPerFilePercent で指定されたサンプルサイズを 2.05 MB に拡大すると、検査がバイナリ解析モードに戻るのを防ぐことができます。

例: サンプルサイズが小さすぎる場合、検査にブロック ヘッダーが含まれていない可能性があります。
例: サンプルサイズが小さすぎる場合、検査にブロック ヘッダーが含まれない可能性があります(クリックして拡大)。