ファイル形式
次の表に、機密データの保護がサポートするファイル形式、対応するスキャン制限、スキャンモード、変換のサポートを示します。
機密データの保護は、ファイル拡張子とメディア(MIME)タイプを使用して、スキャンするファイルの形式と、適用するスキャンモードを識別します。たとえば、機密データの保護では、通常は構造化解析モードでスキャンされる CSV ファイルとしてファイルが構造化されている場合でも、書式なしテキストモードで .txt
ファイルをスキャンします。
ファイル形式 | ファイル拡張子 | 上限 | スキャンモード | 変換サポート |
---|---|---|---|---|
Apache Avro |
avro |
Avro の上限 | 構造化解析 | |
Comma- or tab-separated values | csv、tsv | 構造化解析 | De-identify content | |
PDF |
PDF の上限 | インテリジェントなドキュメント解析 | ||
Text |
asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh、hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json、jsonl、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py、pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml、xml、xsl、xsd、yml、yaml。 |
書式なしテキスト | De-identify content | |
Microsoft Word |
docx、dotx、docm、dotm |
Word の上限 | インテリジェントなドキュメント解析 | |
Microsoft Excel |
xlsx、xlsm、xltx、xltm |
Excel の上限 | インテリジェントなドキュメント解析 | |
Microsoft Powerpoint |
pptx、pptm、potx、potm |
PowerPoint の上限 | インテリジェントなドキュメント解析 | |
Image |
bmp、gif、jpg、jpeg、jpe、png |
OCR | 削除 | |
Binary |
サポートされていないファイル形式と光学式文字認識(OCR)を使用してスキャンできないファイル形式と画像 |
2 項 |
Cloud Storage でサポートされていないファイル形式
ストレージ スキャン中にファイルが認識されなかった場合、デフォルトではシステムによりバイナリ ファイルとしてスキャンされます。コンテンツの UTF_8 への変換が試みられ、その後書式なしテキストとしてスキャンされます。
機密データの保護でサポートされていないファイルのために、スキップするファイルのコレクションがある場合は、CloudStorageOptions.file_set.regex_file_set.exclude_regex
を使用して除外リストを指定できます。
ファイルごとにスキャンされるバイト数の制限
一般に、ファイルごとにスキャンされるバイト数を制限できます。Google Cloud コンソールでサンプリングを行うには、サンプリングを有効にします。Cloud Data Loss Prevention API で、bytes_limit_per_file
フィールドまたは bytesLimitPerFilePercent
フィールドを設定します。
サンプリングは、OCR とインテリジェントな解析モードでサポートされていません。つまり、次のファイル形式が OCR またはインテリジェントなドキュメント解析モードでスキャンされると、機密データの保護では、ファイルごとにスキャンされるバイト数を制限するために適用した設定は無視されます。
- Image
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
これらのファイルをバイナリモードでスキャンする場合、制限が適用されます。
スキャンモード
各スキャンモードでは、検査結果に場所の詳細が追加で表示されます。
スキャンモード | 注 | 場所についての追加情報 |
---|---|---|
2 項 | ファイルが他の形式として解析されない場合は、UTF_8 に変換され、テキストとしてスキャンされます。 バイナリ スキャンは検出品質に影響します。 |
|
インテリジェントなドキュメント解析 | ドキュメントは書式設定されたものから抽出されたテキストで解析されます。埋め込まれた画像は、OCR をサポートしているリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。 |
DocumentLocation |
メタデータ抽出 | Cloud Storage からスキャンされたすべてのファイルには、ファイルの内容に加えて、スキャンされた |
MetadataLocation |
光学式文字認識(OCR) | 画像は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。 |
ImageLocation |
書式なしテキスト | 詳細情報なし | |
構造化解析 | 構造情報は検出結果に影響を与えます。 このスキャンモードでは、機密データの保護はヘッダー情報をコンテキストに使用します。クロス行・クロス列分析を行って相関データを見つけます。たとえば、このスキャンモードでは、番地の構成要素が 1 行の複数の列に分散されている番地を特定できます。 スキャン結果には、検出結果を含む行、列の名前などの構造情報が含まれます。 検出結果がテーブルのセル境界を超えることはありません。 |
RecordLocation |
構造化解析モードで構造化ファイルをスキャンする
構造化ファイル(Avro、CSV、TSV ファイルなど)をスキャンする場合、機密データの保護は構造化解析スキャンモードでファイルのスキャンを試みます。構造化解析モードでは、構造化データの行と列の相関関係が検索されるため、このスキャンモードでは、バイナリ スキャンに比べて優れた検出品質が得られます。検出結果は、fieldId
といった検出結果の場所を示す追加のメタデータとともに返されます。
ただし、次のような場合は、機密データの保護は、構造化解析モードの拡張機能がないバイナリ スキャンモードに戻る場合があります。
- ファイルまたはヘッダーが破損している。
- 検査ジョブの構成にサイズ制限(
bytesLimitPerFile
やbytesLimitPerFilePercent
など)がある。たとえば、bytesLimitPerFile
の上限がブロック ヘッダー全体と有効なデータの少なくとも 1 行を収容するのに十分な大きさがない場合、機密データの保護はそのファイルをバイナリ スキャンモードでスキャンする可能性があります。
スキャンされるデータの選択は、サンプリングがファイルの先頭から開始するように設定されているか、ランダムな位置から開始するように設定されているかによって異なります。
たとえば、50 KB のブロック ヘッダーと 2 MB のデータブロックを持つ Avro ファイルがあるとします。一般に、サンプルを上から開始すると、センシティブ データの保護に使用されるサンプルにブロック ヘッダーが常に含まれていることを保証できます。ファイル内のランダムな位置からサンプリングを開始し、サンプルサイズがデータブロックよりも小さい場合、サンプルにブロック ヘッダーが含まれていない可能性があります。この例では、bytesLimitPerFile
または bytesLimitPerFilePercent
で指定されたサンプルサイズを 2.05 MB に拡大すると、検査がバイナリ解析モードに戻るのを防ぐことができます。