このページでは、Sensitive Data Protection でスキャンできるファイルの種類と、Sensitive Data Protection がファイルの分析に使用するスキャンモードについて説明します。
検査オペレーションと匿名化オペレーションでサポートされているファイル形式
次の表に、機密データの保護が検査して変換(匿名化)できるファイル形式を示します。
機密データの保護は、ファイル拡張子とメディア(MIME)タイプを使用して、スキャンするファイルの形式と、適用するスキャンモードを識別します。たとえば、機密データの保護では、通常は構造化解析モードでスキャンされる CSV ファイルとしてファイルが構造化されている場合でも、書式なしテキストモードで .txt
ファイルをスキャンします。
ファイル形式 | ファイル拡張子 | 上限 | スキャンモード | 変換サポート |
---|---|---|---|---|
Apache Avro |
avro |
Avro の上限 | 構造化解析 | |
Comma- or tab-separated values | csv、tsv | 構造化解析 | De-identify content | |
PDF |
PDF の上限 | インテリジェントなドキュメント解析 | ||
Text |
asc、brf、c、c++、cc、cpp、cs、css、cxx、dart、eml、go、h、h++、hh、hpp、hs、htm、html、hxx、ini、java、js、json、jsonl、lhs、m、markdown、md、mkd、ml、mli、ocaml、php、pht、phtml、pl、pm、py、pyw、rb、rbw、rc、rs、scala、sh、shtm、shtml、sql、tex、text、txt、vcard、vcs、wml、xhtml、xml、xsd、xsl、yaml、yml |
書式なしテキスト | De-identify content | |
Microsoft Word |
docm、docx、dotm、dotx |
Word の上限 | インテリジェントなドキュメント解析 | |
Microsoft Excel |
xlsm、xlsx、xltm、xltx |
Excel の上限 | インテリジェントなドキュメント解析 | |
Microsoft Powerpoint |
potm、potx、pptm、pptx |
PowerPoint の制限 | インテリジェントなドキュメント解析 | |
Image |
bmp、gif、jpe、jpeg、jpg、png |
OCR | 削除 | |
Binary |
認識されないファイル形式と光学式文字認識(OCR)を使用してスキャンできないファイル形式と画像 |
バイナリ |
検出オペレーションでサポートされているファイル クラスタ
検出中、機密データの保護は検出されたファイルをファイル クラスタに整理します。これらのクラスタは、類似したファイルタイプのグループです。次の表に、サポートされているファイル クラスタとファイル拡張子を示します。検出されたすべてのファイルをスキャンできるわけではありません。
機密データの保護でファイル クラスタのサポートが追加されると、ファイルがファイル クラスタ間で移動することがあります。スキャン サポートが拡大されると、検出サービスはこれまでスキャンされなかったファイルのスキャンを開始する可能性があります。検出の料金の説明に沿って課金されます。
ファイル クラスタ | ファイル拡張子 | 上限 | スキャンモード |
---|---|---|---|
Text |
asc、eml、htm、html、ini、json、jsonL、log、markdown、md、mkd、plist、shtm、shtml、sql、tex、text、txt、vcard、vcs、xsd、xsl |
書式なしテキスト | |
Source Code |
bat、brf、c、c++、cc、cmd、cpp、cs、css、cxx、dart、go、h、hh、hpp、hs、hxx、java、js、lhs、m、ml、ocaml、php、phtm、phtml、pl、ps1、py、pyw、rb、rbw、rc、rs、scala、scpt、scr、script、sh、sql、vb、vbs、wml、xml、yaml、yml |
書式なしテキスト | |
Structured Data |
avro、csv、tsv、proto |
avro、csv、tsv ファイルの構造化された解析。proto ファイルのプレーン テキスト解析 | |
Rich Documents |
doc、docm、docx、dotm、dotx、pdf、potm、potx、ppt、pptm、pptx、xls、xlsm、xlsx、xltm、xltx |
サポートされている 30 MiB 未満の PDF、Microsoft Word、Excel、PowerPoint ファイルがスキャンされます。 | インテリジェントなドキュメント解析 |
Images |
bmp、gif、heic、ico、jpe、jpeg、jpg、pm、png、svg、tiff、webp |
サポートされている 4 MiB 未満の画像(bmp、gif、jpe、jpeg、jpg、png)は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はスキャンされません。 | OCR |
Executables |
ac、air、apk、app、appimage、bas、bin、bms、class、cls、com、command、ctl、ctx、dca、ddf、dep、dll、dob、dox、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、widget、workflow、wsf、x86、x86_64、xap、xbe、xlm |
現時点ではスキャンされていません | |
Archives |
7z、a、ace、afa、alz、apk、ar、arc、arj、ark、b1、b6z、ba、bh、cab、car、cdx、cfs、cpio、cpt、dar、dd、dgc、dmg、ear、esd、gca、genozip、gz、ha、hki、ice、ima、img、iso、jar、kgb、lha、lpaq#*、lzh、lzx、mou、pak、paq#*、paq6、paq7、paq8 およびバリアント、partimg、pea、phar、pim、pit、qda、rar、rk、run、s7z、sda、sea、sen、sfx、shar、shk、sit、sitx、sqx、swm、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、tgz、uc、uc0、uc2、uca、ucn、ue2、uha、ur2、war、wim、xar、xp3、yz1、zip、zipx、zoo、zpaq、zz |
Sensitive Data Protection は、bz2、cpio、gz、jar、lz4、lzma、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、xz、z、zip のファイル拡張子を持つアーカイブ内のファイルをスキャンします。 各ファイルに使用されるスキャンモードは、ファイルの種類によって異なります。 |
|
Multimedia |
3g2、3gp、8svx、aa、aac、aax、act、aiff、alac、amr、amv、ape、asf、au、avi、awb、cda、drc、dss、dvf、f4a、f4b、f4p、f4v、flac、flv、gif、gifv、gsm、iklax、ivs、M2TS、m2v、m4a、m4b、m4p、m4p(DRM 付き)、m4v、mkv、mmf、mng、mogg、mov、movpkg、mp2、mp3、mp4、mpc、mpe、mpeg、mpg、mpv、msv、MTS、mxf、nmf、nsv、oga、ogg、ogv、opus、qt、ra、raw、rf64、rm、rmvb、roq、sln、svi、TS、tta、viv、vob、voc、vox、wav、webm、wma、wmv、wv、yuv |
現時点ではスキャンされていません | |
AI Models |
caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords |
現時点ではスキャンされていません | |
Unknown |
別のクラスタに属していないその他のファイル。 | 拡張子がないファイルや、.dat、.1、.2 などの一般的だが標準ではない拡張子を使用しているファイル | 現時点ではスキャンされていません |
Cloud Storage で認識されないファイル形式
ストレージ スキャン中にファイルが認識されなかった場合、デフォルトではシステムによりバイナリ ファイルとしてスキャンされます。コンテンツの UTF_8 への変換が試みられ、その後書式なしテキストとしてスキャンされます。
検出スキャン中にファイルが認識されなかった場合、システムはファイルをスキャンしません。
Sensitive Data Protection で認識されないファイルのために、スキップするファイルのコレクションがある場合は、CloudStorageOptions.file_set.regex_file_set.exclude_regex
を使用して除外リストを指定できます。
ファイルごとにスキャンされるバイト数の制限
一般に、ファイルごとにスキャンされるバイト数を制限できます。Google Cloud コンソールでサンプリングを行うには、サンプリングを有効にします。Cloud Data Loss Prevention API で、bytes_limit_per_file
フィールドまたは bytesLimitPerFilePercent
フィールドを設定します。
サンプリングは、OCR とインテリジェントな解析モードでサポートされていません。つまり、次のファイル形式が OCR またはインテリジェントなドキュメント解析モードでスキャンされると、機密データの保護では、ファイルごとにスキャンされるバイト数を制限するために適用した設定は無視されます。
- Image
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
これらのファイルをバイナリモードでスキャンする場合、制限が適用されます。
スキャンモード
各スキャンモードでは、検査結果に場所の詳細が追加で表示されます。
スキャンモード | 注 | 場所についての追加情報 |
---|---|---|
2 項 | ファイルが他の形式として解析されない場合は、UTF_8 に変換され、テキストとしてスキャンされます。 バイナリ スキャンは検出品質に影響します。 |
|
インテリジェントなドキュメント解析 | ドキュメントは書式設定されたものから抽出されたテキストで解析されます。埋め込まれた画像は、OCR をサポートしているリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。 |
DocumentLocation |
メタデータ抽出 | Cloud Storage からスキャンされたすべてのファイルには、ファイルの内容に加えて、スキャンされた |
MetadataLocation |
光学式文字認識(OCR) | 画像は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。 |
ImageLocation |
書式なしテキスト | 詳細情報なし | |
構造化解析 | 構造情報は検出結果に影響を与えます。 このスキャンモードでは、機密データの保護はヘッダー情報をコンテキストに使用します。クロス行・クロス列分析を行って相関データを見つけます。たとえば、このスキャンモードでは、番地の構成要素が 1 行の複数の列に分散されている番地を特定できます。 スキャン結果には、検出結果を含む行、列の名前などの構造情報が含まれます。 検出結果がテーブルのセル境界を超えることはありません。 |
RecordLocation |
構造化解析モードで構造化ファイルをスキャンする
構造化ファイル(Avro、CSV、TSV ファイルなど)をスキャンする場合、機密データの保護は構造化解析スキャンモードでファイルのスキャンを試みます。構造化解析モードでは、構造化データの行と列の相関関係が検索されるため、このスキャンモードでは、バイナリ スキャンに比べて優れた検出品質が得られます。検出結果は、fieldId
といった検出結果の場所を示す追加のメタデータとともに返されます。
ただし、次のような場合は、機密データの保護は、構造化解析モードの拡張機能がないバイナリ スキャンモードに戻る場合があります。
- ファイルまたはヘッダーが破損している。
- 検査ジョブの構成にサイズ制限(
bytesLimitPerFile
やbytesLimitPerFilePercent
など)がある。たとえば、bytesLimitPerFile
の上限がブロック ヘッダー全体と有効なデータの少なくとも 1 行を収容するのに十分な大きさがない場合、機密データの保護はそのファイルをバイナリ スキャンモードでスキャンする可能性があります。
スキャンされるデータの選択は、サンプリングがファイルの先頭から開始するように設定されているか、ランダムな位置から開始するように設定されているかによって異なります。
たとえば、50 KB のブロック ヘッダーと 2 MB のデータブロックを含む Avro ファイルがあるとします。一般に、サンプルを上から開始すると、センシティブ データの保護に使用されるサンプルにブロック ヘッダーが常に含まれていることを保証できます。ファイルのランダムな位置からサンプリングを開始し、サンプルサイズがデータブロックよりも小さい場合、ブロック ヘッダーがサンプルに含まれない可能性があります。この例では、bytesLimitPerFile
または bytesLimitPerFilePercent
で指定されたサンプルサイズを 2.05 MB に拡大すると、検査がバイナリ解析モードに戻るのを防ぐことができます。