サポートされているファイル形式とスキャンモード

このページでは、Sensitive Data Protection でスキャンできるファイルの種類と、Sensitive Data Protection がファイルの分析に使用するスキャンモードについて説明します。

検査オペレーションと匿名化オペレーションでサポートされているファイル形式

次の表に、機密データの保護が検査して変換(匿名化)できるファイル形式を示します。

機密データの保護は、ファイル拡張子とメディア(MIME)タイプを使用して、スキャンするファイルの形式と、適用するスキャンモードを識別します。たとえば、機密データの保護では、通常は構造化解析モードでスキャンされる CSV ファイルとしてファイルが構造化されている場合でも、書式なしテキストモードで .txt ファイルをスキャンします。

ファイル形式 ファイル拡張子 上限 スキャンモード 変換サポート
Apache Avro

avro

Avro の上限 構造化解析
Comma- or tab-separated values

csv、tsv

構造化解析 De-identify content
PDF

pdf

PDF の上限 インテリジェントなドキュメント解析
Text

asc、brf、c、c++、cc、cpp、cs、css、cxx、dart、eml、go、h、h++、hh、hpp、hs、htm、html、hxx、ini、java、js、json、jsonl、lhs、m、markdown、md、mkd、ml、mli、ocaml、php、pht、phtml、pl、pm、py、pyw、rb、rbw、rc、rs、scala、sh、shtm、shtml、sql、tex、text、txt、vcard、vcs、wml、xhtml、xml、xsd、xsl、yaml、yml

書式なしテキスト De-identify content
Microsoft Word

docm、docx、dotm、dotx

Word の上限 インテリジェントなドキュメント解析
Microsoft Excel

xlsm、xlsx、xltm、xltx

Excel の上限 インテリジェントなドキュメント解析
Microsoft Powerpoint

potm、potx、pptm、pptx

PowerPoint の制限 インテリジェントなドキュメント解析
Image

bmp、gif、jpe、jpeg、jpg、png

OCR 削除
Binary

認識されないファイル形式と光学式文字認識(OCR)を使用してスキャンできないファイル形式と画像

バイナリ

検出オペレーションでサポートされているファイル クラスタ

検出中、機密データの保護は検出されたファイルをファイル クラスタに整理します。これらのクラスタは、類似したファイルタイプのグループです。次の表に、サポートされているファイル クラスタとファイル拡張子を示します。検出されたすべてのファイルをスキャンできるわけではありません。

機密データの保護でファイル クラスタのサポートが追加されると、ファイルがファイル クラスタ間で移動することがあります。スキャン サポートが拡大されると、検出サービスはこれまでスキャンされなかったファイルのスキャンを開始する可能性があります。検出の料金の説明に沿って課金されます。

ファイル クラスタ ファイル拡張子 上限 スキャンモード
Text

asc、eml、htm、html、ini、json、jsonL、log、markdown、md、mkd、plist、shtm、shtml、sql、tex、text、txt、vcard、vcs、xsd、xsl

書式なしテキスト
Source Code

bat、brf、c、c++、cc、cmd、cpp、cs、css、cxx、dart、go、h、hh、hpp、hs、hxx、java、js、lhs、m、ml、ocaml、php、phtm、phtml、pl、ps1、py、pyw、rb、rbw、rc、rs、scala、scpt、scr、script、sh、sql、vb、vbs、wml、xml、yaml、yml

書式なしテキスト
Structured Data

avro、csv、tsv、proto

avro、csv、tsv ファイルの構造化された解析。proto ファイルのプレーン テキスト解析
Rich Documents

doc、docm、docx、dotm、dotx、pdf、potm、potx、ppt、pptm、pptx、xls、xlsm、xlsx、xltm、xltx

サポートされている 30 MiB 未満の PDF、Microsoft Word、Excel、PowerPoint ファイルがスキャンされます。 インテリジェントなドキュメント解析
Images

bmp、gif、heic、ico、jpe、jpeg、jpg、pm、png、svg、tiff、webp

サポートされている 4 MiB 未満の画像(bmp、gif、jpe、jpeg、jpg、png)は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はスキャンされません。 OCR
Executables

ac、air、apk、app、appimage、bas、bin、bms、class、cls、com、command、ctl、ctx、dca、ddf、dep、dll、dob、dox、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、widget、workflow、wsf、x86、x86_64、xap、xbe、xlm

現時点ではスキャンされていません
Archives

7z、a、ace、afa、alz、apk、ar、arc、arj、ark、b1、b6z、ba、bh、cab、car、cdx、cfs、cpio、cpt、dar、dd、dgc、dmg、ear、esd、gca、genozip、gz、ha、hki、ice、ima、img、iso、jar、kgb、lha、lpaq#*、lzh、lzx、mou、pak、paq#*、paq6、paq7、paq8 およびバリアント、partimg、pea、phar、pim、pit、qda、rar、rk、run、s7z、sda、sea、sen、sfx、shar、shk、sit、sitx、sqx、swm、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、tgz、uc、uc0、uc2、uca、ucn、ue2、uha、ur2、war、wim、xar、xp3、yz1、zip、zipx、zoo、zpaq、zz

Sensitive Data Protection は、bz2、cpio、gz、jar、lz4、lzma、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、xz、z、zip のファイル拡張子を持つアーカイブ内のファイルをスキャンします。

各ファイルに使用されるスキャンモードは、ファイルの種類によって異なります。

Multimedia

3g2、3gp、8svx、aa、aac、aax、act、aiff、alac、amr、amv、ape、asf、au、avi、awb、cda、drc、dss、dvf、f4a、f4b、f4p、f4v、flac、flv、gif、gifv、gsm、iklax、ivs、M2TS、m2v、m4a、m4b、m4p、m4p(DRM 付き)、m4v、mkv、mmf、mng、mogg、mov、movpkg、mp2、mp3、mp4、mpc、mpe、mpeg、mpg、mpv、msv、MTS、mxf、nmf、nsv、oga、ogg、ogv、opus、qt、ra、raw、rf64、rm、rmvb、roq、sln、svi、TS、tta、viv、vob、voc、vox、wav、webm、wma、wmv、wv、yuv

現時点ではスキャンされていません
AI Models

caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords

現時点ではスキャンされていません
Unknown 別のクラスタに属していないその他のファイル。 拡張子がないファイルや、.dat、.1、.2 などの一般的だが標準ではない拡張子を使用しているファイル 現時点ではスキャンされていません

Cloud Storage で認識されないファイル形式

ストレージ スキャン中にファイルが認識されなかった場合、デフォルトではシステムによりバイナリ ファイルとしてスキャンされます。コンテンツの UTF_8 への変換が試みられ、その後書式なしテキストとしてスキャンされます。

検出スキャン中にファイルが認識されなかった場合、システムはファイルをスキャンしません。

Sensitive Data Protection で認識されないファイルのために、スキップするファイルのコレクションがある場合は、CloudStorageOptions.file_set.regex_file_set.exclude_regex を使用して除外リストを指定できます。

ファイルごとにスキャンされるバイト数の制限

一般に、ファイルごとにスキャンされるバイト数を制限できます。Google Cloud コンソールでサンプリングを行うには、サンプリングを有効にします。Cloud Data Loss Prevention API で、bytes_limit_per_file フィールドまたは bytesLimitPerFilePercent フィールドを設定します。

サンプリングは、OCR とインテリジェントな解析モードでサポートされていません。つまり、次のファイル形式が OCR またはインテリジェントなドキュメント解析モードでスキャンされると、機密データの保護では、ファイルごとにスキャンされるバイト数を制限するために適用した設定は無視されます。

  • Image
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

これらのファイルをバイナリモードでスキャンする場合、制限が適用されます。

スキャンモード

各スキャンモードでは、検査結果場所の詳細が追加で表示されます。

スキャンモード 場所についての追加情報
2 項

ファイルが他の形式として解析されない場合は、UTF_8 に変換され、テキストとしてスキャンされます。 バイナリ スキャンは検出品質に影響します。

インテリジェントなドキュメント解析

ドキュメントは書式設定されたものから抽出されたテキストで解析されます。埋め込まれた画像は、OCR をサポートしているリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。

DocumentLocation
メタデータ抽出

Cloud Storage からスキャンされたすべてのファイルには、ファイルの内容に加えて、スキャンされた metadata があります。

MetadataLocation
光学式文字認識(OCR)

画像は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリ ファイルとしてスキャンされます。

ImageLocation
書式なしテキスト

詳細情報なし
構造化解析

構造情報は検出結果に影響を与えます。 このスキャンモードでは、機密データの保護はヘッダー情報をコンテキストに使用します。クロス行・クロス列分析を行って相関データを見つけます。たとえば、このスキャンモードでは、番地の構成要素が 1 行の複数の列に分散されている番地を特定できます。

スキャン結果には、検出結果を含む行、列の名前などの構造情報が含まれます。

検出結果がテーブルのセル境界を超えることはありません。

RecordLocation

構造化解析モードで構造化ファイルをスキャンする

構造化ファイル(Avro、CSV、TSV ファイルなど)をスキャンする場合、機密データの保護は構造化解析スキャンモードでファイルのスキャンを試みます。構造化解析モードでは、構造化データの行と列の相関関係が検索されるため、このスキャンモードでは、バイナリ スキャンに比べて優れた検出品質が得られます。検出結果は、fieldId といった検出結果の場所を示す追加のメタデータとともに返されます。

ただし、次のような場合は、機密データの保護は、構造化解析モードの拡張機能がないバイナリ スキャンモードに戻る場合があります。

  • ファイルまたはヘッダーが破損している。
  • 検査ジョブの構成にサイズ制限(bytesLimitPerFilebytesLimitPerFilePercent など)がある。たとえば、bytesLimitPerFile の上限がブロック ヘッダー全体と有効なデータの少なくとも 1 行を収容するのに十分な大きさがない場合、機密データの保護はそのファイルをバイナリ スキャンモードでスキャンする可能性があります。

スキャンされるデータの選択は、サンプリングがファイルの先頭から開始するように設定されているか、ランダムな位置から開始するように設定されているかによって異なります。

たとえば、50 KB のブロック ヘッダーと 2 MB のデータブロックを含む Avro ファイルがあるとします。一般に、サンプルを上から開始すると、センシティブ データの保護に使用されるサンプルにブロック ヘッダーが常に含まれていることを保証できます。ファイルのランダムな位置からサンプリングを開始し、サンプルサイズがデータブロックよりも小さい場合、ブロック ヘッダーがサンプルに含まれない可能性があります。この例では、bytesLimitPerFile または bytesLimitPerFilePercent で指定されたサンプルサイズを 2.05 MB に拡大すると、検査がバイナリ解析モードに戻るのを防ぐことができます。

例: サンプルサイズが小さすぎる場合、検査にブロック ヘッダーが含まれていない可能性があります。
例: サンプルサイズが小さすぎる場合、検査にブロック ヘッダーが含まれない可能性があります(クリックして拡大)。