Cloud Data Loss Prevention（Cloud DLP）は機密データの保護の一部になりました。API 名は Cloud Data Loss Prevention API（DLP API）のままです。機密データの保護を構成するサービスについては、機密データの保護の概要をご覧ください。

このページは Cloud Translation API によって翻訳されました。

サポートされているファイル形式とスキャンモード

このページでは、Sensitive Data Protection でスキャンできるファイルの種類と、Sensitive Data Protection がファイルの分析に使用するスキャンモードについて説明します。

検査オペレーションと匿名化オペレーションでサポートされているファイル形式

次の表に、機密データの保護が検査して変換（匿名化）できるファイル形式を示します。

機密データの保護は、ファイル拡張子とメディア（MIME）タイプを使用して、スキャンするファイルの形式と、適用するスキャンモードを識別します。たとえば、機密データの保護では、通常は構造化解析モードでスキャンされる CSV ファイルとしてファイルが構造化されている場合でも、書式なしテキストモードで .txt ファイルをスキャンします。

ファイル形式	ファイル拡張子	上限	スキャンモード	変換サポート
`Apache Avro`	avro	Avro の上限	構造化解析
`Comma- or tab-separated values`	csv、tsv 注: 構造化解析モードで CSV ファイルまたは TSV ファイルをスキャンするには、ファイルの区切り文字がファイルの拡張子と一致していることを確認してください。つまり、`.csv` ファイルはカンマ区切り、`.tsv` ファイルはタブ区切りにする必要があります。		構造化解析	De-identify content
`PDF`	pdf	PDF の上限	インテリジェントなドキュメント解析
`Text`	asc、brf、c、c++、cc、cpp、cs、css、cxx、dart、eml、go、h、h++、hh、hpp、hs、htm、html、hxx、ini、java、js、json、jsonl、lhs、m、markdown、md、mkd、ml、mli、ocaml、php、pht、phtml、pl、pm、py、pyw、rb、rbw、rc、rs、scala、sh、shtm、shtml、sql、tex、text、txt、vcard、vcs、wml、xhtml、xml、xsd、xsl、yaml、yml		書式なしテキスト	De-identify content
`Microsoft Word`	docm、docx、dotm、dotx	Word の上限	インテリジェントなドキュメント解析
`Microsoft Excel`	xlsm、xlsx、xltm、xltx	Excel の上限	インテリジェントなドキュメント解析
`Microsoft Powerpoint`	potm、potx、pptm、pptx	PowerPoint の制限	インテリジェントなドキュメント解析
`Image`	bmp、gif、jpe、jpeg、jpg、png		OCR	削除
`Binary`	認識されないファイル形式と光学式文字認識（OCR）を使用してスキャンできないファイル形式と画像		バイナリ

検出オペレーションでサポートされているファイルクラスタ

検出中、機密データの保護は検出されたファイルをファイルクラスタに整理します。これらのクラスタは、類似したファイルタイプのグループです。次の表に、サポートされているファイルクラスタとファイル拡張子を示します。検出されたすべてのファイルをスキャンできるわけではありません。

機密データの保護でファイルクラスタのサポートが追加されると、ファイルがファイルクラスタ間で移動することがあります。スキャンサポートが拡大されると、検出サービスはこれまでスキャンされなかったファイルのスキャンを開始する可能性があります。検出の料金の説明に沿って課金されます。

ファイルクラスタ	ファイル拡張子	上限	スキャンモード
`Text`	asc、eml、htm、html、ini、json、jsonL、log、markdown、md、mkd、plist、shtm、shtml、sql、tex、text、txt、vcard、vcs、xsd、xsl		書式なしテキスト
`Source Code`	bat、brf、c、c++、cc、cmd、cpp、cs、css、cxx、dart、go、h、hh、hpp、hs、hxx、java、js、lhs、m、ml、ocaml、php、phtm、phtml、pl、ps1、py、pyw、rb、rbw、rc、rs、scala、scpt、scr、script、sh、sql、vb、vbs、wml、xml、yaml、yml		書式なしテキスト
`Structured Data`	avro、csv、tsv、proto		avro、csv、tsv ファイルの構造化された解析。proto ファイルのプレーンテキスト解析
`Rich Documents`	doc、docm、docx、dotm、dotx、pdf、potm、potx、ppt、pptm、pptx、xls、xlsm、xlsx、xltm、xltx	サポートされている 30 MiB 未満の PDF、Microsoft Word、Excel、PowerPoint ファイルがスキャンされます。	インテリジェントなドキュメント解析
`Images`	bmp、gif、heic、ico、jpe、jpeg、jpg、pm、png、svg、tiff、webp	サポートされている 4 MiB 未満の画像（bmp、gif、jpe、jpeg、jpg、png）は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はスキャンされません。	OCR
`Executables`	ac、air、apk、app、appimage、bas、bin、bms、class、cls、com、command、ctl、ctx、dca、ddf、dep、dll、dob、dox、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、widget、workflow、wsf、x86、x86_64、xap、xbe、xlm		現時点ではスキャンされていません
`Archives`	7z、a、ace、afa、alz、apk、ar、arc、arj、ark、b1、b6z、ba、bh、cab、car、cdx、cfs、cpio、cpt、dar、dd、dgc、dmg、ear、esd、gca、genozip、gz、ha、hki、ice、ima、img、iso、jar、kgb、lha、lpaq#、lzh、lzx、mou、pak、paq#、paq6、paq7、paq8 およびバリアント、partimg、pea、phar、pim、pit、qda、rar、rk、run、s7z、sda、sea、sen、sfx、shar、shk、sit、sitx、sqx、swm、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、tgz、uc、uc0、uc2、uca、ucn、ue2、uha、ur2、war、wim、xar、xp3、yz1、zip、zipx、zoo、zpaq、zz		Sensitive Data Protection は、bz2、cpio、gz、jar、lz4、lzma、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、xz、z、zip のファイル拡張子を持つアーカイブ内のファイルをスキャンします。各ファイルに使用されるスキャンモードは、ファイルの種類によって異なります。
`Multimedia`	3g2、3gp、8svx、aa、aac、aax、act、aiff、alac、amr、amv、ape、asf、au、avi、awb、cda、drc、dss、dvf、f4a、f4b、f4p、f4v、flac、flv、gif、gifv、gsm、iklax、ivs、M2TS、m2v、m4a、m4b、m4p、m4p（DRM 付き）、m4v、mkv、mmf、mng、mogg、mov、movpkg、mp2、mp3、mp4、mpc、mpe、mpeg、mpg、mpv、msv、MTS、mxf、nmf、nsv、oga、ogg、ogv、opus、qt、ra、raw、rf64、rm、rmvb、roq、sln、svi、TS、tta、viv、vob、voc、vox、wav、webm、wma、wmv、wv、yuv		現時点ではスキャンされていません
`AI Models`	caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords		現時点ではスキャンされていません
`Unknown`	別のクラスタに属していないその他のファイル。	拡張子がないファイルや、.dat、.1、.2 などの一般的だが標準ではない拡張子を使用しているファイル	現時点ではスキャンされていません

Cloud Storage で認識されないファイル形式

ストレージスキャン中にファイルが認識されなかった場合、デフォルトではシステムによりバイナリファイルとしてスキャンされます。コンテンツの UTF_8 への変換が試みられ、その後書式なしテキストとしてスキャンされます。

検出スキャン中にファイルが認識されなかった場合、システムはファイルをスキャンしません。

Sensitive Data Protection で認識されないファイルのために、スキップするファイルのコレクションがある場合は、CloudStorageOptions.file_set.regex_file_set.exclude_regex を使用して除外リストを指定できます。

ファイルごとにスキャンされるバイト数の制限

一般に、ファイルごとにスキャンされるバイト数を制限できます。Google Cloud コンソールでサンプリングを行うには、サンプリングを有効にします。Cloud Data Loss Prevention API で、bytes_limit_per_file フィールドまたは bytesLimitPerFilePercent フィールドを設定します。

サンプリングは、OCR とインテリジェントな解析モードでサポートされていません。つまり、次のファイル形式が OCR またはインテリジェントなドキュメント解析モードでスキャンされると、機密データの保護では、ファイルごとにスキャンされるバイト数を制限するために適用した設定は無視されます。

Image
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

これらのファイルをバイナリモードでスキャンする場合、制限が適用されます。

スキャンモード

各スキャンモードでは、検査結果に場所の詳細が追加で表示されます。

スキャンモード	注	場所についての追加情報
2 項	ファイルが他の形式として解析されない場合は、UTF_8 に変換され、テキストとしてスキャンされます。バイナリスキャンは検出品質に影響します。
インテリジェントなドキュメント解析	ドキュメントは書式設定されたものから抽出されたテキストで解析されます。埋め込まれた画像は、OCR をサポートしているリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリファイルとしてスキャンされます。	`DocumentLocation`
メタデータ抽出	Cloud Storage からスキャンされたすべてのファイルには、ファイルの内容に加えて、スキャンされた `metadata` があります。	`MetadataLocation`
光学式文字認識（OCR）	画像は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリファイルとしてスキャンされます。	`ImageLocation`
書式なしテキスト		詳細情報なし
構造化解析	構造情報は検出結果に影響を与えます。このスキャンモードでは、機密データの保護はヘッダー情報をコンテキストに使用します。クロス行・クロス列分析を行って相関データを見つけます。たとえば、このスキャンモードでは、番地の構成要素が 1 行の複数の列に分散されている番地を特定できます。スキャン結果には、検出結果を含む行、列の名前などの構造情報が含まれます。検出結果がテーブルのセル境界を超えることはありません。	`RecordLocation`

構造化解析モードで構造化ファイルをスキャンする

構造化ファイル（Avro、CSV、TSV ファイルなど）をスキャンする場合、機密データの保護は構造化解析スキャンモードでファイルのスキャンを試みます。構造化解析モードでは、構造化データの行と列の相関関係が検索されるため、このスキャンモードでは、バイナリスキャンに比べて優れた検出品質が得られます。検出結果は、fieldId といった検出結果の場所を示す追加のメタデータとともに返されます。

ただし、次のような場合は、機密データの保護は、構造化解析モードの拡張機能がないバイナリスキャンモードに戻る場合があります。

ファイルまたはヘッダーが破損している。
検査ジョブの構成にサイズ制限（bytesLimitPerFile や bytesLimitPerFilePercent など）がある。たとえば、bytesLimitPerFile の上限がブロックヘッダー全体と有効なデータの少なくとも 1 行を収容するのに十分な大きさがない場合、機密データの保護はそのファイルをバイナリスキャンモードでスキャンする可能性があります。

スキャンされるデータの選択は、サンプリングがファイルの先頭から開始するように設定されているか、ランダムな位置から開始するように設定されているかによって異なります。

たとえば、50 KB のブロックヘッダーと 2 MB のデータブロックを含む Avro ファイルがあるとします。一般に、サンプルを上から開始すると、センシティブデータの保護に使用されるサンプルにブロックヘッダーが常に含まれていることを保証できます。ファイルのランダムな位置からサンプリングを開始し、サンプルサイズがデータブロックよりも小さい場合、ブロックヘッダーがサンプルに含まれない可能性があります。この例では、bytesLimitPerFile または bytesLimitPerFilePercent で指定されたサンプルサイズを 2.05 MB に拡大すると、検査がバイナリ解析モードに戻るのを防ぐことができます。

例: サンプルサイズが小さすぎる場合、検査にブロックヘッダーが含まれていない可能性があります。 — 例: サンプルサイズが小さすぎる場合、検査にブロックヘッダーが含まれない可能性があります（クリックして拡大）。