Cloud Data Loss Prevention（Cloud DLP）は機密データの保護の一部になりました。API 名は Cloud Data Loss Prevention API（DLP API）のままです。機密データの保護を構成するサービスについては、機密データの保護の概要をご覧ください。

このページは Cloud Translation API によって翻訳されました。

サポートされているファイル形式とスキャンモード

ファイル形式

次の表に、機密データの保護がサポートするファイル形式、対応するスキャン制限、スキャンモード、変換のサポートを示します。

機密データの保護は、ファイル拡張子とメディア（MIME）タイプを使用して、スキャンするファイルの形式と、適用するスキャンモードを識別します。たとえば、機密データの保護では、通常は構造化解析モードでスキャンされる CSV ファイルとしてファイルが構造化されている場合でも、書式なしテキストモードで .txt ファイルをスキャンします。

ファイル形式	ファイル拡張子	上限	スキャンモード	変換サポート
`Apache Avro`	avro	Avro の上限	構造化解析
`Comma- or tab-separated values`	csv、tsv 注: CSV ファイルまたは TSV ファイルを構造化解析モードでスキャンするには、ファイルの区切り文字がファイル拡張子と一致していることを確認してください。つまり、`.csv` ファイルはカンマ区切り、`.tsv` ファイルはタブ区切りにする必要があります。		構造化解析	De-identify content
`PDF`	pdf	PDF の上限	インテリジェントなドキュメント解析
`Text`	asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh、hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json、jsonl、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py、pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml、xml、xsl、xsd、yml、yaml。		書式なしテキスト	De-identify content
`Microsoft Word`	docx、dotx、docm、dotm	Word の上限	インテリジェントなドキュメント解析
`Microsoft Excel`	xlsx、xlsm、xltx、xltm	Excel の上限	インテリジェントなドキュメント解析
`Microsoft Powerpoint`	pptx、pptm、potx、potm	PowerPoint の制限	インテリジェントなドキュメント解析
`Image`	bmp、gif、jpg、jpeg、jpe、png		OCR	削除
`Binary`	認識されないファイル形式と光学式文字認識（OCR）を使用してスキャンできないファイル形式と画像		バイナリ

ファイルクラスタ

次の表に、機密データプロファイルの作成時に Sensitive Data Protection がサポートするファイルグループを示します。ファイルストアのデータプロファイルは、類似ファイルの各コレクションの機密性とデータリスクのスコアを提供します。

機密データの保護でサポートされるファイル形式が増えるにつれて、ファイルがファイルクラスタ間で移動することがあります。スキャンのサポートが拡大されるにつれて、検出サービスは、これまでスキャンされていなかったファイルをスキャンするようになります。検出の料金の説明に沿って課金されます。

ファイル形式	ファイル拡張子	上限	スキャンモード
`Text`	asc、eml、html、htm、ini、json、jsonL、log、md、mkd、markdown、plist、sql、shtml、shtm、tex、txt、text、vcard、vcs、xsl、xsd		書式なしテキスト
`Source Code`	bat、brf、c、cc、cpp、cxx、c++、cs、css、dart、go、h、hh、hpp、hxx、hs、lhs、java、js、ocaml、m、ml、pl、php、phtml、phtm、ps1、py、pyw、rb、rbw、rs、rc、scala、sh、sql、wml、xml、yml、yaml、bat、vb、scpt、scr、script、cmd、vbs		書式なしテキスト
`Structured Data`	avro、csv、tsv、proto		avro、csv、tsv ファイルの構造化解析。proto ファイルのテキスト解析
`Rich Documents`	doc、docx、dotx、docm、dotm、xls、xlsx、xlsm、xltx、xltm、xls、ppt、pptx、pptm、potx、potm、pdf	サポートされている 30 MiB 未満の PDF、Microsoft Word、Excel、PowerPoint ファイルはスキャンされます。	インテリジェントなドキュメント解析
`Images`	bmp、gif、heic、ico、jpg、jpeg、jpe、png、pm、svg、tiff、webp	サポートされている 4 MiB 未満の画像（bmp、gif、jpg、jpeg、jpe、png）は、OCR をサポートしているリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はスキャンされません。	OCR
`Executables`	ac、air、app、appimage、apk、bas、bms、bin、class、cls、com、command、ctl、ctx、dca、ddf、dep、dob、dox、dll、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、wsf、widget、workflow、x86、x86_64、xap、xbe、xlm		現時点ではスキャンされていません
`Archives`	zz、zpaq、zoo、zip、zipx、yz1、xp3、xar、wim、war、uha、uca、uc、uc0、uc2、ucn、ur2、ue2、tar、gz、tgz、sqx、sitx、sit、shk、sfx、sen、sea、sda、s7z、rk、rar、qda、pit、pim、phar、pea、paq6、paq7、paq8 およびそのバリエーション、pak、lzx、lzh、lha、kgb、jar、ice、hki、ha、genozip、gca、ear、dmg、dgc、dd、dar、cpt、cfs、car、cab、bh、ba、b6z、b1、arj、arc、cdx、arc、ark、apk、alz、afa、ace、7z、a、ar、cpio、shar、run、tar、tar、7z、ace、afa、arc、arj、b1、cab、cfs、cpt、dar、dgc、arc、lzh、lha、lzx、iso、img、ima、arc、mou、dmg、partimg、paq#、lpaq#、pea、pim、qda、rar、rk、shk、sit、sitx、uc、uc0、uc2、ucn、ur2、ue2、wim、swm、esd、zip、zpaq		現時点ではスキャンされていません
`Multimedia`	aa、aac、aax、act、aiff、alac、amr、ape、au、awb、dss、dvf、flac、gsm、iklax、ivs、m4a、m4b、m4p、mmf、movpkg、mp3、mpc、msv、nmf、ogg、oga、mogg、opus、ra、rm、raw、rf64、sln、tta、voc、vox、wav、wma、wv、webm、8svx、cda、webm、mkv、flv、flv、vob、ogv、ogg、drc、gif、gifv、mng、avi、MTS、M2TS、TS、mov、qt、wmv、yuv、rm、rmvb、viv、asf、amv、mp4、m4p（DRM あり）、m4v、mpg、mp2、mpeg、mpe、mpv、mpg、mpeg、m2v、m4v、svi、3gp、3g2、mxf、roq、nsv、flv、f4v、f4p、f4a、f4b		現時点ではスキャンされていません
`AI Models`	keras、pt、pth、tflite		現時点ではスキャンされていません
`Unknown`	別のクラスタにない他のファイル。	拡張子がないファイル、または .dat、.1、.2 など、一般的な拡張子（標準ではない）を使用しているファイルです。	現時点ではスキャンされていません

Cloud Storage で認識されないファイル形式

ストレージスキャン中にファイルが認識されなかった場合、デフォルトではシステムによりバイナリファイルとしてスキャンされます。コンテンツの UTF_8 への変換が試みられ、その後書式なしテキストとしてスキャンされます。

検出スキャン中にファイルが認識されなかった場合、システムはファイルをスキャンしません。

機密データの保護で認識されないファイルのために、スキップするファイルのコレクションがある場合は、CloudStorageOptions.file_set.regex_file_set.exclude_regex を使用して除外リストを指定できます。

ファイルごとにスキャンされるバイト数の制限

一般に、ファイルごとにスキャンされるバイト数を制限できます。Google Cloud コンソールでサンプリングを行うには、サンプリングを有効にします。Cloud Data Loss Prevention API では、bytes_limit_per_file フィールドまたは bytesLimitPerFilePercent フィールドを設定します。

サンプリングは、OCR とインテリジェントな解析モードでサポートされていません。つまり、次のファイル形式が OCR またはインテリジェントなドキュメント解析モードでスキャンされると、機密データの保護では、ファイルごとにスキャンされるバイト数を制限するために適用した設定は無視されます。

Image
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

これらのファイルをバイナリモードでスキャンする場合、制限が適用されます。

スキャンモード

各スキャンモードでは、検査結果に場所の詳細が追加で表示されます。

スキャンモード	注	場所についての追加情報
2 項	ファイルが他の形式として解析されない場合は、UTF_8 に変換され、テキストとしてスキャンされます。バイナリスキャンは検出品質に影響します。
インテリジェントなドキュメント解析	ドキュメントは書式設定されたものから抽出されたテキストで解析されます。埋め込まれた画像は、OCR をサポートしているリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリファイルとしてスキャンされます。	`DocumentLocation`
メタデータ抽出	Cloud Storage からスキャンされたすべてのファイルには、ファイルの内容に加えて、スキャンされた `metadata` があります。	`MetadataLocation`
光学式文字認識（OCR）	画像は、OCR をサポートするリージョンで OCR を使用してスキャンされます。これらのリージョン以外では、画像はバイナリファイルとしてスキャンされます。	`ImageLocation`
書式なしテキスト		詳細情報なし
構造化解析	構造情報は検出結果に影響を与えます。このスキャンモードでは、機密データの保護はヘッダー情報をコンテキストに使用します。クロス行・クロス列分析を行って相関データを見つけます。たとえば、このスキャンモードでは、番地の構成要素が 1 行の複数の列に分散されている番地を特定できます。スキャン結果には、検出結果を含む行、列の名前などの構造情報が含まれます。検出結果がテーブルのセル境界を超えることはありません。	`RecordLocation`

構造化解析モードで構造化ファイルをスキャンする

構造化ファイル（Avro、CSV、TSV ファイルなど）をスキャンする場合、機密データの保護は構造化解析スキャンモードでファイルのスキャンを試みます。構造化解析モードでは、構造化データの行と列の相関関係が検索されるため、このスキャンモードでは、バイナリスキャンに比べて優れた検出品質が得られます。検出結果は、fieldId といった検出結果の場所を示す追加のメタデータとともに返されます。

ただし、次のような場合は、機密データの保護は、構造化解析モードの拡張機能がないバイナリスキャンモードに戻る場合があります。

ファイルまたはヘッダーが破損している。
検査ジョブの構成にサイズ制限（bytesLimitPerFile や bytesLimitPerFilePercent など）がある。たとえば、bytesLimitPerFile の上限がブロックヘッダー全体と有効なデータの少なくとも 1 行を収容するのに十分な大きさがない場合、機密データの保護はそのファイルをバイナリスキャンモードでスキャンする可能性があります。

スキャンされるデータの選択は、サンプリングがファイルの先頭から開始するように設定されているか、ランダムな位置から開始するように設定されているかによって異なります。

たとえば、50 KB のブロックヘッダーと 2 MB のデータブロックを含む Avro ファイルがあるとします。一般に、サンプルを上から開始すると、センシティブデータの保護に使用されるサンプルにブロックヘッダーが常に含まれていることを保証できます。ファイル内のランダムな位置からサンプリングを開始し、サンプルサイズがデータブロックよりも小さい場合、ブロックヘッダーがサンプルに含まれない可能性があります。この例では、bytesLimitPerFile または bytesLimitPerFilePercent で指定されたサンプルサイズを 2.05 MB に拡大すると、検査がバイナリ解析モードに戻るのを防ぐことができます。

例: サンプルサイズが小さすぎる場合、検査にブロックヘッダーが含まれていない可能性があります。 — 例: サンプルサイズが小さすぎる場合、検査にブロックヘッダーが含まれない可能性があります（クリックして拡大）。