サポートされているファイル形式

ファイル形式

ファイル形式 ファイル拡張子 上限 スキャンモード 変換サポート
Apache Avro

avro

Avro の上限 構造化解析
Comma- or tab-separated values

csv、tsv

構造化解析 De-identify content
PDF

pdf

PDF の制限事項 インテリジェントなドキュメント解析
Text

asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh、hhp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py、pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vpc、vcs、wml、xml、xsl、xsd、yml、yaml

書式なしテキスト De-identify content
Microsoft Word

docx、dotx、docm、dotm

Word の上限 インテリジェントなドキュメント解析
Image

bmp、gif、jpg、jpeg、jpe、png

OCR 削除
Binary

その他

2 項

Cloud Storage でサポートされていないファイル形式

ストレージ スキャン中にファイルが認識されなかった場合、デフォルトではシステムによりバイナリ ファイルとしてスキャンされます。コンテンツの UTF_8 への変換が試みられ、その後書式なしテキストとしてスキャンされます。このフォールバックを回避するには、CloudStorageOptions.file_types を設定してスキャンするファイルの種類を指定します。

Cloud DLP でサポートされていないファイルのために、スキップするファイルのコレクションがある場合は、CloudStorageOptions.file_set.regex_file_set.exclude_regex を使用して除外リストを指定できます。

スキャンモード

各スキャンモードでは、検査結果場所の詳細が追加で表示されます。

スキャンモード 場所についての追加情報
2 項

ファイルが他の形式として解析されない場合は、UTF_8 に変換され、テキストとしてスキャンされます。

インテリジェントなドキュメント解析

ドキュメントは書式設定されたものから抽出されたテキストで解析され、埋め込み画像は可能な限り OCR を使用してスキャンされます。

DocumentLocation
メタデータ抽出

Cloud Storage からスキャンされたすべてのファイルには、ファイルの内容に加えて、スキャンされた metadata があります。

MetadataLocation
光学式文字認識(OCR)

ImageLocation
書式なしテキスト

構造化解析

RecordLocation