이제 Cloud Data Loss Prevention(Cloud DLP)은 민감한 정보 보호에 포함됩니다. API 이름은 Cloud Data Loss Prevention API(DLP API)로 그대로 유지됩니다. 민감한 정보 보호를 구성하는 서비스에 대한 자세한 내용은 민감한 정보 보호 개요를 참조하세요.

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

지원되는 파일 형식 및 스캔 모드

이 페이지에는 민감한 정보 보호가 스캔할 수 있는 파일 유형이 나열되어 있으며, 민감한 정보 보호가 파일을 분석하는 데 사용하는 스캔 모드가 설명되어 있습니다.

검사 및 익명화 작업에서 지원되는 파일 형식

다음 표에는 Sensitive Data Protection에서 검사하고 변환 (익명화)할 수 있는 파일 형식이 나와 있습니다.

민감한 정보 보호는 파일 확장자와 미디어(MIME) 유형을 사용하여 스캔할 파일의 유형과 적용할 스캔 모드를 식별합니다. 예를 들어 민감한 정보 보호는 파일이 일반적으로 구조화된 파싱 모드로 스캔되는 CSV 파일로 구성되어 있더라도 일반 텍스트 모드로 .txt 파일을 스캔합니다.

파일 형식	파일 확장명	한도	스캔 모드	변환 지원
`Apache Avro`	avro	Avro 한도	구조화된 파싱
`Comma- or tab-separated values`	csv, tsv 참고: 구조화된 파싱 모드로 CSV 또는 TSV 파일을 스캔하려면 파일의 구분 기호가 파일 확장자와 일치하는지 확인합니다. 즉, `.csv` 파일은 쉼표로 구분해야 하고 `.tsv` 파일은 탭으로 구분해야 합니다.		구조화된 파싱	De-identify content
`PDF`	pdf	PDF 한도	지능형 문서 파싱
`Text`	asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml		일반 텍스트	De-identify content
`Microsoft Word`	docm, docx, dotm, dotx	단어 제한	지능형 문서 파싱
`Microsoft Excel`	xlsm, xlsx, xltm, xltx	Excel 한도	지능형 문서 파싱
`Microsoft Powerpoint`	potm, potx, pptm, pptx	PowerPoint 한도	지능형 문서 파싱
`Image`	bmp, gif, jpe, jpeg, jpg, png		OCR	수정
`Binary`	광학 문자 인식 (OCR)으로 스캔할 수 없는 인식되지 않는 파일 형식 및 이미지		바이너리

탐색 작업에서 지원되는 파일 클러스터

검색 중에 민감한 정보 보호는 감지된 파일을 파일 클러스터로 정리합니다. 이러한 클러스터는 유사한 파일 유형의 그룹입니다. 다음 표는 지원되는 파일 클러스터와 파일 확장자를 보여줍니다. 감지된 파일 중 일부는 스캔할 수 없습니다.

민감한 정보 보호에서 더 많은 파일 클러스터를 지원함에 따라 파일이 파일 클러스터 간에 이동할 수 있습니다. 스캔 지원이 확대됨에 따라 탐색 서비스에서 이전에 스캔되지 않은 파일을 스캔하기 시작할 수 있습니다. 디스커버리 가격 책정에 설명된 대로 요금이 청구됩니다.

파일 클러스터	파일 확장명	한도	스캔 모드
`Text`	asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl		일반 텍스트
`Source Code`	bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml		일반 텍스트
`Structured Data`	avro, csv, tsv, proto		avro, csv, tsv 파일의 구조화된 파싱 proto 파일의 일반 텍스트 파싱
`Rich Documents`	doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx	지원되는 30MiB 미만의 PDF, Microsoft Word, Excel, PowerPoint 파일이 스캔됩니다.	지능형 문서 파싱
`Images`	bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp	지원되는 4MiB 미만의 이미지 (bmp, gif, jpe, jpeg, jpg, png)는 OCR을 지원하는 리전에서 OCR을 사용하여 스캔됩니다. 이러한 지역 외에서는 이미지가 스캔되지 않습니다.	OCR
`Executables`	ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm		현재 스캔되지 않음
`Archives`	7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#, lzh, lzx, mou, pak, paq#, paq6, paq7, paq8 및 변형, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz		민감한 정보 보호는 bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip 파일 확장자가 있는 보관 파일 내의 파일을 스캔합니다. 각 파일에 사용되는 검사 모드는 파일 유형에 따라 다릅니다.
`Multimedia`	3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (DRM 포함), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv		현재 스캔되지 않음
`AI Models`	caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords		현재 스캔되지 않음
`Unknown`	다른 클러스터에 속하지 않는 기타 파일	확장자가 없거나 .dat, .1, .2와 같이 일반적이지만 표준이 아닌 확장자를 사용하는 파일입니다.	현재 스캔되지 않음

Cloud Storage에서 인식할 수 없는 파일 형식

스토리지 스캔 중에 파일이 인식되지 않으면 기본적으로 바이너리 파일로 파일을 스캔합니다. 콘텐츠를 UTF_8로 변환한 다음 일반 텍스트로 스캔합니다.

탐색 스캔 중에 파일이 인식되지 않으면 시스템에서 파일을 스캔하지 않습니다.

Sensitive Data Protection에서 인식하지 못하는 파일 모음을 건너뛰려면 CloudStorageOptions.file_set.regex_file_set.exclude_regex를 사용하여 제외 목록을 지정할 수 있습니다.

파일당 스캔하는 바이트 수 제한

일반적으로 파일당 스캔되는 바이트 수를 제한할 수 있습니다.Google Cloud 콘솔에서는 샘플링을 사용 설정하여 이를 수행합니다. Cloud Data Loss Prevention API에서는 bytes_limit_per_file 또는 bytesLimitPerFilePercent 필드를 설정합니다.

샘플링은 OCR 및 지능형 파싱 모드에서 지원되지 않습니다. 즉, 다음 파일 형식을 OCR 또는 지능형 문서 구문 파싱 모드에서 스캔하면 민감한 정보 보호는 파일 당 스캔하는 바이트를 제한하기 위해 적용하는 모든 설정을 무시합니다.

이미지
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

바이너리 모드에서 이러한 파일을 스캔하면 한도가 적용됩니다.

스캔 모드

각 스캔 모드는 검사 결과에 추가적인 위치 세부정보를 제공합니다.

스캔 모드	참고	제공할 추가 위치 세부정보
바이너리	파일을 다른 유형으로 파싱하지 못하면 UTF_8로 변환되고 텍스트로 스캔됩니다. 바이너리 스캔은 감지 품질에 영향을 줍니다.
지능형 문서 파싱	문서는 형식 지정에서 추출된 텍스트로 파싱됩니다. 포함된 이미지는 OCR을 지원하는 리전에서 OCR을 사용하여 스캔됩니다. 이러한 리전 외부에서는 이미지가 바이너리 파일로 스캔됩니다.	`DocumentLocation`
메타데이터 추출	Cloud Storage에서 스캔된 모든 파일은 파일 콘텐츠 외에 `metadata`도 스캔됩니다.	`MetadataLocation`
광학 문자 인식(OCR)	OCR을 지원하는 리전에서 OCR을 사용하여 이미지를 스캔합니다. 이러한 리전 외부에서는 이미지가 바이너리 파일로 스캔됩니다.	`ImageLocation`
일반 텍스트		추가 세부정보 없음
구조화된 파싱	구조적 정보는 발견 항목에 영향을 미치는 데 사용됩니다. 이 스캔 모드에서 Sensitive Data Protection은 컨텍스트에 헤더 정보를 사용합니다. 교차 행 및 교차 열 분석을 수행하여 상관 데이터를 찾습니다. 예를 들어 이 스캔 모드는 구성요소가 한 행의 여러 열에 분산된 상세 주소를 식별할 수 있습니다. 스캔 결과에는 발견 항목이 포함된 행 및 열 이름과 같은 구조 정보가 포함됩니다. 발견 항목은 테이블의 셀 경계를 넘지 않습니다.	`RecordLocation`

구조화된 파싱 모드로 구조화된 파일 스캔

Avro, CSV, TSV 파일과 같은 구조화된 파일을 스캔하면 Sensitive Data Protection에서 구조화된 파싱 스캔 모드로 파일을 스캔하려고 시도합니다. 구조화된 파싱 스캔 모드는 구조화된 데이터의 행과 열 사이에서 상관관계를 검색하므로 바이너리 스캔보다 감지 품질이 우수합니다. 발견 항목은 fieldId를 포함하여 발견 항목의 위치를 나타내는 추가 메타데이터와 함께 반환됩니다.

하지만 다음과 같은 경우 Sensitive Data Protection은 구조화된 파싱 모드의 개선사항을 포함하지 않는 바이너리 스캔 모드로 되돌아갈 수 있습니다.

파일 또는 헤더가 손상되었습니다.
검사 작업 구성의 bytesLimitPerFile 및 bytesLimitPerFilePercent와 같은 크기 한도가 너무 작습니다. 예를 들어 bytesLimitPerFile 한도가 전체 블록 헤더 및 유효한 데이터 행 하나를 포함하기에 부족할 경우 Sensitive Data Protection은 해당 파일을 바이너리 스캔 모드로 스캔할 수 있습니다.

설정된 샘플링 시작 위치가 파일의 맨 위인지 아니면 무작위 위치인지에 따라 스캔할 데이터가 선택됩니다.

예를 들어 50KB 블록 헤더와 2MB 데이터 블록이 있는 Avro 파일이 있다고 가정해보겠습니다. 일반적으로 맨 위에서 샘플링을 시작하면 블록 헤더가 Sensitive Data Protection에서 수행하는 샘플에 항상 포함되도록 할 수 있습니다. 파일의 무작위 위치에서 샘플링을 시작할 때 샘플 크기가 데이터 블록보다 작으면 블록 헤더가 샘플에 포함되지 않았을 수 있습니다. 이 예시에서는 샘플 크기(bytesLimitPerFile 또는 bytesLimitPerFilePercent로 지정)를 2.05MB로 늘리면 검사가 바이너리 파싱 모드로 되돌아가는 것을 방지하는 데 도움이 됩니다.

예: 샘플 크기가 너무 작으면 검사에 블록 헤더가 포함되지 않을 수 있습니다. — 예: 샘플 크기가 너무 작으면 검사에 블록 헤더가 포함되지 않을 수 있습니다(확대하려면 클릭).