파일 형식
다음 표에서는 민감한 정보 보호가 지원하는 파일 형식, 해당 스캔 제한사항, 스캔 모드, 변환 지원을 보여줍니다.
민감한 정보 보호는 파일 확장자와 미디어(MIME) 유형을 사용하여 스캔할 파일의 유형과 적용할 스캔 모드를 식별합니다. 예를 들어 민감한 정보 보호는 파일이 일반적으로 구조화된 파싱 모드로 스캔되는 CSV 파일로 구성되어 있더라도 일반 텍스트 모드로 .txt
파일을 스캔합니다.
파일 형식 | 파일 확장명 | 한도 | 스캔 모드 | 변환 지원 |
---|---|---|---|---|
Apache Avro |
avro |
Avro 한도 | 구조화된 파싱 | |
Comma- or tab-separated values | csv, tsv | 구조화된 파싱 | De-identify content | |
PDF |
PDF 한도 | 지능형 문서 파싱 | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml. |
일반 텍스트 | De-identify content | |
Microsoft Word |
docx, dotx, docm, dotm |
단어 제한 | 지능형 문서 파싱 | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Excel 한도 | 지능형 문서 파싱 | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
PowerPoint 한도 | 지능형 문서 파싱 | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | 수정 | |
Binary |
광학 문자 인식(OCR)으로 스캔할 수 없는 지원되지 않는 파일 형식 및 이미지 |
바이너리 |
파일 클러스터
다음 표에는 민감한 정보 보호에서 민감한 정보 프로필을 만드는 동안 지원하는 파일 그룹이 나와 있습니다. 파일 스토어 데이터 프로필은 유사한 파일의 각 컬렉션에 대한 민감도 및 데이터 위험 점수를 제공합니다.
민감한 정보 보호에서 더 많은 파일 형식에 대한 지원을 추가하면 파일이 파일 클러스터 간에 이동할 수 있습니다. 검사 지원이 확대되면 이전에 검사되지 않았던 파일이 검색 서비스에서 검사되기 시작할 수 있습니다. 탐색 가격 책정에 설명된 대로 요금이 청구됩니다.
파일 형식 | 파일 확장명 | 한도 | 스캔 모드 | |
---|---|---|---|---|
Text |
asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd |
일반 텍스트 | ||
Source Code |
bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs |
일반 텍스트 | ||
Structured Data |
avro, csv, tsv, proto |
avro, csv, tsv 파일의 구조화된 파싱 proto 파일의 일반 텍스트 파싱 | ||
Rich Documents |
doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf |
지원되는 PDF, Microsoft Word, Excel, PowerPoint 파일 중 30MiB 미만의 파일은 스캔됩니다. | 지능형 문서 파싱 | |
Images |
bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp |
지원되는 4MiB 미만의 이미지(bmp, gif, jpg, jpeg, jpe, png)는 OCR을 지원하는 리전에서 OCR을 사용하여 스캔됩니다. 이러한 리전 외부에서는 이미지가 스캔되지 않습니다. | OCR | |
Executables |
ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm |
현재 스캔되지 않음 | ||
Archives |
zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 및 변형, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#*, lpaq#*, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq |
현재 스캔되지 않음 | ||
Multimedia |
aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (DRM 포함), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b |
현재 스캔되지 않음 | ||
AI Models |
keras, pt, pth, tflite |
현재 스캔되지 않음 | ||
Unknown |
다른 클러스터에 속하지 않는 기타 파일 | 확장자가 없거나 .dat, .1, .2와 같이 일반적이지만 비표준 확장자를 사용하는 파일입니다. | 현재 스캔되지 않음 |
Cloud Storage에서 지원되지 않는 파일 형식
스토리지 스캔 중에 파일이 인식되지 않으면 기본적으로 바이너리 파일로 파일을 스캔합니다. 콘텐츠를 UTF_8로 변환한 다음 일반 텍스트로 스캔합니다.
탐색 스캔 중에 파일이 인식되지 않으면 시스템에서 파일을 스캔하지 않습니다.
민감한 정보 보호에서 지원하지 않는 파일 모음을 건너뛰려면 CloudStorageOptions.file_set.regex_file_set.exclude_regex
를 사용하여 제외 목록을 지정할 수 있습니다.
파일당 스캔하는 바이트 수 제한
일반적으로 파일당 스캔하는 바이트 수를 제한할 수 있습니다. Google Cloud 콘솔에서는 샘플링을 사용 설정하여 이를 수행합니다. Cloud Data Loss Prevention API에서 bytes_limit_per_file
또는 bytesLimitPerFilePercent
필드를 설정합니다.
OCR 및 지능형 파싱 모드에서는 샘플링이 지원되지 않습니다. 즉, 다음 파일 형식을 OCR 또는 지능형 문서 구문 파싱 모드에서 스캔하면 민감한 정보 보호는 파일 당 스캔하는 바이트를 제한하기 위해 적용하는 모든 설정을 무시합니다.
- 이미지
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
바이너리 모드에서 이러한 파일을 스캔하면 한도가 적용됩니다.
스캔 모드
각 스캔 모드는 검사 결과에 추가적인 위치 세부정보를 제공합니다.
스캔 모드 | 참고 | 제공할 추가 위치 세부정보 |
---|---|---|
바이너리 | 파일을 다른 유형으로 파싱하지 못하면 UTF_8로 변환되고 텍스트로 스캔됩니다. 바이너리 스캔은 감지 품질에 영향을 줍니다. |
|
지능형 문서 파싱 | 문서는 형식 지정에서 추출된 텍스트로 파싱됩니다. 포함된 이미지는 OCR을 지원하는 리전에서 OCR을 사용하여 스캔됩니다. 이러한 리전 외부에서는 이미지가 바이너리 파일로 스캔됩니다. |
DocumentLocation |
메타데이터 추출 | Cloud Storage에서 스캔된 모든 파일은 파일 콘텐츠 외에 |
MetadataLocation |
광학 문자 인식(OCR) | OCR을 지원하는 리전에서 OCR을 사용하여 이미지를 스캔합니다. 이러한 리전 외부에서는 이미지가 바이너리 파일로 스캔됩니다. |
ImageLocation |
일반 텍스트 | 추가 세부정보 없음 | |
구조화된 파싱 | 구조적 정보는 발견 항목에 영향을 미치는 데 사용됩니다. 이 스캔 모드에서 Sensitive Data Protection은 컨텍스트에 헤더 정보를 사용합니다. 교차 행 및 교차 열 분석을 수행하여 상관 데이터를 찾습니다. 예를 들어 이 스캔 모드는 구성요소가 한 행의 여러 열에 분산된 상세 주소를 식별할 수 있습니다. 스캔 결과에는 발견 항목이 포함된 행 및 열 이름과 같은 구조 정보가 포함됩니다. 발견 항목은 테이블의 셀 경계를 넘지 않습니다. |
RecordLocation |
구조화된 파싱 모드로 구조화된 파일 스캔
Avro, CSV, TSV 파일과 같은 구조화된 파일을 스캔하면 Sensitive Data Protection에서 구조화된 파싱 스캔 모드로 파일을 스캔하려고 시도합니다. 구조화된 파싱 스캔 모드는 구조화된 데이터의 행과 열 사이에서 상관관계를 검색하므로 바이너리 스캔보다 감지 품질이 우수합니다.
발견 항목은 fieldId
를 포함하여 발견 항목의 위치를 나타내는 추가 메타데이터와 함께 반환됩니다.
하지만 다음과 같은 경우 Sensitive Data Protection은 구조화된 파싱 모드의 개선사항을 포함하지 않는 바이너리 스캔 모드로 되돌아갈 수 있습니다.
- 파일 또는 헤더가 손상되었습니다.
- 검사 작업 구성의
bytesLimitPerFile
및bytesLimitPerFilePercent
와 같은 크기 한도가 너무 작습니다. 예를 들어bytesLimitPerFile
한도가 전체 블록 헤더 및 유효한 데이터 행 하나를 포함하기에 부족할 경우 Sensitive Data Protection은 해당 파일을 바이너리 스캔 모드로 스캔할 수 있습니다.
설정된 샘플링 시작 위치가 파일의 맨 위인지 아니면 무작위 위치인지에 따라 스캔할 데이터가 선택됩니다.
예를 들어 50KB 블록 헤더와 2MB 데이터 블록이 있는 Avro 파일이 있다고 가정해보겠습니다. 일반적으로 맨 위에서 샘플링을 시작하면 블록 헤더가 Sensitive Data Protection에서 수행하는 샘플에 항상 포함되도록 할 수 있습니다. 파일의 무작위 위치에서 샘플링을 시작할 때 샘플 크기가 데이터 블록보다 작으면 블록 헤더가 샘플에 포함되지 않았을 수 있습니다. 이 예시에서는 샘플 크기(bytesLimitPerFile
또는 bytesLimitPerFilePercent
로 지정)를 2.05MB로 늘리면 검사가 바이너리 파싱 모드로 되돌아가는 것을 방지하는 데 도움이 됩니다.