지원되는 파일 형식 및 스캔 모드

파일 형식

다음 표에서는 민감한 정보 보호가 지원하는 파일 형식, 해당 스캔 제한사항, 스캔 모드, 변환 지원을 보여줍니다.

민감한 정보 보호는 파일 확장자와 미디어(MIME) 유형을 사용하여 스캔할 파일의 유형과 적용할 스캔 모드를 식별합니다. 예를 들어 민감한 정보 보호는 파일이 일반적으로 구조화된 파싱 모드로 스캔되는 CSV 파일로 구성되어 있더라도 일반 텍스트 모드로 .txt 파일을 스캔합니다.

파일 형식 파일 확장명 한도 스캔 모드 변환 지원
Apache Avro

avro

Avro 한도 구조화된 파싱
Comma- or tab-separated values

csv, tsv

구조화된 파싱 De-identify content
PDF

pdf

PDF 한도 지능형 문서 파싱
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.

일반 텍스트 De-identify content
Microsoft Word

docx, dotx, docm, dotm

단어 제한 지능형 문서 파싱
Microsoft Excel

xlsx, xlsm, xltx, xltm

Excel 한도 지능형 문서 파싱
Microsoft Powerpoint

pptx, pptm, potx, potm

PowerPoint 한도 지능형 문서 파싱
Image

bmp, gif, jpg, jpeg, jpe, png

OCR 수정
Binary

광학 문자 인식(OCR)으로 스캔할 수 없는 지원되지 않는 파일 형식 및 이미지

바이너리

Cloud Storage에서 지원되지 않는 파일 형식

스토리지 스캔 중에 파일이 인식되지 않으면 기본적으로 바이너리 파일로 파일을 스캔합니다. 콘텐츠를 UTF_8로 변환한 다음 일반 텍스트로 스캔합니다.

민감한 정보 보호에서 지원하지 않는 파일 모음을 건너뛰려면 CloudStorageOptions.file_set.regex_file_set.exclude_regex를 사용하여 제외 목록을 지정할 수 있습니다.

파일당 스캔하는 바이트 수 제한

일반적으로 파일당 스캔하는 바이트 수를 제한할 수 있습니다. Google Cloud 콘솔에서 샘플링을 사용 설정하면 됩니다. Cloud Data Loss Prevention API에서 bytes_limit_per_file 또는 bytesLimitPerFilePercent 필드를 설정합니다.

OCR 및 지능형 파싱 모드에서는 샘플링이 지원되지 않습니다. 즉, 다음 파일 형식을 OCR 또는 지능형 문서 구문 파싱 모드에서 스캔하면 민감한 정보 보호는 파일 당 스캔하는 바이트를 제한하기 위해 적용하는 모든 설정을 무시합니다.

  • 이미지
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

바이너리 모드에서 이러한 파일을 스캔하면 한도가 적용됩니다.

스캔 모드

각 스캔 모드는 검사 결과에 추가적인 위치 세부정보를 제공합니다.

스캔 모드 참고 제공할 추가 위치 세부정보
바이너리

파일을 다른 유형으로 파싱하지 못하면 UTF_8로 변환되고 텍스트로 스캔됩니다. 바이너리 스캔은 감지 품질에 영향을 줍니다.

지능형 문서 파싱

문서는 형식 지정에서 추출된 텍스트로 파싱됩니다. 포함된 이미지는 OCR을 지원하는 리전에서 OCR을 사용하여 스캔됩니다. 이러한 리전 외부에서는 이미지가 바이너리 파일로 스캔됩니다.

DocumentLocation
메타데이터 추출

Cloud Storage에서 스캔된 모든 파일은 파일 콘텐츠 외에 metadata도 스캔됩니다.

MetadataLocation
광학 문자 인식(OCR)

OCR을 지원하는 리전에서 OCR을 사용하여 이미지를 스캔합니다. 이러한 리전 외부에서는 이미지가 바이너리 파일로 스캔됩니다.

ImageLocation
일반 텍스트

추가 세부정보 없음
구조화된 파싱

구조적 정보는 발견 항목에 영향을 미치는 데 사용됩니다. 이 스캔 모드에서 Sensitive Data Protection은 컨텍스트에 헤더 정보를 사용합니다. 교차 행 및 교차 열 분석을 수행하여 상관 데이터를 찾습니다. 예를 들어 이 스캔 모드는 구성요소가 한 행의 여러 열에 분산된 상세 주소를 식별할 수 있습니다.

스캔 결과에는 발견 항목이 포함된 행 및 열 이름과 같은 구조 정보가 포함됩니다.

발견 항목은 테이블의 셀 경계를 넘지 않습니다.

RecordLocation

구조화된 파싱 모드로 구조화된 파일 스캔

Avro, CSV, TSV 파일과 같은 구조화된 파일을 스캔하면 Sensitive Data Protection에서 구조화된 파싱 스캔 모드로 파일을 스캔하려고 시도합니다. 구조화된 파싱 스캔 모드는 구조화된 데이터의 행과 열 사이에서 상관관계를 검색하므로 바이너리 스캔보다 감지 품질이 우수합니다. 발견 항목은 fieldId를 포함하여 발견 항목의 위치를 나타내는 추가 메타데이터와 함께 반환됩니다.

하지만 다음과 같은 경우 Sensitive Data Protection은 구조화된 파싱 모드의 개선사항을 포함하지 않는 바이너리 스캔 모드로 되돌아갈 수 있습니다.

  • 파일 또는 헤더가 손상되었습니다.
  • 검사 작업 구성의 bytesLimitPerFilebytesLimitPerFilePercent와 같은 크기 한도가 너무 작습니다. 예를 들어 bytesLimitPerFile 한도가 전체 블록 헤더 및 유효한 데이터 행 하나를 포함하기에 부족할 경우 Sensitive Data Protection은 해당 파일을 바이너리 스캔 모드로 스캔할 수 있습니다.

설정된 샘플링 시작 위치가 파일의 맨 위인지 아니면 무작위 위치인지에 따라 스캔할 데이터가 선택됩니다.

예를 들어 50KB 블록 헤더와 2MB 데이터 블록이 있는 Avro 파일이 있다고 가정해보겠습니다. 일반적으로 맨 위에서 샘플링을 시작하면 블록 헤더가 Sensitive Data Protection에서 수행하는 샘플에 항상 포함되도록 할 수 있습니다. 파일의 무작위 위치에서 샘플링을 시작할 때 샘플 크기가 데이터 블록보다 작으면 블록 헤더가 샘플에 포함되지 않았을 수 있습니다. 이 예시에서는 샘플 크기(bytesLimitPerFile 또는 bytesLimitPerFilePercent로 지정)를 2.05MB로 늘리면 검사가 바이너리 파싱 모드로 되돌아가는 것을 방지하는 데 도움이 됩니다.

예시: 샘플 크기가 너무 작으면 검사에 블록 헤더가 포함되지 않을 수 있습니다.
예: 샘플 크기가 너무 작으면 검사에 블록 헤더가 포함되지 않을 수 있습니다(확대하려면 클릭).