Document AI: 인보이스와 여권 등 다양한 문서를 인식
Alicia Williams
Developer Advocate, Google Cloud
* 본 아티클의 원문은 2023년 6월 8일 Google Cloud 블로그(영문)에 게재되었습니다.
편집자 주: 이 게시물에서는 Document AI를 이용하여 문서에서 의미를 추출하는 데 도움될 수 있는 방법을 살펴봅니다. 계속 읽어 보거나 Cloud 콘솔을 사용하여 튜토리얼로 바로 이동하세요.
문서는 대부분의 비즈니스에서 핵심적인 부분으로, 중요한 정보를 저장하고 전달하는 데 사용됩니다. 문서의 종류는 송장(invoice), 계약서, 영수증, 지원서 등으로 매우 다양하며 업종과 지역별로 그 양식이 고유합니다. 그런데 이러한 문서에 포함된 정보에 대한 접근성을 높이기 위해서는 시간이 많이 걸리는 수동 작업이 필요할 수 있습니다.


Document AI는 Google Cloud의 문서 인식 플랫폼으로, 문서에서 비정형 데이터를 추출하여 정형 데이터로 변환함으로써 사용자가 보다 쉽게 이해하고 분석하고 사용할 수 있도록 도와줍니다. 이 기술을 사용하면 문서 처리 워크플로를 간소화하고, 오류를 줄이고, 거대한 서류 더미에 묻혀 있던 유용한 정보를 찾아낼 수 있습니다.
소규모 비즈니스 소유자든 운영 효율성을 높일 방법을 찾는 대기업 임직원이든 관계없이 Document AI가 제공하는 기능을 통해 효과를 얻을 수 있습니다. 그럼지금부터 Document AI로 수행할 수 있는 작업을 살펴보겠습니다.
Document AI로 문서 인식하기
Document AI가 문서를 인식한다는 말은 문서 내의 내용을 분석해서 유의미한 정보를 도출할 수 있다는 의미입니다. Document AI는 기존 OCR 기술처럼 단순히 문서 내의 문자와 단어를 인식하는 수준을 넘어 실제로 텍스트 이면의 의미를 파악할 수 있습니다.
예를 들어 처리해야 하는 계약이 있다고 가정해 보겠습니다. 기존 OCR 기술이 문서에서 텍스트를 추출할 수는 있지만 문서에 포함된 법률 조항을 이해할 수는 없습니다. 반면 Document AI는 텍스트의 의미를 해석하고 계약 당사자, 이용약관, 날짜, 서명과 같은 주요 정보를 추출할 수 있습니다.


Document AI는 다양한 문서 유형으로부터 많은 유형의 데이터를 추출하도록 설계된 사전 빌드된 여러 모델과 프로세서를 제공합니다. 프로세서는 특정 유형의 문서 내에서 광학 문자 인식(OCR), 양식 파싱, 분할, 분류 또는 항목 추출과 같은 다양한 작업을 수행할 수 있습니다. 이러한 프로세서를 맞춤설정하고 결합하여 비즈니스의 고유한 니즈에 맞는 강력한 문서 처리 워크플로를 만들 수 있습니다.
양식 파서, 인보이스 파서, 경비 파서, 신분증 증명 파서, 지능형 문서 품질 프로세서 등 Document AI에서 사용할 수 있는 몇 가지 프로세서를 자세히 살펴보겠습니다.
양식 파서
이 범용 프로세서는 지원 양식, 설문조사, 설문지와 같은 양식에서 정형 데이터를 추출하도록 설계되었습니다. 양식 입력란(키-값 쌍)에서 이름, 주소, 날짜, 기타 유형의 정형 데이터뿐만 아니라 체크박스와 표 등의 데이터를 자동으로 식별하고 추출합니다. 또한 이 프로세서는 딥 러닝 모델을 활용하여 다양한 문서 유형에 일반적으로 포함되는 항목을 추출합니다. 이에 따라 이메일 주소, 전화번호, 일시, 조직, 수량, 가격, 신원 등을 식별할 수 있습니다.
API 응답을 시각화한 이 자료에서 Document AI가 양식의 입력란과 응답자의 답변에 해당하는 여러 키-값 쌍을 식별했음을 확인할 수 있습니다.


또한 양식 파서가 여러 날짜, 주소, 전화번호, 이메일, 두 사람(응답자와 등록된 비상 연락처)을 포함한 특정 일반 항목을 인식했다는 점도 흥미롭습니다.


인보이스 파서
이 파서는 많은 수의 일반적인 인보이스 입력란을 포함하여 인보이스에서 관련 정보를 식별하고 추출하도록 설계되었으며 다양한 인보이스 레이아웃, 언어, 데이터 입력란을 인식하도록 맞춤설정(업트레이닝)할 수 있습니다. 인보이스는 계정 결제 프로세스에서 중요한 부분이므로 제품에 계정 결제 기능을 빌드하는 업종과 기업에서 이 기능을 유용하게 사용할 수 있습니다.
API 응답을 시각화한 이 자료에서 Document AI가 많은 키-값 쌍을 추출했으며 여러 입력란에 대해 정규화된 값까지 제공했음을 확인할 수 있습니다.


경비 파서
이 특화된 프로세서는 영수증과 인보이스에서 공급업체 이름, 날짜, 총 지급액과 같은 데이터를 추출하도록 설계되었습니다. 또한 인보이스 내의 항목을 식별하고 경비 유형(예: 식사, 출장, 사무실 소모품)에 따라 분류할 수 있습니다. 경비 파서를 사용하면 경비 보고서와 기타 재무 문서를 보다 수월하게 처리할 수 있으며 다른 도구 및 시스템과 통합하여 경비 보고 프로세스 전반을 자동화할 수 있습니다.
API 응답을 시각화한 이 자료에서 Document AI가 영수증에서 텍스트를 추출하고 구매 날짜 및 시간, 지급 방식, 총액과 같은 여러 일반적인 항목을 식별했음을 확인할 수 있습니다.


신분증 증명 파서
이 프로세서는 다음과 같은 4개의 신호를 토대로 신분증의 유효성 예측을 지원하도록 설계되었습니다.
- is_identity_document 감지: 이미지에 인식된 신분증이 포함되어 있는지 여부를 예측합니다.
- suspicious_words 감지: 신분증에 일반적으로 사용되지 않는 단어가 있는지 여부를 예측합니다.
- image_manipulation 감지: 이미지가 이미지 편집 도구를 통해 변경 또는 변조되었는지 여부를 예측합니다.
- online_duplicate 감지: 이미지를 온라인에서 찾을 수 있는지 여부를 예측합니다.
의심스러운 단어가 감지되거나 이미지를 온라인에서 찾을 수 있는 경우 이러한 신호를 설명하기 위한 추가 정보가 제공됩니다.
이는 운영을 위해 고객 또는 직원의 신원을 확인해야 하는 비즈니스에 특히 유용할 수 있습니다. 이 프로세서는 특정 신분증(미국 운전면허증 파서, 미국 여권, 프랑스 주민등록증 파서 등)에서 이름, 생년월일, 신분증 번호 및 만료일과 같은 주요 정보를 추출하는 다른 프로세서와 함께 사용할 수 있습니다.
API 응답을 시각화한 이 자료에서 Document AI가 첫 번째 감지 지점(is_identity_document)은 통과했지만 다른 3개의 항목에서는 실패했으며 증거 입력란에 추가 정보를 제공했음을 확인할 수 있습니다.


지능형 문서 품질 프로세서
이 범용 프로세서는 누락된 페이지, 흐릿한 이미지, 낮은 대비, 일관성 없는 서식, 부정확한 데이터와 같은 다양한 문서 품질 문제를 감지하고 사용성, 정확성 또는 규정 준수에 영향을 미칠 가능성이 있는 문제를 신고하도록 설계되었습니다. 또한 민감한 정보가 수정되지 않았거나 규제 표준을 준수하기 위해 필요한 정보가 누락된 경우를 식별할 수 있습니다.
이 품질 평가는 0에서 1까지의 품질평가점수로 반환되며 1은 완벽한 품질을 의미합니다. 인식된 품질평가점수가 0.5 미만인 경우 부정적인 품질 사유 목록(가능성 기준으로 정렬)이 함께 반환됩니다.
API 응답을 시각화한 이 자료에서 Document AI가 품질평가점수를 0.006으로 매기고, 문서 및 텍스트 잘림, 흐릿함, 반사를 비롯한 여러 사유 목록도 제공했음을 확인할 수 있습니다.


다음 단계
지금까지 살펴본 내용은 Document AI가 제공하는 프로세서 유형의 예시 중 일부일 뿐입니다. 현재 문서를 자세히 검토해 보면 40개가 넘는 프로세서를 발견할 수 있으며 각 프로세서가 살펴볼 만한 다양한 기능을 제공한다는 것을 알 수 있습니다. 또한 Document AI는 특정 프로세서를 업트레이닝할 수 있는 기능을 제공하며 자체 커스텀 프로세서를 구축할 수 있는 옵션을 지원합니다. 전반적으로 문서에 정형 텍스트 또는 비정형 텍스트가 포함되어 있는 경우 Document AI는 해당 문서에서 가치 있는 데이터를 추출할 수 있습니다.
Cloud 콘솔에서 튜토리얼로 이동하여 지금 시작하고 자세히 알아보세요.