API를 통해 고급 비전 모델에 액세스하여 비전 작업을 자동화하고, 분석을 간소화하며, 실행 가능한 인사이트를 확보하세요. 또는 관리형 환경에서 노 코드 모델 학습을 통해 저렴한 비용으로 커스텀 앱을 빌드할 수 있습니다.
신규 고객에게는 최대 $300의 무료 크레딧이 제공되어 Vision AI 및 기타 Google Cloud 제품을 사용해 볼 수 있습니다.
Google에서 추천하는 문서 요약 및 AI/ML 이미지 처리 솔루션을 배포해 볼 수도 있습니다.
개요
컴퓨터 비전은 컴퓨터와 시스템이 시각적 데이터를 해석 및 분석하고 디지털 이미지, 동영상, 기타 시각적 입력에서 의미 있는 정보를 도출할 수 있도록 하는 인공지능(AI) 분야입니다. 사물 감지, 시각적 콘텐츠(이미지, 문서, 동영상) 처리, 이해 및 분석, 제품 검색, 이미지 분류 및 검색, 콘텐츠 검토 등이 일반적인 실제 적용 사례입니다.
Google Cloud의 Gemini Enterprise Agent Platform은 거의 모든 입력을 이해하고 다양한 유형의 정보를 결합하며 거의 모든 출력을 생성할 수 있는 최첨단 멀티모달 모델 제품군인 Gemini에 대한 액세스를 제공합니다.
Google의 선행 학습된 컴퓨터 비전 ML 모델을 기반으로 하는 Cloud Vision API는 즉시 사용 가능한 API(REST 및 RPC)로, 개발자가 이미지 라벨 지정, 얼굴 및 랜드마크 인식, 광학 문자 인식(OCR), 선정적인 콘텐츠 태그 지정 등 일반적인 시각적 인식 기능을 애플리케이션에 쉽게 통합할 수 있도록 지원합니다.
이미지에 적용하는 각 기능은 청구 가능한 단위입니다. Cloud Vision API를 사용하면 매월 1,000개 단위의 기능을 무료로 사용할 수 있습니다. 가격 책정 세부정보를 참조하세요.
Document AI는 컴퓨터 비전과 자연어 처리 등의 다른 기술을 결합하여 스캔한 문서에서 텍스트와 데이터를 추출하고 비정형 데이터를 정형 정보와 비즈니스 인사이트로 변환하는 문서 이해 플랫폼입니다.
다양한 유형의 문서에 최적화된 광범위한 사전 학습된 프로세서를 제공합니다. 또한 Document AI Workbench를 통해 문서를 분류, 분할하고 정형 데이터를 추출하는 커스텀 프로세서를 쉽게 빌드할 수 있습니다.
컴퓨터 비전 기술을 핵심으로 하는 Video Intelligence API는 동영상 콘텐츠를 쉽게 처리, 분석, 이해할 수 있는 방법입니다.
사전 학습된 ML 모델은 저장된 동영상과 스트리밍 동영상에서 수많은 객체, 장소, 동작을 탁월한 품질로 자동 인식합니다. 콘텐츠 검토 및 추천, 미디어 보관, 문맥 광고와 같은 일반적인 사용 사례에서 매우 효율적입니다. 또한 Agent Platform Vision을 사용하여 특정 요구사항에 맞게 커스텀 ML 모델을 학습시킬 수도 있습니다.
Google Cloud는 업계 최고의 역량을 갖춰 고객이 고객 데이터에 대한 액세스를 제어하고 액세스 시기와 방식에 대한 가시성을 제공받을 수 있도록 합니다.
Google Cloud 고객은 자신의 고객 데이터를 소유합니다. Google은 고객 데이터를 보호하기 위한 엄격한 보안 수단을 구현하고 있으며, 고객이 원하는 대로 이를 제어할 수 있는 도구와 기능을 제공합니다. 고객 데이터는 Google이 아닌 고객의 데이터입니다. Google은 고객의 동의에 따라서만 데이터를 처리합니다.
개인 정보 보호 리소스 센터에서 자세히 알아보세요.
컴퓨터 비전 제품 비교
| 제품 | 권장 기기 | 주요 특징 |
|---|---|---|
기본적인 비전 기능을 빠르고 쉽게 통합 | 이미지 라벨 지정, 얼굴 및 랜드마크 감지, OCR, 세이프서치와 같은 사전 빌드된 기능입니다. 비용 효율적인 종량제 요금입니다. | |
스캔한 문서와 이미지에서 유용한 정보를 추출하고 문서 워크플로를 자동화합니다. | 문서 이해, 텍스트 추출, 항목 식별, 문서 분류를 위한 OCR(생성형 AI 기반), NLP, ML | |
동영상 콘텐츠 분석, 콘텐츠 검토 및 추천, 미디어 보관, 문맥 광고 | 객체 감지 및 추적, 장면 이해, 활동 감지, 얼굴 인식 및 분석, 텍스트 감지 및 인식 | |
자동 이미지 설명 표시 이미지 분류 및 검색 콘텐츠 검토 및 추천 | 이미지 생성, 이미지 편집, 이미지 캡셔닝, 멀티모달 임베딩 기능과 출시 단계의 전체 목록 확인하기 |
다양한 목적에 맞게 최적화된 이러한 제품을 사용하면 사전 학습된 ML 모델을 활용하여 즉시 시작할 수 있으며, 쉽게 미세 조정할 수도 있습니다.
기본적인 비전 기능을 빠르고 쉽게 통합
이미지 라벨 지정, 얼굴 및 랜드마크 감지, OCR, 세이프서치와 같은 사전 빌드된 기능입니다.
비용 효율적인 종량제 요금입니다.
스캔한 문서와 이미지에서 유용한 정보를 추출하고 문서 워크플로를 자동화합니다.
문서 이해, 텍스트 추출, 항목 식별, 문서 분류를 위한 OCR(생성형 AI 기반), NLP, ML
동영상 콘텐츠 분석, 콘텐츠 검토 및 추천, 미디어 보관, 문맥 광고
객체 감지 및 추적, 장면 이해, 활동 감지, 얼굴 인식 및 분석, 텍스트 감지 및 인식
자동 이미지 설명 표시
이미지 분류 및 검색
콘텐츠 검토 및 추천
이미지 생성, 이미지 편집, 이미지 캡셔닝, 멀티모달 임베딩
기능과 출시 단계의 전체 목록 확인하기
다양한 목적에 맞게 최적화된 이러한 제품을 사용하면 사전 학습된 ML 모델을 활용하여 즉시 시작할 수 있으며, 쉽게 미세 조정할 수도 있습니다.
데모
오른쪽의 아키텍처 다이어그램에 묘사된 솔루션은 Cloud Storage 버킷에 새 PDF 문서를 추가할 때 트리거되는 파이프라인을 배포합니다. 파이프라인은 문서에서 텍스트를 추출하고, 추출한 텍스트에서 요약을 만들고, 요약을 사용자가 보고 검색할 수 있도록 데이터베이스에 저장합니다.
Jupyter 노트북을 통해 파일을 업로드하거나 Google Cloud 콘솔에서 Cloud Storage에 직접 파일을 업로드하여 애플리케이션을 호출할 수 있습니다.
예상 배포 시간: 11분(구성 1분, 배포 10분)
오른쪽의 아키텍처 다이어그램에 묘사된 솔루션은 Cloud Storage 버킷에 새 PDF 문서를 추가할 때 트리거되는 파이프라인을 배포합니다. 파이프라인은 문서에서 텍스트를 추출하고, 추출한 텍스트에서 요약을 만들고, 요약을 사용자가 보고 검색할 수 있도록 데이터베이스에 저장합니다.
Jupyter 노트북을 통해 파일을 업로드하거나 Google Cloud 콘솔에서 Cloud Storage에 직접 파일을 업로드하여 애플리케이션을 호출할 수 있습니다.
예상 배포 시간: 11분(구성 1분, 배포 10분)
오른쪽 다이어그램에 묘사된 솔루션은 선행 학습된 머신러닝 모델을 사용하여 사용자가 제공한 이미지를 분석하고 이미지 주석을 생성합니다. 이 솔루션을 배포하면 안전하지 않거나 유해한 사용자 제작 콘텐츠를 처리하고, 물리적 문서에서 텍스트를 디지털화하고, 이미지에서 객체를 감지하고 분류하는 데 도움이 되는 이미지 처리 서비스가 생성됩니다.
구성 및 보안 설정을 검토하여 이미지 처리 서비스를 다양한 요구사항에 맞게 조정하는 방법을 이해할 수 있습니다.
예상 배포 시간: 12분(구성 2분, 배포 10분)
오른쪽 다이어그램에 묘사된 솔루션은 선행 학습된 머신러닝 모델을 사용하여 사용자가 제공한 이미지를 분석하고 이미지 주석을 생성합니다. 이 솔루션을 배포하면 안전하지 않거나 유해한 사용자 제작 콘텐츠를 처리하고, 물리적 문서에서 텍스트를 디지털화하고, 이미지에서 객체를 감지하고 분류하는 데 도움이 되는 이미지 처리 서비스가 생성됩니다.
구성 및 보안 설정을 검토하여 이미지 처리 서비스를 다양한 요구사항에 맞게 조정하는 방법을 이해할 수 있습니다.
예상 배포 시간: 12분(구성 2분, 배포 10분)
기반 모델을 기반으로 하는 Document AI 커스텀 추출기는 일반 및 분야별 문서에서 텍스트와 데이터를 더 빠르고 정확하게 추출합니다. 5~10개의 문서만으로도 쉽게 미세 조정하여 성능을 더욱 개선할 수 있습니다.
자체 모델을 학습시키려면 데이터 세트에 기반 모델로 자동 라벨을 지정하여 프로덕션 시간을 단축하세요.
선행 학습된 특수 프로세서를 사용할 수도 있습니다. 전체 프로세서 목록을 참조하세요.
기반 모델을 기반으로 하는 Document AI 커스텀 추출기는 일반 및 분야별 문서에서 텍스트와 데이터를 더 빠르고 정확하게 추출합니다. 5~10개의 문서만으로도 쉽게 미세 조정하여 성능을 더욱 개선할 수 있습니다.
자체 모델을 학습시키려면 데이터 세트에 기반 모델로 자동 라벨을 지정하여 프로덕션 시간을 단축하세요.
선행 학습된 특수 프로세서를 사용할 수도 있습니다. 전체 프로세서 목록을 참조하세요.
가격 책정
| Vision AI 가격 책정 방식 | 각 비전 제품에는 가격 책정 방식이 다른 기능 또는 프로세서 집합이 있습니다. 자세한 내용은 세부 가격 책정 페이지를 확인하세요. | ||
|---|---|---|---|
| 무료 등급 | 제품/서비스 | 할인 가격 | 세부정보 |
Vision API | 처음 1,000개 단위 매월 무료 | 5,000,001단위 이상 월별 | |
Document AI | 해당 사항 없음 가격은 프로세서에 따라 달라집니다. | 5,000,001페이지 이상 매월(Enterprise Document OCR 프로세서) | |
Video Intelligence API | 처음 1,000분 매월 무료 | 100,000분 이상 월별 | |
Imagen - 멀티모달 임베딩 |
|
| US $0.0001 이미지 입력당 |
Imagen — 이미지 캡셔닝 |
|
| US $0.0015 이미지당 |
Gemini Pro Vision | |||
Vision AI 가격 책정 방식
각 비전 제품에는 가격 책정 방식이 다른 기능 또는 프로세서 집합이 있습니다. 자세한 내용은 세부 가격 책정 페이지를 확인하세요.
Document AI
해당 사항 없음
가격은 프로세서에 따라 달라집니다.
5,000,001페이지 이상
매월(Enterprise Document OCR 프로세서)
Imagen - 멀티모달 임베딩
US $0.0001
이미지 입력당
Imagen — 이미지 캡셔닝
US $0.0015
이미지당