API를 통해 고급 비전 모델에 액세스하여 비전 작업을 자동화하고 분석을 간소화하며 활용 가능한 분석 정보를 확보하세요. 또는 관리형 환경에서 노 코드 모델 학습을 통해 저렴한 비용으로 커스텀 앱을 빌드할 수 있습니다.
신규 고객에게는 최대 $300의 무료 크레딧이 제공되어 Vision AI 및 기타 Google Cloud 제품을 사용해 볼 수 있습니다.
Google에서 권장하는 문서 요약 및 AI/ML 이미지 처리 솔루션을 배포할 수도 있습니다.
개요
컴퓨터 비전은 컴퓨터와 시스템이 시각적 데이터를 해석 및 분석하고 디지털 이미지, 동영상, 기타 시각적 입력에서 의미 있는 정보를 도출할 수 있도록 하는 인공지능(AI) 분야입니다. 사물 감지, 시각적 콘텐츠(이미지, 문서, 동영상) 처리, 이해 및 분석, 제품 검색, 이미지 분류 및 검색, 콘텐츠 검토 등이 일반적인 실제 적용 사례입니다.
Google Cloud의 Vertex AI는 사실상 모든 입력을 이해하고 다양한 유형의 정보를 결합하며 거의 모든 출력을 생성할 수 있는 최첨단 멀티모달 모델 제품군인 Gemini에 대한 액세스를 제공합니다. Gemini는 시각, 텍스트, 코드가 혼합된 작업에 가장 적합하며 Gemini Pro Vision은 객체 인식, 디지털 콘텐츠 이해, 자막 생성/설명 등 다양한 시각 관련 작업에 적합합니다. API를 통해 액세스할 수 있습니다.
Vertex AI 기반 Imagen은 API를 통해 Google의 최첨단 이미지 생성형 AI 특성을 애플리케이션 개발자에게 제공합니다. 일부 주요 기능으로는 텍스트 프롬프트를 사용한 이미지 생성(제한된 GA), 이미지 수정(제한된 GA), 텍스트로 이미지 설명(이미지 캡셔닝이라고도 함, 정식 버전) 및 주체 모델 미세 조정(제한된 GA) 등이 있습니다. 주요 기능과 출시 단계를 자세히 알아보세요.
Google의 선행 학습된 컴퓨터 비전 ML 모델을 기반으로 하는 Cloud Vision API는 즉시 사용 가능한 API(REST 및 RPC)로, 개발자가 이미지 라벨 지정, 얼굴 및 랜드마크 인식, 광학 문자 인식(OCR), 선정적인 콘텐츠 태그 지정 등 일반적인 시각적 인식 기능을 애플리케이션에 쉽게 통합할 수 있도록 지원합니다.
이미지에 적용하는 각 기능은 청구 가능한 단위입니다. Cloud Vision API를 사용하면 매월 1,000개 단위의 기능을 무료로 사용할 수 있습니다. 가격 책정 세부정보를 참조하세요.
Document AI는 컴퓨터 비전과 자연어 처리 등의 기타 기술을 결합하여 스캔한 문서에서 텍스트와 데이터를 추출하고 비정형 데이터를 구조화된 정보와 비즈니스 인사이트로 변환하는 문서 이해 플랫폼입니다.
다양한 유형의 문서에 최적화된 광범위한 선행 학습된 프로세서를 제공합니다. 또한 Document AI Workbench를 통해 커스텀 프로세서를 쉽게 빌드하여 문서에서 구조화된 데이터를 분류, 분할, 추출할 수 있습니다.
컴퓨터 비전 기술을 기반으로 하는 Video Intelligence API를 사용하면 동영상 콘텐츠를 쉽게 처리, 분석, 이해할 수 있습니다.
선행 학습된 ML 모델은 저장된 동영상과 스트리밍 동영상에서 방대한 양의 객체, 장소, 동작을 탁월한 품질로 자동 인식합니다. 또한 콘텐츠 검토 및 추천, 미디어 보관 파일, 문맥 광고와 같은 일반적인 사용 사례에 매우 효율적입니다. 특정 니즈에 맞게 Vertex AI Vision을 사용하여 커스텀 ML 모델을 학습시킬 수도 있습니다.
Visual Inspection AI는 제조 및 기타 산업 환경의 시각적 검사 작업을 자동화합니다. 고급 컴퓨터 비전 및 딥 러닝 기술을 활용하여 이미지와 동영상을 분석하고, 이상을 식별하고, 결함을 감지하고 찾으며, 조립된 제품의 누락되거나 결함이 있는 부품을 확인합니다.
기술적 전문 지식이 없어도 최소한의 라벨이 지정된 이미지로 커스텀 모델을 학습시키고, 프로덕션 라인에서 추론을 효율적으로 실행하며, 공장 현장에서 얻은 최신 데이터로 모델을 지속적으로 업데이트할 수 있습니다.
Vertex AI Vision은 개발자가 텍스트, 이미지, 동영상 및 테이블 형식의 데이터와 같은 다양한 데이터 형식을 처리하기 위해 컴퓨터 비전 애플리케이션을 쉽게 빌드, 배포, 관리할 수 있는 완전 관리형 애플리케이션 개발 환경입니다. 빌드 시간이 며칠에서 몇 분으로 단축되며, 비용은 현재 사용되는 솔루션의 10분의 1에 불과합니다.
자체 커스텀 모델을 빌드 및 배포하고 CI/CD 파이프라인을 사용하여 관리하고 확장할 수 있습니다. 또한 TensorFlow 및 PyTorch와 같이 널리 사용되는 오픈소스 도구와 통합됩니다.
Google Cloud는 업계 최고의 역량을 갖춰 고객이 고객 데이터에 대한 액세스를 제어하고 액세스 시기와 방식에 대한 가시성을 제공받을 수 있도록 합니다.
Google Cloud 고객은 자신의 고객 데이터를 소유합니다. Google은 고객 데이터를 보호하기 위한 엄격한 보안 수단을 구현하고 있으며, 고객이 원하는 대로 이를 제어할 수 있는 도구와 기능을 제공합니다. 고객 데이터는 Google이 아닌 고객의 데이터입니다. Google은 고객의 동의에 따라서만 데이터를 처리합니다.
개인 정보 보호 리소스 센터에서 자세히 알아보세요.
컴퓨터 비전 제품 비교
서비스 | 적합한 환경 | 주요 특징 |
---|---|---|
기본적인 비전 기능을 빠르고 쉽게 통합 | 이미지 라벨 지정, 얼굴 및 랜드마크 감지, OCR, 세이프서치와 같은 사전 빌드된 기능이 있습니다. 비용 효율적인 종량제 요금입니다. | |
스캔한 문서 및 이미지에서 유용한 정보를 추출하고 문서 워크플로를 자동화합니다. | 문서 이해, 텍스트 추출, 항목 식별, 문서 분류를 위한 OCR(생성형 AI 기반), NLP, ML | |
동영상 콘텐츠, 콘텐츠 검토 및 추천, 미디어 보관 파일, 문맥 광고 분석 | 객체 감지 및 추적, 장면 이해, 활동 감지, 얼굴 인식 및 분석, 텍스트 감지 및 인식 | |
제조 및 산업 환경의 시각적 검사 작업 자동화 | 이상 감지, 결함 감지 및 찾기, 조립 확인 | |
특정 니즈에 맞는 커스텀 모델 빌드 및 배포 | 데이터 준비 도구, 모델 학습 및 배포, 솔루션을 완벽하게 제어할 수 있습니다. 기술적 전문 지식이 필요합니다. | |
시각적 분석 및 이해, 멀티모달 질의 응답 | 정보 탐색, 객체 인식, 디지털 콘텐츠 이해, 구조화된 콘텐츠 생성, 자막 생성/설명, 외삽 | |
자동 이미지 설명 표시 이미지 분류 및 검색 콘텐츠 검토 및 추천 | 이미지 생성, 이미지 편집, 이미지 캡셔닝, 멀티모달 임베딩 기능 및 출시 단계 전체 목록을 확인하세요. |
다양한 목적에 맞게 최적화된 이러한 제품은 사전 학습된 ML 모델을 활용하고 손쉽게 미세 조정할 수 있는 기능으로 순조롭게 시작할 수 있습니다.
기본적인 비전 기능을 빠르고 쉽게 통합
이미지 라벨 지정, 얼굴 및 랜드마크 감지, OCR, 세이프서치와 같은 사전 빌드된 기능이 있습니다.
비용 효율적인 종량제 요금입니다.
스캔한 문서 및 이미지에서 유용한 정보를 추출하고 문서 워크플로를 자동화합니다.
문서 이해, 텍스트 추출, 항목 식별, 문서 분류를 위한 OCR(생성형 AI 기반), NLP, ML
동영상 콘텐츠, 콘텐츠 검토 및 추천, 미디어 보관 파일, 문맥 광고 분석
객체 감지 및 추적, 장면 이해, 활동 감지, 얼굴 인식 및 분석, 텍스트 감지 및 인식
특정 니즈에 맞는 커스텀 모델 빌드 및 배포
데이터 준비 도구, 모델 학습 및 배포, 솔루션을 완벽하게 제어할 수 있습니다. 기술적 전문 지식이 필요합니다.
시각적 분석 및 이해, 멀티모달 질의 응답
정보 탐색, 객체 인식, 디지털 콘텐츠 이해, 구조화된 콘텐츠 생성, 자막 생성/설명, 외삽
자동 이미지 설명 표시
이미지 분류 및 검색
콘텐츠 검토 및 추천
이미지 생성, 이미지 편집, 이미지 캡셔닝, 멀티모달 임베딩
기능 및 출시 단계 전체 목록을 확인하세요.
다양한 목적에 맞게 최적화된 이러한 제품은 사전 학습된 ML 모델을 활용하고 손쉽게 미세 조정할 수 있는 기능으로 순조롭게 시작할 수 있습니다.
작동 방식
Google Cloud의 Vision AI 도구 제품군은 컴퓨터 비전을 다른 기술과 결합하여 동영상을 이해 및 분석하고 이미지 라벨 지정, 얼굴 및 랜드마크 인식, 광학 문자 인식(OCR), 선정적인 콘텐츠 태그 지정 등의 시각적 인식 기능을 애플리케이션 내에 쉽게 통합할 수 있습니다.
이러한 도구는 API를 통해 사용할 수 있으며 특정 니즈에 맞게 맞춤설정할 수 있습니다.
데모
일반적인 용도
오른쪽의 아키텍처 다이어그램에 표시된 솔루션은 Cloud Storage 버킷에 새 PDF 문서를 추가할 때 트리거되는 파이프라인을 배포합니다. 파이프라인은 문서에서 텍스트를 추출하고 추출된 텍스트에서 요약을 생성하며 사용자가 보고 검색할 수 있도록 요약을 데이터베이스에 저장합니다.
Jupyter 노트북을 통해 파일을 업로드하거나 Google Cloud 콘솔에서 Cloud Storage에 직접 파일을 업로드하여 애플리케이션을 호출할 수 있습니다.
예상 배포 시간: 11분(구성 1분, 배포 10분)
오른쪽의 아키텍처 다이어그램에 표시된 솔루션은 Cloud Storage 버킷에 새 PDF 문서를 추가할 때 트리거되는 파이프라인을 배포합니다. 파이프라인은 문서에서 텍스트를 추출하고 추출된 텍스트에서 요약을 생성하며 사용자가 보고 검색할 수 있도록 요약을 데이터베이스에 저장합니다.
Jupyter 노트북을 통해 파일을 업로드하거나 Google Cloud 콘솔에서 Cloud Storage에 직접 파일을 업로드하여 애플리케이션을 호출할 수 있습니다.
예상 배포 시간: 11분(구성 1분, 배포 10분)
오른쪽의 다이어그램에 표시된 이 솔루션은 선행 학습된 머신러닝 모델을 사용하여 사용자가 제공한 이미지를 분석하고 이미지 주석을 생성합니다. 이 솔루션을 배포하면 안전하지 않거나 유해한 사용자 제작 콘텐츠를 처리하고 실제 문서의 텍스트를 디지털화하며 이미지에서 객체를 감지 및 분류하는 등의 작업을 할 수 있는 이미지 처리 서비스가 생성됩니다.
구성 및 보안 설정을 검토하여 다양한 요구사항에 맞게 이미지 처리 서비스를 조정하는 방법을 이해할 수 있습니다.
예상 배포 시간: 12분(구성 2분, 배포 10분)
오른쪽의 다이어그램에 표시된 이 솔루션은 선행 학습된 머신러닝 모델을 사용하여 사용자가 제공한 이미지를 분석하고 이미지 주석을 생성합니다. 이 솔루션을 배포하면 안전하지 않거나 유해한 사용자 제작 콘텐츠를 처리하고 실제 문서의 텍스트를 디지털화하며 이미지에서 객체를 감지 및 분류하는 등의 작업을 할 수 있는 이미지 처리 서비스가 생성됩니다.
구성 및 보안 설정을 검토하여 다양한 요구사항에 맞게 이미지 처리 서비스를 조정하는 방법을 이해할 수 있습니다.
예상 배포 시간: 12분(구성 2분, 배포 10분)
애플리케이션으로 동영상 데이터를 분석하기 전에 Vertex AI Vision의 스트림 서비스를 사용하여 연속적인 데이터 흐름을 위한 파이프라인을 만드세요. 수집된 데이터는 Google의 선행 학습된 모델 또는 커스텀 모델을 통해 분석됩니다. 스트림의 분석 출력은 Vertex AI Vision Warehouse에 저장됩니다. 이곳에서 고급 AI 기반 검색 기능을 사용하여 구조화되지 않은 미디어 콘텐츠를 쿼리할 수 있습니다.
애플리케이션으로 동영상 데이터를 분석하기 전에 Vertex AI Vision의 스트림 서비스를 사용하여 연속적인 데이터 흐름을 위한 파이프라인을 만드세요. 수집된 데이터는 Google의 선행 학습된 모델 또는 커스텀 모델을 통해 분석됩니다. 스트림의 분석 출력은 Vertex AI Vision Warehouse에 저장됩니다. 이곳에서 고급 AI 기반 검색 기능을 사용하여 구조화되지 않은 미디어 콘텐츠를 쿼리할 수 있습니다.
기반 모델을 기반으로 하는 Document AI 커스텀 추출기는 일반 및 분야별 문서에서 텍스트와 데이터를 더 빠르고 정확하게 추출합니다. 5~10개의 문서만으로 손쉽게 미세 조정하여 성능을 한층 더 높일 수 있습니다.
자체 모델을 학습시키려면 데이터 세트에 기반 모델로 자동 라벨을 지정하여 프로덕션 시간을 단축하세요.
선행 학습된 특수 프로세서를 사용할 수도 있습니다. 전체 프로세서 목록을 참조하세요.
기반 모델을 기반으로 하는 Document AI 커스텀 추출기는 일반 및 분야별 문서에서 텍스트와 데이터를 더 빠르고 정확하게 추출합니다. 5~10개의 문서만으로 손쉽게 미세 조정하여 성능을 한층 더 높일 수 있습니다.
자체 모델을 학습시키려면 데이터 세트에 기반 모델로 자동 라벨을 지정하여 프로덕션 시간을 단축하세요.
선행 학습된 특수 프로세서를 사용할 수도 있습니다. 전체 프로세서 목록을 참조하세요.
Visual Inspection AI는 모든 단계에서 최적화되므로 설정이 쉽고 ROI를 빠르게 달성할 수 있습니다. 범용 ML 플랫폼보다 고성능 검사 모델 학습을 시작하는 데 필요한 라벨이 지정된 이미지 수가 최대 300배 적으며 정확도가 최대 10배까지 향상되었습니다. 전문 지식 없이도 모델을 학습시킬 수 있으며 모델이 온프레미스에서 실행됩니다. 무엇보다도 공장 현장의 데이터로 모델을 지속적으로 업데이트할 수 있으므로 새로운 사용 사례를 발견하면 정확도가 향상됩니다.
Visual Inspection AI는 모든 단계에서 최적화되므로 설정이 쉽고 ROI를 빠르게 달성할 수 있습니다. 범용 ML 플랫폼보다 고성능 검사 모델 학습을 시작하는 데 필요한 라벨이 지정된 이미지 수가 최대 300배 적으며 정확도가 최대 10배까지 향상되었습니다. 전문 지식 없이도 모델을 학습시킬 수 있으며 모델이 온프레미스에서 실행됩니다. 무엇보다도 공장 현장의 데이터로 모델을 지속적으로 업데이트할 수 있으므로 새로운 사용 사례를 발견하면 정확도가 향상됩니다.
가격 책정
Vision AI 가격 책정 방식 | 각 비전 제품에는 가격 책정 방식이 다른 기능 또는 프로세서 집합이 있습니다. 자세한 내용은 세부 가격 책정 페이지를 확인하세요. | ||
---|---|---|---|
무료 등급 | 제품/서비스 | 할인 가격 | 세부정보 |
Vision API | 처음 1,000개 단위 매월 무료 | 5,000,001단위 이상 /월 | |
Document AI | 해당 사항 없음 가격은 프로세서에 민감합니다. | 5,000,001페이지 이상 매월(Enterprise Document OCR 프로세서) | |
Video Intelligence API | 처음 1,000분 매월 무료 | 100,000분 이상 /월 | |
Vertex AI Vision | 해당 사항 없음 가격 책정은 기능에 민감합니다. |
| |
Imagen - 멀티모달 임베딩 |
|
| US $0.0001 이미지 입력당 |
Imagen — 이미지 캡셔닝 |
|
| US $0.0015 이미지당 |
Gemini Pro Vision |
Vision AI 가격 책정 방식
각 비전 제품에는 가격 책정 방식이 다른 기능 또는 프로세서 집합이 있습니다. 자세한 내용은 세부 가격 책정 페이지를 확인하세요.
Document AI
해당 사항 없음
가격은 프로세서에 민감합니다.
5,000,001페이지 이상
매월(Enterprise Document OCR 프로세서)
Imagen - 멀티모달 임베딩
US $0.0001
이미지 입력당
Imagen — 이미지 캡셔닝
US $0.0015
이미지당