Gemini Enterprise 에이전트 플랫폼에서 추론, 코딩, 멀티모달을 이해하는 데 가장 적합한 모델인 Gemini 3 사용해 보기

Vision AI

이미지, 문서, 동영상에서 유용한 정보 추출

API를 통해 고급 비전 모델에 액세스하여 비전 작업을 자동화하고, 분석을 간소화하며, 실행 가능한 인사이트를 확보하세요. 또는 관리형 환경에서 노 코드 모델 학습을 통해 저렴한 비용으로 커스텀 앱을 빌드할 수 있습니다.

신규 고객에게는 최대 $300의 무료 크레딧이 제공되어 Vision AI 및 기타 Google Cloud 제품을 사용해 볼 수 있습니다.

Google에서 추천하는 문서 요약 및 AI/ML 이미지 처리 솔루션을 배포해 볼 수도 있습니다.

개요

컴퓨터 비전이란 무엇인가요?

컴퓨터 비전은 컴퓨터와 시스템이 시각적 데이터를 해석 및 분석하고 디지털 이미지, 동영상, 기타 시각적 입력에서 의미 있는 정보를 도출할 수 있도록 하는 인공지능(AI) 분야입니다. 사물 감지, 시각적 콘텐츠(이미지, 문서, 동영상) 처리, 이해 및 분석, 제품 검색, 이미지 분류 및 검색, 콘텐츠 검토 등이 일반적인 실제 적용 사례입니다.

고급 멀티모달 생성형 AI

Google Cloud의 Gemini Enterprise Agent Platform은 거의 모든 입력을 이해하고 다양한 유형의 정보를 결합하며 거의 모든 출력을 생성할 수 있는 최첨단 멀티모달 모델 제품군인 Gemini에 대한 액세스를 제공합니다.

비전 중심의 생성형 AI

Agent Platform 기반 Imagen은 API를 통해 애플리케이션 개발자에게 Google의 최첨단 이미지 생성형 AI 기능을 제공합니다. 일부 주요 기능으로는 텍스트 프롬프트를 사용한 이미지 생성, 텍스트 프롬프트를 사용한 이미지 수정, 텍스트로 이미지 설명, 주체 모델 미세 조정 등이 있습니다.

즉시 사용 가능한 Vision AI

Google의 선행 학습된 컴퓨터 비전 ML 모델을 기반으로 하는 Cloud Vision API는 즉시 사용 가능한 API(REST 및 RPC)로, 개발자가 이미지 라벨 지정, 얼굴 및 랜드마크 인식, 광학 문자 인식(OCR), 선정적인 콘텐츠 태그 지정 등 일반적인 시각적 인식 기능을 애플리케이션에 쉽게 통합할 수 있도록 지원합니다.

이미지에 적용하는 각 기능은 청구 가능한 단위입니다. Cloud Vision API를 사용하면 매월 1,000개 단위의 기능을 무료로 사용할 수 있습니다. 가격 책정 세부정보를 참조하세요.

문서를 이해하는 생성형 AI

Document AI는 컴퓨터 비전과 자연어 처리 등의 다른 기술을 결합하여 스캔한 문서에서 텍스트와 데이터를 추출하고 비정형 데이터를 정형 정보와 비즈니스 인사이트로 변환하는 문서 이해 플랫폼입니다.

다양한 유형의 문서에 최적화된 광범위한 사전 학습된 프로세서를 제공합니다. 또한 Document AI Workbench를 통해 문서를 분류, 분할하고 정형 데이터를 추출하는 커스텀 프로세서를 쉽게 빌드할 수 있습니다.

Document AI 소개

4:37

동영상을 위한 즉시 사용 가능한 Vision AI

컴퓨터 비전 기술을 핵심으로 하는 Video Intelligence API는 동영상 콘텐츠를 쉽게 처리, 분석, 이해할 수 있는 방법입니다.

사전 학습된 ML 모델은 저장된 동영상과 스트리밍 동영상에서 수많은 객체, 장소, 동작을 탁월한 품질로 자동 인식합니다. 콘텐츠 검토 및 추천, 미디어 보관, 문맥 광고와 같은 일반적인 사용 사례에서 매우 효율적입니다. 또한 Agent Platform Vision을 사용하여 특정 요구사항에 맞게 커스텀 ML 모델을 학습시킬 수도 있습니다.

가족 사진 콜라주 위에 'ML을 사용하여 동영상 보관 파일 만들기'라는 동영상 제목

데모: Video Intelligence API를 사용하여 검색 가능한 동영상 보관 파일을 만드는 방법

6:21

데이터 개인정보 보호 및 보안

Google Cloud는 업계 최고의 역량을 갖춰 고객이 고객 데이터에 대한 액세스를 제어하고 액세스 시기와 방식에 대한 가시성을 제공받을 수 있도록 합니다.

Google Cloud 고객은 자신의 고객 데이터를 소유합니다. Google은 고객 데이터를 보호하기 위한 엄격한 보안 수단을 구현하고 있으며, 고객이 원하는 대로 이를 제어할 수 있는 도구와 기능을 제공합니다. 고객 데이터는 Google이 아닌 고객의 데이터입니다. Google은 고객의 동의에 따라서만 데이터를 처리합니다.

개인 정보 보호 리소스 센터에서 자세히 알아보세요.

컴퓨터 비전 제품 비교

제품	권장 기기	주요 특징
Cloud Vision API	기본적인 비전 기능을 빠르고 쉽게 통합	이미지 라벨 지정, 얼굴 및 랜드마크 감지, OCR, 세이프서치와 같은 사전 빌드된 기능입니다. 비용 효율적인 종량제 요금입니다.
Document AI	스캔한 문서와 이미지에서 유용한 정보를 추출하고 문서 워크플로를 자동화합니다.	문서 이해, 텍스트 추출, 항목 식별, 문서 분류를 위한 OCR(생성형 AI 기반), NLP, ML
Video Intelligence API	동영상 콘텐츠 분석, 콘텐츠 검토 및 추천, 미디어 보관, 문맥 광고	객체 감지 및 추적, 장면 이해, 활동 감지, 얼굴 인식 및 분석, 텍스트 감지 및 인식
Gemini Enterprise Agent Platform의 Imagen	자동 이미지 설명 표시 이미지 분류 및 검색 콘텐츠 검토 및 추천	이미지 생성, 이미지 편집, 이미지 캡셔닝, 멀티모달 임베딩 기능과 출시 단계의 전체 목록 확인하기

다양한 목적에 맞게 최적화된 이러한 제품을 사용하면 사전 학습된 ML 모델을 활용하여 즉시 시작할 수 있으며, 쉽게 미세 조정할 수도 있습니다.

Cloud Vision API

권장 기기

기본적인 비전 기능을 빠르고 쉽게 통합

주요 특징

이미지 라벨 지정, 얼굴 및 랜드마크 감지, OCR, 세이프서치와 같은 사전 빌드된 기능입니다.

비용 효율적인 종량제 요금입니다.

Document AI

권장 기기

스캔한 문서와 이미지에서 유용한 정보를 추출하고 문서 워크플로를 자동화합니다.

주요 특징

문서 이해, 텍스트 추출, 항목 식별, 문서 분류를 위한 OCR(생성형 AI 기반), NLP, ML

Video Intelligence API

권장 기기

동영상 콘텐츠 분석, 콘텐츠 검토 및 추천, 미디어 보관, 문맥 광고

주요 특징

객체 감지 및 추적, 장면 이해, 활동 감지, 얼굴 인식 및 분석, 텍스트 감지 및 인식

Gemini Enterprise Agent Platform의 Imagen

권장 기기

자동 이미지 설명 표시

이미지 분류 및 검색

콘텐츠 검토 및 추천

주요 특징

이미지 생성, 이미지 편집, 이미지 캡셔닝, 멀티모달 임베딩

기능과 출시 단계의 전체 목록 확인하기

다양한 목적에 맞게 최적화된 이러한 제품을 사용하면 사전 학습된 ML 모델을 활용하여 즉시 시작할 수 있으며, 쉽게 미세 조정할 수도 있습니다.

작동 방식

Google Cloud의 Vision AI 도구 제품군은 컴퓨터 비전을 다른 기술과 결합하여 동영상을 이해 및 분석하고 이미지 라벨 지정, 얼굴 및 랜드마크 인식, 광학 문자 인식(OCR), 선정적인 콘텐츠 태그 지정 등의 시각적 인식 기능을 애플리케이션 내에 쉽게 통합할 수 있습니다.
이러한 도구는 API를 통해 제공되며 특정 요구사항에 맞게 맞춤설정할 수 있습니다.

컴퓨터 비전의 작동 방식

데모

컴퓨터 비전이 내 파일과 어떻게 작동하는지 알아보기

일반적인 용도

원시 파일에서 텍스트를 감지하고 자동으로 요약

생성형 AI로 대용량 문서 요약

오른쪽의 아키텍처 다이어그램에 묘사된 솔루션은 Cloud Storage 버킷에 새 PDF 문서를 추가할 때 트리거되는 파이프라인을 배포합니다. 파이프라인은 문서에서 텍스트를 추출하고, 추출한 텍스트에서 요약을 만들고, 요약을 사용자가 보고 검색할 수 있도록 데이터베이스에 저장합니다.

Jupyter 노트북을 통해 파일을 업로드하거나 Google Cloud 콘솔에서 Cloud Storage에 직접 파일을 업로드하여 애플리케이션을 호출할 수 있습니다.

참조 아키텍처: 생성형 AI를 사용한 문서 요약

예상 배포 시간: 11분(구성 1분, 배포 10분)

방법

생성형 AI로 대용량 문서 요약

오른쪽의 아키텍처 다이어그램에 묘사된 솔루션은 Cloud Storage 버킷에 새 PDF 문서를 추가할 때 트리거되는 파이프라인을 배포합니다. 파이프라인은 문서에서 텍스트를 추출하고, 추출한 텍스트에서 요약을 만들고, 요약을 사용자가 보고 검색할 수 있도록 데이터베이스에 저장합니다.

Jupyter 노트북을 통해 파일을 업로드하거나 Google Cloud 콘솔에서 Cloud Storage에 직접 파일을 업로드하여 애플리케이션을 호출할 수 있습니다.

참조 아키텍처: 생성형 AI를 사용한 문서 요약

예상 배포 시간: 11분(구성 1분, 배포 10분)

이미지 처리 파이프라인 빌드

서버리스 아키텍처에서 확장 가능한 이미지 처리

오른쪽 다이어그램에 묘사된 솔루션은 선행 학습된 머신러닝 모델을 사용하여 사용자가 제공한 이미지를 분석하고 이미지 주석을 생성합니다. 이 솔루션을 배포하면 안전하지 않거나 유해한 사용자 제작 콘텐츠를 처리하고, 물리적 문서에서 텍스트를 디지털화하고, 이미지에서 객체를 감지하고 분류하는 데 도움이 되는 이미지 처리 서비스가 생성됩니다.

구성 및 보안 설정을 검토하여 이미지 처리 서비스를 다양한 요구사항에 맞게 조정하는 방법을 이해할 수 있습니다.

예상 배포 시간: 12분(구성 2분, 배포 10분)

방법

서버리스 아키텍처에서 확장 가능한 이미지 처리

오른쪽 다이어그램에 묘사된 솔루션은 선행 학습된 머신러닝 모델을 사용하여 사용자가 제공한 이미지를 분석하고 이미지 주석을 생성합니다. 이 솔루션을 배포하면 안전하지 않거나 유해한 사용자 제작 콘텐츠를 처리하고, 물리적 문서에서 텍스트를 디지털화하고, 이미지에서 객체를 감지하고 분류하는 데 도움이 되는 이미지 처리 서비스가 생성됩니다.

구성 및 보안 설정을 검토하여 이미지 처리 서비스를 다양한 요구사항에 맞게 조정하는 방법을 이해할 수 있습니다.

예상 배포 시간: 12분(구성 2분, 배포 10분)

생성형 AI로 자동 이미지 설명 표시

Imagen의 이미지 캡셔닝 기능을 사용하면 이미지와 관련된 설명을 생성할 수 있습니다. 이를 사용하여 저장 및 검색하기 위한 이미지에 대한 더 자세한 메타데이터를 얻고, 자동 자막을 생성하여 접근성 사용 사례를 지원하고, 제품 및 시각적 애셋에 관한 빠른 설명을 확인할 수 있습니다.

이 기능은 영어, 프랑스어, 독일어, 이탈리아어, 스페인어로 제공되며 Google Cloud 콘솔 또는 API 호출을 통해 액세스할 수 있습니다.

방법

Imagen의 이미지 캡셔닝 기능을 사용하면 이미지와 관련된 설명을 생성할 수 있습니다. 이를 사용하여 저장 및 검색하기 위한 이미지에 대한 더 자세한 메타데이터를 얻고, 자동 자막을 생성하여 접근성 사용 사례를 지원하고, 제품 및 시각적 애셋에 관한 빠른 설명을 확인할 수 있습니다.

이 기능은 영어, 프랑스어, 독일어, 이탈리아어, 스페인어로 제공되며 Google Cloud 콘솔 또는 API 호출을 통해 액세스할 수 있습니다.

생성형 AI로 문서에서 텍스트와 인사이트 추출

Document AI로 미묘한 문서에서 유용한 정보 확보

기반 모델을 기반으로 하는 Document AI 커스텀 추출기는 일반 및 분야별 문서에서 텍스트와 데이터를 더 빠르고 정확하게 추출합니다. 5~10개의 문서만으로도 쉽게 미세 조정하여 성능을 더욱 개선할 수 있습니다.

자체 모델을 학습시키려면 데이터 세트에 기반 모델로 자동 라벨을 지정하여 프로덕션 시간을 단축하세요.

선행 학습된 특수 프로세서를 사용할 수도 있습니다. 전체 프로세서 목록을 참조하세요.

방법

Document AI로 미묘한 문서에서 유용한 정보 확보

기반 모델을 기반으로 하는 Document AI 커스텀 추출기는 일반 및 분야별 문서에서 텍스트와 데이터를 더 빠르고 정확하게 추출합니다. 5~10개의 문서만으로도 쉽게 미세 조정하여 성능을 더욱 개선할 수 있습니다.

자체 모델을 학습시키려면 데이터 세트에 기반 모델로 자동 라벨을 지정하여 프로덕션 시간을 단축하세요.

선행 학습된 특수 프로세서를 사용할 수도 있습니다. 전체 프로세서 목록을 참조하세요.

가격 책정

Vision AI 가격 책정 방식	각 비전 제품에는 가격 책정 방식이 다른 기능 또는 프로세서 집합이 있습니다. 자세한 내용은 세부 가격 책정 페이지를 확인하세요.
무료 등급	제품/서비스	할인 가격	세부정보
Vision API	처음 1,000개 단위 매월 무료	5,000,001단위 이상 월별	가격 책정 세부정보 페이지
Document AI	해당 사항 없음 가격은 프로세서에 따라 달라집니다.	5,000,001페이지 이상 매월(Enterprise Document OCR 프로세서)	가격 책정 세부정보 페이지
Video Intelligence API	처음 1,000분 매월 무료	100,000분 이상 월별	가격 책정 세부정보 페이지
Imagen - 멀티모달 임베딩			US $0.0001 이미지 입력당
Imagen — 이미지 캡셔닝			US $0.0015 이미지당
Gemini Pro Vision			가격 책정 세부정보 페이지

Vision AI 가격 책정 방식

각 비전 제품에는 가격 책정 방식이 다른 기능 또는 프로세서 집합이 있습니다. 자세한 내용은 세부 가격 책정 페이지를 확인하세요.

Vision API

제품/서비스

처음 1,000개 단위

매월 무료

할인 가격

5,000,001단위 이상

월별

세부정보

가격 책정 세부정보 페이지

Document AI

제품/서비스

해당 사항 없음

가격은 프로세서에 따라 달라집니다.

할인 가격

5,000,001페이지 이상

매월(Enterprise Document OCR 프로세서)

세부정보

가격 책정 세부정보 페이지

Video Intelligence API

제품/서비스

처음 1,000분

매월 무료

할인 가격

100,000분 이상

월별

세부정보

가격 책정 세부정보 페이지

Imagen - 멀티모달 임베딩

제품/서비스

할인 가격

세부정보

US $0.0001

이미지 입력당

Imagen — 이미지 캡셔닝

제품/서비스

할인 가격

세부정보

US $0.0015

이미지당

Gemini Pro Vision

제품/서비스

할인 가격

세부정보

가격 책정 세부정보 페이지

가격 계산기

필요한 모든 도구를 한곳으로 가져와 프로젝트 비용을 예측합니다.

커스텀 견적

영업팀에 문의하여 조직의 고유한 요구사항에 맞는 커스텀 견적을 받아 보세요.

Vision AI

이미지, 문서, 동영상에서 유용한 정보 추출

하이라이트

컴퓨터 비전이란 무엇인가요?

고급 멀티모달 생성형 AI

비전 중심의 생성형 AI

즉시 사용 가능한 Vision AI

문서를 이해하는 생성형 AI

동영상을 위한 즉시 사용 가능한 Vision AI

데이터 개인정보 보호 및 보안

컴퓨터 비전이 내 파일과 어떻게 작동하는지 알아보기

원시 파일에서 텍스트를 감지하고 자동으로 요약

생성형 AI로 대용량 문서 요약

방법

생성형 AI로 대용량 문서 요약

이미지 처리 파이프라인 빌드

서버리스 아키텍처에서 확장 가능한 이미지 처리

방법

서버리스 아키텍처에서 확장 가능한 이미지 처리

생성형 AI로 자동 이미지 설명 표시

방법

생성형 AI로 문서에서 텍스트와 인사이트 추출

Document AI로 미묘한 문서에서 유용한 정보 확보

방법

Document AI로 미묘한 문서에서 유용한 정보 확보

가격 계산기

커스텀 견적

개념 증명 시작

신규 고객에게는 최대 $300의 무료 크레딧이 제공되어 Vision AI 및 기타 Google Cloud 제품을 사용해 볼 수 있습니다

문서 OCR 사용 시 월별 1,000페이지 무료 제공

Video Intelligence API로 라이브 동영상을 스트리밍하는 방법 알아보기

Gemini Enterprise Agent Platform에서 객체 감지기 앱을 빌드하는 방법 알아보기

Vision API용 코드 샘플 가져오기