기능 목록

Vision API에서는 현재 다음 기능을 사용할 수 있습니다.

모든 기능 유형

얼굴 인식 1

주석이 있거나 없는 얼굴이 2개 포함된 이미지
  • 경계 다각형이 있는 얼굴을 찾아 눈, 귀, 코, 입 등과 같은 얼굴의 '특징'과 해당 신뢰도 값을 식별합니다.
  • 감정 상태(기쁨, 슬픔, 분노, 놀람 등)와 일반 이미지 속성(노출 부족, 흐리게 처리, 모자 착용)에 대한 일치 가능성 평점을 반환합니다.
  • 일치 가능성 평점은 UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY, VERY_LIKELY의 6가지 값으로 표시됩니다.

랜드마크 인식 2

성 바실리 대성당 이미지
  • 랜드마크 이미지 속 랜드마크 이름, 신뢰도 점수, 경계 상자를 제공합니다.
  • 인식된 항목의 좌표를 제공합니다.

로고 인식 3

주석이 추가된 로고
  • 파일 속 로고의 식별된 항목에 대한 텍스트 설명, 신뢰도 점수, 경계 다각형을 제공합니다.

라벨 인식 4

상하이 거리 이미지
  • 이미지에 대한 일반화된 라벨을 제공합니다.
  • 각 라벨에 대해 텍스트 설명, 신뢰도 점수, 적합성 평점을 반환합니다.

텍스트 감지

도로 표지판 이미지
  • 이미지의 광학 문자 인식(OCR), 텍스트 인식 후 머신 코딩된 텍스트로 변환 이미지에서 UTF-8 텍스트를 찾아 추출합니다.
  • 이미지: 큰 이미지 내의 희소 텍스트 영역에 최적화되어 있습니다.
  • 응답: 텍스트, 경계 상자, textAnnotations로 식별된 단어 목록과 OCR로 감지된 텍스트(fullTextAnnotation)의 계층 구조를 모두 반환합니다.
    • 추출된 텍스트의 계층 구조
      • TextAnnotation -> 페이지 -> 블록 -> 단락 -> 단어 -> 기호
      • 페이지의 각 구조적 구성요소에는 인식된 언어, 줄바꿈 등 자체 속성이 추가로 있을 수 있습니다.
  • 지원 언어: 현재 지원, 매핑, 실험용 언어로 작동합니다.
  • 특징의 열거형 값: TEXT_DETECTION

문서 텍스트 인식(밀집 텍스트/필기 입력)

주석이 있는 밀집 이미지
필기 입력 이미지
  • 파일(PDF/TIFF)이나 밀집 텍스트 이미지의 광학 문자 인식(OCR), 텍스트 인식 후 머신 코딩된 텍스트로 변환
  • 파일: 문서 파일(PDF/TIFF)에 최적화되었습니다.
  • 이미지: 이미지(문서 형식의 이미지) 속 밀집 텍스트 영역 및 필기 입력이 포함된 이미지에 최적화되어 있습니다.
  • 응답: OCR로 인식된 텍스트(fullTextAnnotation)의 계층 구조를 반환합니다.
    • 추출된 텍스트의 계층 구조
      • TextAnnotation -> 페이지 -> 블록 -> 단락 -> 단어 -> 기호
      • 페이지의 각 구조적 구성요소에는 인식된 언어, 줄바꿈 등 자체 속성이 추가로 있을 수 있습니다.
  • 지원 언어: 현재 지원, 매핑, 실험용 언어로 작동합니다.
  • 특징의 열거형 값: DOCUMENT_TEXT_DETECTION
    • DOCUMENT_TEXT_DETECTIONTEXT_DETECTION이 요청되면 우선 적용됩니다.

이미지 속성 5

속성이 있는 발리 이미지
  • 이미지에서 가장 두드러진 색상을 반환합니다.
  • 각 색상은 RGBA 색상 공간으로 표시되고, 신뢰도 점수가 있으며, [0, 1] 색상이 차지하는 픽셀의 비율을 표시합니다.

객체 현지화 6

경계 상자가 있는 이미지
  • 단일 이미지에서 인식되는 여러 객체에 대해 일반 라벨 및 경계 상자 주석을 제공합니다.
  • 인식된 각 객체에 대해 텍스트 설명, 신뢰도 점수, 객체를 감싸는 경계 다각형의 정규화된 꼭짓점 [0,1] 등의 요소가 반환됩니다.

자르기 힌트 인식 7

잘린 버전이 있는 이미지
  • 각 요청의 원본 이미지를 바탕으로 잘린 이미지, 신뢰도 점수, 이 두드러진 영역의 중요도 비율을 제공합니다.
  • 단일 이미지에 최대 16개의 이미지 비율 값(너비:높이)을 제공할 수 있습니다.

웹 항목 및 페이지 8

웹 항목 표가 있는 이미지
  • 이미지와 관련된 여러 웹 콘텐츠를 제공합니다.
  • 다음 정보를 반환합니다.
    • 웹 항목: 웹상의 유사한 이미지에서 추론한 항목(라벨/설명)입니다.
    • 전체 일치 이미지: 크기에 제한 없이 인터넷상의 모든 이미지와 완전히 일치하는 URL의 목록입니다.
    • 부분 일치 이미지: 원본 이미지의 잘린 버전 등 핵심 특징을 공유하는 이미지의 URL 목록입니다.
    • 일치 이미지가 있는 페이지: 위에 설명된 조건을 충족하는 이미지가 있는 웹페이지(페이지 URL, 페이지 제목, 일치 이미지 URL로 식별)의 목록입니다.
    • 시각적으로 유사한 이미지: 원본 이미지의 일부 특징을 공유하는 이미지의 URL 목록입니다.
    • 최선의 추측 라벨: 인터넷상의 유사한 이미지에서 추론한 요청 이미지의 주제와 가장 가까운 라벨을 반환합니다.

명시적 콘텐츠 인식(세이프서치)

  • adult, spoof, medical, violence, racy 등의 명시적 콘텐츠 카테고리의 일치 가능성 평점을 제공합니다.
  • 일치 가능성 평점은 UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY, VERY_LIKELY의 6가지 값으로 표시됩니다.

1. 이미지 크레딧: 히만슈 싱 구자르, Unsplash(주석 추가됨)

2. 이미지 크레딧: 니코레이 보로비에, Unsplash(주석 추가됨)

3. 이미지 크레딧: 로버트 스코블 (CC BY 2.0, 주석 추가됨)

4. 이미지 크레딧: 알렉스 나이트, Unsplash

5. 이미지 크레딧: 제레미 비숍, Unsplash

6. 이미지 크레딧: 보그단 다다, Unsplash (주석 추가됨)

7. 이미지 크레딧: 야스민 당고, Unsplash(원본 및 잘린 이미지 표시)

8. 이미지 크레딧: 퀸텐 데 그라프, Unsplash