Vertex AI 용어집

  • 주석 세트
    • 주석 세트는 데이터 세트 내의 업로드된 소스 파일과 연결된 라벨을 포함합니다. 주석 세트는 데이터 유형 및 목표(예: 동영상/분류)와 연결됩니다.
  • API 엔드포인트
    • API 엔드포인트는 서비스 엔드포인트라고도 하는 네트워크 주소를 지정하는 서비스 구성 요소입니다. (예: aiplatform.googleapis.com)
  • 최근접 이웃 검색(ANN)
    • 최근접 이웃 검색(ANN) 서비스는 대규모 코퍼스의 유사한 벡터(또는 더 구체적으로 '임베딩')를 찾기 위한 지연 시간이 짧은 대규모 솔루션입니다.
  • 아티팩트
    • 아티팩트는 머신러닝 워크플로에 의해 만들어지고 사용되는 개별 항목 또는 데이터입니다. 아티팩트의 예로는 데이터 세트, 모델, 입력 파일, 학습 로그가 포함됩니다.
  • Artifact Registry
    • Artifact Registry는 범용 아티팩트 관리 서비스입니다. Google Cloud에서 컨테이너와 기타 아티팩트를 관리하는 데 권장되는 서비스입니다. 자세한 내용은 Artifact Registry를 참조하세요.
  • 인증
    • 보안 시스템에 대한 액세스 권한을 얻기 위해 클라이언트(사용자 또는 다른 프로세스일 수 있음)의 ID를 확인하는 프로세스입니다. ID가 입증된 클라이언트는 인증되었다고 합니다. 자세한 내용은 Google 인증 방법을 참조하세요.
  • 배치 예측
    • 배치 예측은 예측 요청 그룹을 취하여 하나의 파일에 결과를 출력합니다. 자세한 내용은 배치 예측 가져오기를 참조하세요.
  • 경계 상자
    • 동영상 프레임의 객체에 대한 경계 상자는 두 가지 방식으로 지정될 수 있습니다. (i) x,y 좌표 조합으로 구성된 두 개의 꼭짓점을 사용합니다. 두 점은 직사각형의 대각선 반대 점이어야 합니다. (예: x_relative_min, y_relative_min, x_relative_max, y_relative_max). (ii) 4개 꼭짓점을 모두 사용합니다. 자세한 내용은 동영상 데이터 준비를 참조하세요.
  • 분류 측정항목
    • Python용 Vertex AI SDK에서 지원되는 분류 측정항목은 혼동 행렬 및 ROC 곡선입니다.
  • context
    • 컨텍스트는 쿼리가 가능하며 입력된 카테고리 하나에서 아티팩트와 실행을 그룹화하는 데 사용됩니다. 컨텍스트는 메타데이터 집합을 나타내는 데 사용될 수 있습니다. 컨텍스트의 예시로는 머신러닝 파이프라인 실행이 있습니다.
  • 고객 관리 암호화 키(CMEK)
    • 고객 관리 암호화 키(CMEK)는 고객이 Cloud KMS에서 관리하는 키(Storky라고도 함)를 사용하여 기존 Google 서비스의 데이터를 암호화할 수 있게 해주는 통합입니다. Cloud KMS의 키는 데이터를 보호하는 키 암호화 키입니다.
  • 데이터 세트
    • 데이터 세트는 구조화된 데이터 레코드 또는 구조화되지 않은 데이터 레코드의 모음으로 광범위하게 정의됩니다. 자세한 내용은 데이터 세트 만들기를 참조하세요.
  • 임베딩
    • 임베딩은 의미론적인 의미를 캡처하는 방식으로 데이터를 표현하는 데 사용되는 벡터 유형입니다. 임베딩은 일반적으로 머신러닝 기법을 사용하여 생성되며 자연어 처리(NLP) 및 기타 머신러닝 애플리케이션에서 자주 사용됩니다.
  • 이벤트
    • 이벤트는 아티팩트와 실행 간의 관계를 설명합니다. 각 아티팩트는 실행 하나로 생성될 수 있으며 다른 실행에서 아티팩트를 사용할 수 있습니다. 이벤트는 아티팩트와 실행을 연결하여 ML 워크플로에서 아티팩트 출처를 확인하는 데 도움이 됩니다.
  • 실행
    • 실행은 일반적으로 런타임 매개변수로 주석이 추가된 개별 머신러닝 워크플로 단계를 기록한 것입니다. 실행의 예로는 데이터 수집, 데이터 검증, 모델 학습, 모델 평가, 모델 배포가 포함됩니다.
  • 실험
    • 실험은 사용자가 입력 아티팩트 또는 초매개변수와 같은 다른 구성을 그룹으로 조사할 수 있는 파이프라인 실행에 더하여 n개의 실험 실행 집합을 포함할 수 있는 컨텍스트입니다.
  • 실험 실행
    • 실험 실행에는 사용자 정의 측정항목, 매개변수, 실행, 아티팩트, Vertex 리소스(예: PipelineJob)가 포함될 수 있습니다.
  • 탐색적 데이터 분석
    • 통계에서 탐색적 데이터 분석(EDA)은 많은 경우 시각적인 메서드로 데이터 세트를 분석하여 주요 특성을 요약하는 접근 방식입니다. 통계 모델이 사용되거나 사용되지 않을 수 있지만 EDA는 주로 데이터에 공식 모델링 또는 가설 테스트 작업으로 확인할 수 있는 것 이상으로 어떤 정보를 담고 있는지 확인하는 데 사용됩니다.
  • 기능
    • 머신러닝(ML)에서 특성은 ML 모델 학습이나 예측을 수행하기 위한 입력으로 사용되는 인스턴스 또는 항목의 특성 또는 속성입니다.
  • 특성 추출
    • 특성 추출은 원시 머신러닝(ML) 데이터를 ML 모델 학습이나 예측에 사용할 수 있는 특성으로 변환하는 프로세스입니다.
  • 특성 값
    • 특성 값은 인스턴스 또는 항목의 특성 (속성)의 실제 측정 가능한 값에 해당합니다. 고유 항목의 특성 값 컬렉션은 항목에 해당하는 특성 레코드를 나타냅니다.
  • 특성 서빙
    • 특성 서빙은 학습 또는 추론을 위해 특성 값을 내보내거나 가져오는 프로세스입니다. Vertex AI에는 온라인 서빙과 오프라인 서빙이라는 두 가지 유형의 특성 서빙이 있습니다. 온라인 서빙은 온라인 예측을 위해 특성 데이터 소스의 하위 집합에서 최신 특성 값을 검색합니다. 오프라인 서빙 또는 일괄 서빙은 ML 모델 학습과 같은 오프라인 처리를 위해 대량의 특성 데이터를 내보냅니다.
  • 특성 타임스탬프
    • 특성 타임스탬프는 항목의 특정 특성 레코드에 특성 값 집합이 생성된 시점을 나타냅니다.
  • 특성 레코드
    • 특성 레코드는 특정 시점에 고유한 항목의 속성을 설명하는 모든 특성 값을 집계한 것입니다.
  • 특성 레지스트리
    • 특성 레지스트리는 온라인 예측을 위해 서빙하려는 특성 데이터 소스를 기록하기 위한 중앙 인터페이스입니다.
  • 특성 그룹
    • 특성 그룹은 특성 데이터가 포함된 BigQuery 소스 테이블 또는 뷰에 해당하는 특성 레지스트리 리소스입니다. 특성 뷰에는 특성이 포함될 수 있으며 데이터 소스에 있는 특성 열을 논리적으로 묶은 그룹으로 간주될 수 있습니다.
  • 특성 뷰
    • 특성 뷰는 BigQuery 데이터 소스에서 온라인 스토어 인스턴스로 구체화된 특성을 논리적으로 묶은 컬렉션입니다. 특성 뷰는 BigQuery 소스에서 주기적으로 새로고침되는 고객의 특성 데이터를 저장하고 주기적으로 새로고침합니다. 특성 뷰는 특성 데이터 스토리지와 직접 연결되거나 특성 레지스트리 리소스에 대한 연결을 통해 연결됩니다.
  • Google Cloud 파이프라인 구성요소 SDK
    • Google Cloud 파이프라인 구성요소(GCPC) SDK는 프로덕션 품질, 성능, 사용하기 쉬운 사전 빌드된 Kubeflow Pipelines 구성요소 집합을 제공합니다. Google Cloud 파이프라인 구성요소를 사용하여 Vertex AI Pipelines 및 Kubeflow Pipelines를 준수하는 다른 ML 파이프라인 실행 백엔드에서 ML 파이프라인을 정의하고 실행할 수 있습니다. 자세한 내용은 을 참조하세요.
  • 히스토그램
    • 막대를 사용하여 데이터 세트의 변형을 그래픽으로 표시하는 방법입니다. 히스토그램은 숫자를 포함하는 간단한 테이블에서 감지하기 어려운 패턴을 시각화합니다.
  • 색인
    • 유사성 검색을 위해 함께 배포된 벡터 모음입니다. 벡터를 색인에 추가하거나 색인에서 삭제할 수 있습니다. 유사성 검색 쿼리는 특정 색인에 대해 실행되고 해당 색인의 벡터를 검색합니다.
  • 정답
    • 정답 데이터 세트와 같이 실제 세계에 대한 머신러닝의 정확도 확인을 나타내는 용어입니다.
  • 머신러닝 메타데이터
    • ML Metadata(MLMD)는 ML 개발자 및 데이터 과학자 워크플로와 관련된 메타데이터를 기록하고 검색하기 위한 라이브러리입니다. MLMD는 TensorFlow Extended(TFX)의 핵심 부분이지만 독립적으로 사용할 수 있도록 설계되었습니다. 더 광범위한 TFX 플랫폼의 일부로, 대부분의 사용자는 노트북 또는 텐서보드에서 파이프라인 구성요소의 결과를 검사할 때만 MLMD와 상호작용합니다.
  • 관리형 데이터 세트
    • Vertex AI에서 생성되고 호스팅되는 데이터 세트 객체입니다.
  • 메타데이터 리소스
    • Vertex ML Metadata는 ML 워크플로에서 생성되고 사용되는 메타데이터를 나타낼 수 있도록 그래프와 같은 데이터 모델을 노출합니다. 기본 개념은 아티팩트, 실행, 이벤트, 컨텍스트입니다.
  • MetadataSchema
    • MetadataSchema는 특정 유형의 아티팩트, 실행 또는 컨텍스트의 스키마를 설명합니다. MetadataSchema는 해당 메타데이터 리소스를 만드는 동안 키-값 쌍의 유효성을 검사하는 데 사용됩니다. 스키마 유효성 검사는 리소스와 MetadataSchema 간에 일치하는 필드에서만 수행됩니다. 유형 스키마는 YAML을 사용하여 설명해야 하는 OpenAPI 스키마 객체를 통해 표현됩니다.
  • MetadataStore
    • MetadataStore는 메타데이터 리소스의 최상위 컨테이너입니다. MetadataStore는 리전화되며 특정 Google Cloud 프로젝트와 연결됩니다. 일반적으로 조직은 각 프로젝트 내의 메타데이터 리소스에 공유 MetadataStore 하나를 사용합니다.
  • ML 파이프라인
    • ML 파이프라인은 컨테이너 기반의 이동성 및 확장성을 가진 ML 워크플로입니다.
  • model
    • 선행 학습 여부에 관계없이 모든 모델입니다.
  • 모델 리소스 이름
    • model의 리소스 이름은 다음과 같습니다. projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Cloud 콘솔의 'Model Registry' 페이지에서 모델 ID를 찾을 수 있습니다.
  • 오프라인 스토어
    • 오프라인 스토어는 일반적으로 ML 모델을 학습하는 데 사용되는 최근 및 이전 특성 데이터를 저장하는 스토리지 시설입니다. 오프라인 스토어에는 온라인 예측을 위해 서빙할 수 있는 최신 특성 값도 포함됩니다.
  • 온라인 스토어
    • 특성 관리에서 온라인 스토어는 온라인 예측을 위해 서빙할 수 있는 최신 특성 값을 위한 스토리지 시설입니다.
  • 매개변수
    • 매개변수는 실행을 구성하고, 실행 동작을 조정하고, 실행 결과에 영향을 주는 키가 지정된 입력 값입니다. 예를 들어 학습률, 드롭아웃 비율, 학습 단계 수가 있습니다.
  • pipeline
    • ML 파이프라인은 컨테이너 기반의 이동성 및 확장성을 가진 ML 워크플로입니다.
  • 파이프라인 구성요소
    • 데이터 전처리, 데이터 변환, 모델 학습과 같은 파이프라인 워크플로에서 한 단계를 수행하는 독립 실행형 코드 집합입니다.
  • 파이프라인 작업
    • Vertex 파이프라인 작업에 해당하는 Vertex AI API의 리소스입니다. 사용자는 Vertex AI에서 ML 파이프라인을 실행할 때 PipelineJob을 만듭니다.
  • 파이프라인 실행
    • 하나 이상의 Vertex PipelineJob이 각 파이프라인이 단일 실행으로 표시되는 실험과 연결될 수 있습니다. 이 컨텍스트에서 실행 매개변수는 PipelineJob의 매개변수에 의해 추론됩니다. 측정항목은 해당 PipelineJob에서 생성된 system.Metric 아티팩트에서 추론됩니다. 실행 아티팩트는 해당 PipelineJob에서 생성된 아티팩트에서 추론됩니다.
  • 파이프라인 템플릿
    • 단일 사용자 또는 여러 사용자가 여러 파이프라인 실행을 만들기 위해 재사용할 수 있는 ML 워크플로 정의입니다.
  • 재현율
    • 색인에서 반환한 실제 최근접 이웃의 비율입니다. 예를 들어 최근접 이웃 20개에 대한 최근접 이웃 쿼리에서 최근접 이웃 '정답'을 19개 반환하면 재현율은 19/20x100 = 95%가 됩니다.
  • 제한
    • 불리언 규칙을 사용하여 색인 하위 집합으로 검색을 '제한'하는 기능입니다. 제한을 "필터링"이라고도 부릅니다. 벡터 검색에서는 숫자 필터링 및 텍스트 속성 필터링을 사용할 수 있습니다.
  • 서비스 계정
    • Google Cloud에서 서비스 계정은 사람이 아닌 애플리케이션 또는 가상 머신(VM) 인스턴스에서 사용하는 특별한 유형의 계정입니다. 애플리케이션은 서비스 계정을 사용하여 승인된 API 호출을 만듭니다.
  • 요약 측정항목
    • 요약 측정항목은 실험 실행의 각 측정항목 키에 대한 단일 값입니다. 예를 들어 실험의 테스트 정확도는 학습 종료 시점에 테스트 데이터 세트를 기준으로 계산된 정확도로서 단일 값 요약 측정항목으로 캡처될 수 있습니다.
  • 텐서보드
    • 텐서보드는 TensorFlow 실행 및 모델을 시각화하고 이해할 수 있는 웹 애플리케이션 모음입니다. 자세한 내용은 텐서보드를 참조하세요.
  • 텐서보드 리소스 이름
    • 텐서보드 리소스 이름은 Vertex AI 텐서보드 인스턴스를 완전히 식별하는 데 사용됩니다. 형식은 projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID입니다.
  • 텐서보드 인스턴스
    • 텐서보드 인스턴스는 프로젝트와 연결된 Vertex AI 텐서보드 실험을 저장하는 리전별 리소스입니다. 예를 들어 여러 개의 CMEK가 사용 설정된 인스턴스를 원하는 경우 프로젝트에 여러 텐서보드 인스턴스를 만들 수 있습니다. 이는 API의 텐서보드 리소스와 동일합니다.
  • TensorFlow Extended(TFX)
    • Tensorflow 플랫폼을 기반으로 프로덕션 머신러닝 파이프라인을 배포하기 위한 엔드 투 엔드 플랫폼인 TensorFlow Extended(TFX)입니다.
  • 타임스탬프
    • 타임스탬프는 동영상의 시작을 기준으로 합니다.
  • 시간 세그먼트
    • 시간 세그먼트는 시작 및 종료 타임스탬프로 식별됩니다.
  • 시계열 측정항목
    • 시계열 측정항목은 세로 측정항목 값이며, 각 값은 실행의 학습 루틴 부분에서 단계를 나타냅니다. 시계열 측정항목은 Vertex AI 텐서보드에 저장됩니다. Vertex AI Experiments는 Vertex TensorBoard 리소스에 대한 참조를 저장합니다.
  • 토큰
    • 언어 모델의 토큰은 모델이 학습하고 예측을 수행하는 원자 단위, 즉 단어, 형태소, 문자입니다. 언어 모델 외부의 도메인에서 토큰은 다른 종류의 원자 단위를 나타낼 수 있습니다. 예를 들어 컴퓨터 비전에서 토큰은 이미지의 하위 집합일 수 있습니다.
  • 관리되지 않는 아티팩트
    • Vertex AI 컨텍스트 외부에 존재하는 아티팩트입니다.
  • 벡터
    • 벡터는 크기와 방향을 갖는 부동 소수점 값의 목록입니다. 숫자, 공간의 지점, 방향과 같은 모든 종류의 데이터를 나타내기 위해 사용할 수 있습니다.
  • Vertex AI Experiments
    • Vertex AI Experiments를 통해 사용자는 (i) 실험 실행 단계(예: 전처리, 학습), (ii) 입력(예: 알고리즘, 매개변수, 데이터 세트), (iii) 해당 단계의 출력(예: 모델, 체크포인트, 측정항목)을 추적할 수 있습니다.
  • Vertex AI 텐서보드 실험
    • 실험과 연결된 데이터를 텐서보드 웹 애플리케이션(스칼라, 히스토그램, 분포 등)에서 볼 수 있습니다. 시계열 스칼라는 Google Cloud 콘솔에서 볼 수 있습니다. 자세한 내용은 실행 비교 및 분석을 참조하세요.
  • Vertex AI SDK for Python
    • Vertex AI SDK for Python은 Vertex AI Python 클라이언트 라이브러리와 비슷한 기능을 제공하지만 SDK 수준이 더 높고 덜 세분화되어 있습니다.
  • Vertex 데이터 유형
    • Vertex AI 데이터 유형은 '이미지', '텍스트', '테이블 형식', '동영상'입니다.
  • 동영상 세그먼트
    • 동영상 세그먼트는 동영상의 시작 및 종료 타임스탬프로 식별됩니다.
  • Virtual Private Cloud(VPC)
    • Virtual Private Cloud는 퍼블릭 클라우드 환경에서 할당되는 구성 가능한 공유 컴퓨팅 리소스의 주문형 풀로, 이러한 리소스를 사용하는 여러 조직 간에 격리 수준을 제공합니다.