학습 데이터 준비

동영상 준비

  • AutoML Video Intelligence 객체 추적은 모델을 학습시키거나 예상 검색어를 요청할 때(동영상에 주석 달기) 다음과 같은 동영상 형식(아래 참조)을 지원합니다. 최대 파일 크기는 50GB입니다(최대 재생 시간 3시간). 컨테이너에 잘못된 또는 비어 있는 타임스탬프가 포함된 개별 동영상 파일은 지원되지 않습니다.

    • .MOV
    • .MPEG4
    • .MP4
    • .AVI
  • 학습 데이터는 예측을 수행할 데이터와 최대한 유사해야 합니다. 예를 들어 사용 사례에 보안 카메라 영상처럼 흐릿한 저해상도 동영상이 포함된다면 학습 데이터도 흐릿한 저해상도 동영상으로 구성해야 합니다. 또한 일반적으로 다양한 각도, 해상도, 배경으로 촬영한 학습 동영상을 제공하는 것이 좋습니다.

  • 인간이 지정할 수 없는 라벨은 AutoML Video Intelligence 객체 추적 모델도 일반적으로 예측할 수 없습니다. 따라서 동영상을 1~2초 보고 라벨을 지정하도록 사람을 학습시킬 수 없다면 이 모델도 그렇게 하도록 학습시킬 수 없습니다.

  • 라벨당 약 100개의 학습 동영상 프레임을 권장하며, 각 프레임에서 관심 있는 라벨의 모든 객체에 라벨이 지정됩니다. 라벨당 최소 경계 상자 수는 10개입니다.

  • 최소 경계 상자 크기: 10픽셀 x 10픽셀

  • 동영상 프레임 해상도가 1024픽셀 x 1024픽셀보다 훨씬 높을 경우 AutoML Video Intelligence 객체 추적의 프레임 정규화 과정 중에 일부 이미지 품질이 손실될 수 있습니다.

  • 가장 흔한 라벨의 프레임이 가장 흔하지 않은 라벨의 프레임보다 최대 100배 많을 때 모델의 성능이 가장 좋습니다. 빈도가 극히 낮은 라벨은 삭제하는 것이 좋습니다.

  • 각 고유 라벨은 3개 이상의 개별 동영상 프레임에 있어야 하며 최소 10개의 주석이 추가되어 있어야 합니다.

  • 각 데이터세트에서 라벨이 지정된 동영상 프레임의 최대 수는 현재 150,000개로 제한되어 있습니다.

  • 각 데이터세트에서 주석이 추가된 경계 상자의 최대 합계는 현재 1,000,000개로 제한되어 있습니다.

  • 각 데이터세트에서 최대 라벨 수는 현재 1,000개로 제한되어 있습니다.

학습 데이터세트와 평가 데이터세트

모델 학습 시 데이터세트의 데이터는 학습 데이터세트, 검증 데이터세트, 테스트 데이터세트라는 3가지 데이터세트로 나눠집니다.

학습 데이터세트는 모델을 구축하는 데 사용됩니다. 모델은 여러 가지 알고리즘과 매개변수를 시도하면서 학습 데이터의 패턴을 찾습니다. 모델은 패턴이 발견되면 검증 데이터세트를 사용하여 알고리즘과 패턴을 테스트합니다. 학습 단계에서 발견된 것 중에서 성능이 가장 우수한 알고리즘과 패턴이 선택됩니다.

성능이 가장 우수한 알고리즘과 패턴이 발견되었으면 테스트 데이터세트를 사용하여 오류율, 품질, 정확성을 테스트합니다.

모델의 편향을 방지하기 위해 검증 데이터세트와 테스트 데이터세트가 모두 사용됩니다. 검증 단계에서는 최적 모델 매개변수가 사용되므로 측정항목이 편향될 수 있습니다. 검증 단계 후에 테스트 데이터세트를 사용하여 모델의 품질을 평가하면 모델의 품질이 편향 없이 평가됩니다.

학습, 테스트, 유효성 검사 데이터를 확인하려면 다음 섹션에서 설명하는 CSV 파일을 사용하세요.

동영상 URI 및 라벨을 사용하여 CSV 파일 만들기

파일이 Google Cloud Storage에 업로드된 후에는 모든 학습 데이터와 해당 데이터의 카테고리 라벨을 나열하는 CSV 파일을 만들 수 있습니다. 이 CSV 파일의 파일 이름은 무엇이든 상관없지만 동영상 파일과 동일한 버킷에 있어야 하며, UTF-8로 인코딩되어야 하고 .csv 확장자로 끝나야 합니다.

모델을 학습시키고 확인하는 데 사용할 수 있는 파일은 다음 4가지입니다.

파일 설명
모델 학습 파일 목록

학습, 테스트, 유효성 검사 CSV 파일의 경로를 포함합니다.

이 파일은 학습 및 테스트 데이터를 설명하는 CSV 파일(최대 3개)의 위치를 식별하는 데 사용됩니다.

다음은 파일 목록 CSV 파일의 내용을 보여주는 몇 가지 예시입니다.

예 1:


TRAIN,gs://domestic-animals-track/horses/videos/train.csv
TEST,gs://domestic-animals-track/horses/videos/test.csv
UNASSIGNED,gs://domestic-animals-track/horses/videos/other.csv

예 2:


UNASSIGNED,gs://domestic-animals-track/horses/videos/all.csv
학습 데이터

모델을 학습시키는 데 사용됩니다. 동영상 파일의 경로, 라벨이 지정된 동영상 프레임의 타임스탬프, 객체 경계 상자 좌표, 객체 범주를 식별하는 라벨, 동영상 내에서 동영상 프레임의 객체 인스턴스를 식별하는 인스턴스 ID(선택사항)가 포함됩니다.

학습 데이터 CSV 파일을 지정하는 경우 테스트 데이터 CSV 파일도 지정해야 합니다.

테스트 데이터

학습 단계에서 모델을 테스트하는 데 사용됩니다. 학습 데이터와 동일한 필드가 포함됩니다.

학습 데이터 CSV 파일을 지정하는 경우 테스트 데이터 CSV 파일도 지정해야 합니다.

할당되지 않은 데이터

모델 학습 및 테스트 모두에 사용됩니다. 학습 데이터와 동일한 필드가 포함됩니다. 할당되지 않은 파일의 행은 자동으로 학습 및 테스트 데이터로 나뉩니다. 80%는 학습 데이터, 20%는 테스트 데이터로 분류됩니다.

학습 및 테스트 데이터 CSV 파일 없이 할당되지 않은 데이터 CSV 파일만 지정할 수 있습니다. 할당되지 않은 데이터 CSV 파일 없이 학습 및 테스트 데이터 CSV 파일만 지정할 수도 있습니다.

학습, 테스트 파일과 할당되지 않은 파일에는 업로드할 세트의 객체 경계 상자 한 개당 행이 한 개씩 포함되며, 각 행에는 다음과 같은 열이 있습니다.

  1. 분류하거나 주석을 달아야 할 내용. 이 필드에는 동영상의 Google Cloud Storage URI가 포함됩니다. Google Cloud Storage URI는 대소문자를 구분합니다.

  2. 객체가 분류되는 방법을 식별하는 라벨. 라벨은 문자로 시작해야 하며 문자, 숫자, 밑줄만 포함할 수 있습니다. AutoML Video Intelligence 객체 추적에서는 공백이 포함된 라벨도 사용할 수 있습니다.

  3. 동영상의 동영상 프레임에서 객체 인스턴스를 식별하는 인스턴스 ID(선택사항). 이 항목이 제공되면 AutoML Video Intelligence 객체 추적에서 객체 추적 미세 조정, 학습, 평가에 이를 사용합니다. 상이한 동영상 프레임에 존재하는 동일한 객체 인스턴스의 경계 상자에는 동일한 인스턴스 ID가 라벨로 지정됩니다. 인스턴스 ID는 각 동영상에서는 고유하지만 데이터세트에서는 고유하지 않습니다. 예를 들어, 두 동영상의 두 객체가 동일한 인스턴스 ID를 갖고 있다고 해서 동일한 객체 인스턴스는 아닙니다.

  4. 동영상의 시작 부분을 기준으로 재생 시간 오프셋을 나타내는 객체 경계 상자의 시간 오프셋(타임스탬프). 타임스탬프는 실수이며 단위는 초입니다.

  5. 동영상 프레임의 객체에 대한 경계 상자. 객체의 경계 상자는 2가지 방식으로 지정될 수 있습니다.

    • 직사각형의 대각선 반대 점일 경우 꼭짓점 2개만(x,y 좌표 조합으로 구성)(x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,,)
    • 또는 꼭짓점 4개 전부(x_relative_min,y_relative_min,x_relative_max,y_relative_min,x_relative_max,y_relative_max,x_relative_min,y_relative_max)

    vertex는 x, y 좌표 값으로 지정됩니다. 이러한 좌표는 0~1 범위의 실수이며, 0은 x 또는 y의 최솟값을 나타내고, 1은 x 또는 y의 최댓값을 나타냅니다.

    예를 들어 (0,0)은 왼쪽 상단 모서리를 나타내며, (1,1)은 오른쪽 하단 모서리를 나타냅니다. 전체 이미지의 경계 상자는 (0,0,,,1,1,,) 또는 (0,0,1,0,1,1,0,1)로 표현됩니다.

    AutoML Video Intelligence Object Tracking API는 특정한 꼭짓점 정렬을 요구하지 않습니다. 또한 4개의 지정된 꼭짓점이 이미지 모서리와 평행을 이루는 직사각형을 형성하지 않을 경우 AutoML Video Intelligence Object Tracking API는 이러한 직사각형을 형성하는 꼭짓점을 지정합니다.

다음은 CSV 데이터 파일의 몇 가지 예제 행입니다.

gs://folder/video1.avi,car,,12.90,.8,.2,,,.9,.3,,
gs://folder/video1.avi,bike,,12.50,.45,.45,,,.55,.55

The above rows use the following format, since the API assumes exactly two points
are rectangular diagonal vertices (top left vertex, bottom right vertex):

`video_path,label,[instance_id],timestamp,x_min,y_min,,,x_max,y_max,,`

The following format is also valid because it conveys the same information:

`video_path,label,[instance_id],timestamp,x_min,y_min,x_max,y_min,x_max,y_max,x_min,y_max`

and the example rows are:

gs://folder/video1.avi,car,,12.10,0.8,0.8,0.9,0.8,0.9,0.9,0.8,0.9
gs://folder/video1.avi,car,,12.90,0.4,0.8,0.5,0.8,0.5,0.9,0.4,0.9
gs://folder/video1.avi,car,,12.10,.4,.2,.5,.2,.5,.3,.4,.3

학습 데이터에는 1개 이상의 라벨이 있어야 합니다.

학습된 모델의 결과를 확인하기 위해 유효성 검사 데이터를 지정할 필요는 없습니다. AutoML Video Intelligence 객체 추적은 학습용으로 식별된 행을 자동으로 학습 데이터와 유효성 검사 데이터로 나눕니다. 80%는 학습 데이터, 20%는 유효성 검사 데이터로 분류됩니다.

내용을 Google Cloud Storage 버킷에 CSV 파일로 저장합니다.

일반적인 CSV 관련 오류

  • 라벨에 유니코드 문자 사용. 예를 들어 일본어 문자는 지원되지 않습니다.
  • 라벨에 공백 및 영숫자가 아닌 문자 사용
  • 빈 줄
  • 빈 열(줄에 쉼표가 연속으로 2개 나오는 경우)
  • Cloud Storage 동영상 경로의 대소문자 오류
  • 동영상 파일에 대한 액세스 제어 구성 오류. 서비스 계정에 읽기 이상의 액세스 권한이 있거나 파일이 공개 읽기가 가능한 상태여야 합니다.
  • 동영상이 아닌 파일(예: PDF 또는 PSD 파일)에 대한 참조. 마찬가지로 동영상 파일이 아니지만 동영상 파일처럼 확장자를 붙인 파일도 오류의 원인이 됩니다.
  • 동영상의 URI가 현재 프로젝트와 다른 버킷을 가리킵니다. 프로젝트 버킷에 있는 동영상만 액세스할 수 있습니다.
  • CSV 형식이 아닌 파일