소스 데이터 요구사항

Vertex Feature Store는 BigQuery의 테이블 또는 Cloud Storage의 파일에서 데이터를 수집할 수 있습니다. Cloud Storage의 파일은 Avro 또는 CSV 형식이어야 합니다.

각 항목(또는 행)은 다음 요구사항을 준수해야 합니다.

  • 항목 ID에 대한 열이 있어야 하며 값은 STRING 유형이어야 합니다. 이 열에는 특성 값이 있는 항목 ID가 포함됩니다.

  • 소스 데이터 값 유형은 featurestore의 대상 특성 값 유형과 일치해야 합니다. 예를 들어 부울 값은 BOOL 유형의 특성으로 수집되어야 합니다.

  • 모든 열에는 STRING 유형의 헤더가 있어야 합니다. 헤더 이름에는 제한사항이 없습니다.

    • BigQuery 테이블의 경우 열 헤더는 열 이름입니다.
    • Avro의 경우 열 헤더는 바이너리 데이터와 연결된 Avro 스키마로 정의됩니다.
    • CSV 파일의 경우 열 헤더는 첫 번째 행입니다.
  • 특성 생성 타임스탬프 열을 제공하는 경우 다음 타임스탬프 형식 중 하나를 사용합니다.

    • BigQuery 테이블의 경우 타임스탬프는 TIMESTAMP 열에 있어야 합니다.
    • Avro의 경우 타임스탬프는 long 및 논리적 유형 timestamp-micros 유형이어야 합니다.
    • CSV 파일의 경우 타임스탬프는 RFC 3339 형식이어야 합니다.
  • CSV 파일에는 배열 데이터 유형을 포함할 수 없습니다. 대신 Avro 또는 BigQuery를 사용하세요.

  • 배열 유형의 경우 배열에 null 값을 포함할 수 없습니다. 그러나 빈 배열을 포함할 수는 있습니다.

특성 값 타임스탬프

일괄 수집의 경우 Feature Store에는 수집되는 특성 값에 대해 사용자가 제공한 타임스탬프가 필요합니다. 각 값에 특정 타임스탬프를 지정하거나 모든 값에 동일한 타임스탬프를 지정할 수 있습니다.

  • 특성 값의 타임스탬프가 다른 경우 소스 데이터의 열에 타임스탬프를 지정합니다. 각 행에는 특성 값이 생성된 시점을 나타내는 자체 타임스탬프가 있어야 합니다. 수집 요청에서 타임스탬프 열을 식별하는 열 이름을 지정합니다.
  • 모든 특성 값의 타임스탬프가 동일한 경우 수집 요청에서 매개변수로 지정할 수 있습니다. 또한 소스 데이터의 열에 타임스탬프를 지정할 수도 있으며 여기서 각 행의 타임스탬프는 동일합니다.

데이터 소스 리전

소스 데이터가 BigQuery 또는 Cloud Storage에 있는 경우 소스 데이터 세트 또는 버킷은 featurestore와 동일한 리전 또는 동일한 멀티 리전 위치 내에 있어야 합니다. 예를 들어 us-central1의 featurestore는 us-central1 또는 US 멀티 리전 위치 내에 있는 Cloud Storage 버킷 또는 BigQuery 데이터 세트의 데이터만 수집할 수 있습니다. 예를 들어 us-east1에서는 데이터를 수집할 수 없습니다. 또한 이중 리전 버킷의 소스 데이터는 지원되지 않습니다.

다음 단계