소스 데이터 요구사항

일괄 가져오기의 경우 Vertex AI Feature Store(기존)는 BigQuery의 테이블 또는 Cloud Storage의 파일에서 데이터를 가져올 수 있습니다.

  • 전체 데이터 세트를 가져와야 하며 파티션 필터가 필요하지 않은 경우 BigQuery 테이블을 사용합니다.

  • 데이터 세트의 특정 하위 집합을 가져와야 하는 경우 BigQuery 뷰를 사용합니다. 이 옵션은 시간 효율이 높고 데이터에서 생성된 여러 테이블을 포함하여 전체 데이터 세트에서 특정 선택 항목을 가져올 수 있습니다.

  • Cloud Storage에서 가져온 파일에 포함된 데이터는 AVRO 또는 CSV 형식이어야 합니다.

스트리밍 가져오기의 경우 API 요청에서 가져올 특성 값을 제공합니다. 이러한 소스 데이터 요구사항은 적용되지 않습니다. 자세한 내용은 writeFeatureValues API 참조를 확인하세요.

각 항목(또는 행)은 다음 요구사항을 준수해야 합니다.

  • 항목 ID에 대한 열이 있어야 하며 값은 STRING 유형이어야 합니다. 이 열에는 특성 값이 있는 항목 ID가 포함됩니다.

  • 소스 데이터 값 유형은 featurestore의 대상 특성 값 유형과 일치해야 합니다. 예를 들어 부울 값은 BOOL 유형의 특성으로 가져와야 합니다.

  • 모든 열에는 STRING 유형의 헤더가 있어야 합니다. 헤더 이름에는 제한사항이 없습니다.

    • BigQuery 테이블 및 BigQuery 뷰의 경우, 열 헤더는 열 이름입니다.
    • AVRO의 경우 열 헤더는 이진 데이터와 연결된 AVRO 스키마로 정의됩니다.
    • CSV 파일의 경우 열 헤더는 첫 번째 행입니다.
  • 특성 생성 타임스탬프 열을 제공하는 경우 다음 타임스탬프 형식 중 하나를 사용합니다.

    • BigQuery 테이블 및 BigQuery 뷰의 경우 타임스탬프는 TIMESTAMP 열에 있어야 합니다.
    • Avro의 경우 타임스탬프는 long 유형 및 timestamp-micros 논리형이어야 합니다.
    • CSV 파일의 경우 타임스탬프는 RFC 3339 형식이어야 합니다.
  • CSV 파일에는 배열 데이터 유형을 포함할 수 없습니다. 대신 Avro 또는 BigQuery를 사용하세요.

  • 배열 유형의 경우 배열에 null 값을 포함할 수 없습니다. 그러나 빈 배열을 포함할 수는 있습니다.

특성 값 타임스탬프

일괄 가져오기의 경우 Vertex AI Feature Store(기존)에는 가져온 특성 값에 대해 사용자가 제공한 타임스탬프가 필요합니다. 각 값에 특정 타임스탬프를 지정하거나 모든 값에 동일한 타임스탬프를 지정할 수 있습니다.

  • 특성 값의 타임스탬프가 다른 경우 소스 데이터의 열에 타임스탬프를 지정합니다. 각 행에는 특성 값이 생성된 시점을 나타내는 자체 타임스탬프가 있어야 합니다. 가져오기 요청에서 타임스탬프 열을 식별하는 열 이름을 지정합니다.
  • 모든 특성 값의 타임스탬프가 동일한 경우 가져오기 요청에서 매개변수로 지정할 수 있습니다. 또한 소스 데이터의 열에 타임스탬프를 지정할 수도 있으며 여기서 각 행의 타임스탬프는 동일합니다.

데이터 소스 리전

소스 데이터가 BigQuery 또는 Cloud Storage에 있는 경우 소스 데이터 세트 또는 버킷은 featurestore와 동일한 리전 또는 동일한 멀티 리전 위치 내에 있어야 합니다. 예를 들어 us-central1의 featurestore는 us-central1 또는 US 멀티 리전 위치 내에 있는 Cloud Storage 버킷 또는 BigQuery 데이터 세트의 데이터만 가져올 수 있습니다. 예를 들어 us-east1에서는 데이터를 가져올 수 없습니다. 또한 이중 리전 버킷의 소스 데이터는 지원되지 않습니다.

다음 단계