데이터 소스 준비

Vertex AI Feature Store를 사용하여 온라인으로 특성을 서빙하려면 먼저 다음과 같이 BigQuery에서 특성 데이터 소스를 설정해야 합니다.

  1. 특성 데이터를 사용하여 BigQuery 테이블 또는 뷰를 만듭니다. BigQuery 테이블 또는 뷰에 특성 데이터를 로드하려면 데이터를 사용하여 BigQuery 데이터 세트를 만들고 BigQuery 테이블을 만든 다음 데이터 세트에서 특성 데이터를 테이블로 로드하면 됩니다.

  2. BigQuery 테이블 또는 뷰에 특성 데이터를 로드한 후에는 온라인 서빙을 위해 이 데이터 소스를 Vertex AI Feature Store에 제공해야 합니다. 온라인 스토어 및 특성 뷰 인스턴스와 같은 두 가지 방법으로 데이터 소스를 온라인 서빙 리소스에 연결할 수 있습니다.

    • 특성 그룹과 특성을 만들어 데이터 소스 등록: 온라인 스토어의 특성 뷰 인스턴스와 특성 그룹 및 특성을 연결할 수 있습니다. 이 시나리오에서는 feature_timestamp 열을 포함하여 데이터의 형식을 시계열로 지정할 수 있습니다. Vertex AI Feature Store는 특성 타임스탬프를 기준으로 각 고유 항목 ID에 null이 아닌 최신 값만 서빙합니다. 특성 그룹을 만드는 방법에 대한 자세한 내용은 특성 그룹 만들기를 참조하세요. 특성 그룹 내에 특성을 만드는 방법에 대한 자세한 내용은 특성 만들기를 참조하세요.

    • 특성 그룹과 특성을 만들지 않고 데이터 소스에서 직접 특성 서빙: 특성 뷰에서 데이터 소스 URI를 지정할 수 있습니다. 이 시나리오에서는 데이터의 형식을 시계열로 지정하거나 BigQuery 소스에 이전 데이터를 포함할 수 없습니다. 각 행에는 고유 ID에 해당하는 최신 특성 값이 포함되어야 합니다. 여러 행에 동일한 항목 ID가 여러 번 나타나는 것은 지원되지 않습니다.

Vertex AI Feature Store를 사용하면 BigQuery에서 특성 데이터를 유지하고 BigQuery 데이터 소스에서 특성을 서빙할 수 있으므로 오프라인 스토어로 특성을 가져오거나 복사할 필요가 없습니다.

데이터 소스 준비 가이드라인

BigQuery에서 데이터 소스를 준비하는 동안 스키마 및 제약 조건을 이해하려면 다음 가이드라인을 따르세요.

  1. 데이터 소스에는 다음 열이 포함되어야 합니다.

    • string 값이 있는 항목 ID 열입니다. 이 열에 있는 각 값의 크기는 4KB 미만이어야 합니다.

      • 특성 그룹을 만들어 데이터 소스를 등록하는 경우 이 열의 이름은 entity_id여야 합니다. 특성 뷰를 만드는 동안 특성 그룹을 연결할 때는 항목 ID 열을 지정할 필요가 없습니다.

      • 데이터 소스 URI를 지정하여 특성 뷰를 만들려면 특성 뷰를 만드는 동안 이 열의 이름을 지정해야 합니다. 이 경우 이 열의 이름을 entity_id로 지정할 필요는 없습니다.

    • 특성 그룹과 특성을 사용하여 데이터 소스를 등록하는 경우 feature_timestamp 열을 포함하고 데이터의 형식을 시계열로 지정합니다. feature_timestamp 열에는 timestamp 유형의 값이 포함됩니다. 온라인 서빙 중에 Vertex AI Feature Store는 이 타임스탬프를 기준으로 null이 아닌 최신 특성 값을 서빙합니다.

    BigQuery 데이터 소스를 특성 뷰와 직접 연결하는 경우 feature_timestamp 열은 필요하지 않습니다. 이 시나리오에서는 데이터 소스의 최신 특성 값만 포함해야 하며 Vertex AI Feature Store는 타임스탬프를 조회하지 않습니다.

    • 온라인 스토어에서 임베딩 관리를 사용 설정하려면 데이터 소스에 다음 열이 포함되어야 합니다.

    • float 유형의 배열이 포함된 embedding

    • 선택사항: string 또는 string 배열 유형의 필터링 열 한 개 이상

    • 선택사항: int 유형의 크라우딩 열

  2. 데이터 소스의 각 행은 항목 ID와 연결된 특성 값의 전체 레코드입니다. 열 중 하나에 특성 값이 없으면 null 값으로 간주됩니다. 특성 뷰를 정의하는 방법에 따라 Vertex AI Feature Store에서 서빙하는 특성 값을 선택하는 방법에는 두 가지가 있습니다.

    • 특성 뷰가 특성 그룹과 특성을 기반으로 정의된 경우 Vertex AI Feature Store가 특성 타임스탬프를 사용하여 null이 아닌 최신 특성 값을 서빙합니다. 예를 들어 최신 타임스탬프에 해당하는 특정한 특성 값이 null이면 Vertex AI Feature Store가 이전 특성 값에서 null이 아닌 최신 값을 서빙합니다.

    • 특성 뷰가 BigQuery 데이터 소스를 직접 지정하여 정의된 경우 모든 행에 고유한 항목 ID가 포함되어야 합니다. 이 경우 Vertex AI Feature Store는 연결된 데이터 소스의 모든 특성 값을 서빙합니다.

  3. BigQuery 테이블 또는 뷰의 각 열은 특성을 나타냅니다. 각 특성 값을 별도의 열에 제공합니다. 데이터 소스를 특성 그룹 및 특성과 연결하는 경우 각 열을 별도의 특성과 연결합니다.

  4. 특성 값에 지원되는 데이터 유형에는 bool, int, float, string, timestamp, 이러한 데이터 유형의 배열, 바이트가 포함됩니다. 데이터 동기화 중에 timestamp 유형의 특성 값이 int64로 변환됩니다.

  5. 데이터 소스는 온라인 스토어 인스턴스와 동일한 리전 또는 온라인 스토어의 리전이 포함되거나 겹치는 멀티 리전에 있어야 합니다. 예를 들어 온라인 스토어가 us-central에 있으면 BigQuery 소스가 us-central 또는 US에 있을 수 있습니다.

  6. 최신 특성 값만 서빙하도록 온라인 서빙 전에 특성 뷰의 데이터를 동기화합니다.

다음 단계