Kelas data

Vertex AI SDK menyertakan class yang menyimpan dan membaca data yang digunakan untuk melatih sebuah model. Setiap class yang berkaitan dengan data mewakili set data yang dikelola oleh Vertex AI yang memiliki data terstruktur, data tidak terstruktur, atau data Vertex AI Feature Store. Setelah membuat set data, Anda dapat menggunakannya untuk melatih model Anda.

Topik berikut ini memberikan penjelasan singkat tentang setiap class terkait data yang berada di dalam Vertex AI SDK. Topik untuk setiap class menyertakan contoh kode yang menunjukkan cara untuk membuat instance class tersebut. Setelah membuat set data, Anda dapat menggunakan ID-nya untuk mengambilnya:

dataset = aiplatform.ImageDataset('projects/my-project/location/my-region/datasets/{DATASET_ID}')

Class data terstruktur

Class berikut ini menggunakan data terstruktur, yang diatur di dalam baris dan kolom. Data terstruktur sering digunakan untuk menyimpan angka, tanggal, nilai, dan string.

TabularDataset

Gunakan class ini untuk bekerja dengan set data berbentuk tabulasi. Anda dapat menggunakan file CSV, BigQuery, atau pandas DataFrame untuk membuat set data tabulasi. Untuk mengetahui informasi selengkapnya tentang penomoran halaman data BigQuery, lihat Membaca data dengan BigQuery API menggunakan penomoran halaman. Untuk informasi selengkapnya tentang data tabel, lihat Data tabel.

Kode berikut ini menunjukkan cara membuat set data tabel dengan mengimpor file CSV.

my_dataset = aiplatform.TabularDataset.create(
    display_name="my-dataset", gcs_source=['gs://path/to/my/dataset.csv'])

Kode berikut menunjukkan cara membuat set data tabel dengan mengimpor file CSV dalam dua langkah yang berbeda.

my_dataset = aiplatform.TextDataset.create(
    display_name="my-dataset")

my_dataset.import(
    gcs_source=['gs://path/to/my/dataset.csv']
    import_schema_uri=aiplatform.schema.dataset.ioformat.text.multi_label_classification
)

Jika Anda membuat set data tabulasi dengan pandas DataFrame, Anda harus menggunakan tabel BigQuery untuk menata datanya bagi Vertex AI:

my_dataset = aiplatform.TabularDataset.create_from_dataframe(
    df_source=my_pandas_dataframe,
    staging_path=f"bq://{bq_dataset_id}.table-unique"
)

TimeSeriesDataset

Gunakan class ini untuk mengerjakan set data deret waktu. Deret waktu adalah set data yang berisi data yang dicatat pada interval waktu yang berbeda-beda. Set data mencakup waktu, dan setidaknya satu variabel yang bergantung pada waktu. Anda menggunakan set data deret waktu untuk prediksi perkiraan. Untuk informasi selengkapnya, lihat Ringkasan perkiraan.

Anda dapat membuat set data deret waktu terkelola dari file CSV dalam bucket Cloud Storage atau dari tabel BigQuery.

Kode berikut menunjukkan cara membuat TimeSeriesDataset dengan mengimpor file sumber data CSV yang memiliki set data deret waktu:

my_dataset = aiplatform.TimeSeriesDataset.create(
    display_name="my-dataset", gcs_source=['gs://path/to/my/dataset.csv'])

Kode berikut menunjukkan cara membuat TimeSeriesDataset dengan mengimpor file tabel BigQuery yang memiliki set data deret waktu:

my_dataset = aiplatform.TimeSeriesDataset.create(
    display_name="my-dataset", bq_source=['bq://path/to/my/bigquerydataset.train'])

Class data tidak terstruktur

Class berikut ini berfungsi dengan data tidak terstruktur, yang tidak dapat disimpan di dalam database relasional tradisional. Data ini sering disimpan sebagai file audio, teks, video, atau sebagai database NoSQL.

ImageDataset

Gunakan class ini untuk menangani set data gambar terkelola. Untuk membuat set data gambar terkelola, Anda memerlukan file sumber data dalam format CSV, dan file skema dalam format YAML. Skema bersifat opsional untuk model kustom. File CSV dan skema diakses di dalam bucket Cloud Storage.

Gunakan data gambar untuk tujuan berikut ini:

Kode berikut ini menunjukkan cara membuat set data gambar dengan mengimpor file sumber data CSV, dan file skema YAML. File skema yang Anda gunakan bergantung pada apakah set data gambar Anda digunakan untuk klasifikasi label tunggal, klasifikasi multi-label, atau deteksi objek.

my_dataset = aiplatform.ImageDataset.create(
    display_name="my-image-dataset",
    gcs_source=['gs://path/to/my/image-dataset.csv'],
    import_schema_uri=['gs://path/to/my/schema.yaml']
    )

TextDataset

Gunakan class ini untuk menangani set data teks terkelola. Untuk membuat set data teks, Anda memerlukan sumber data dalam format CSV, dan skema dalam format YAML. Skema bersifat opsional untuk model kustom. File CSV dan skema diakses di bucket Cloud Storage.

Gunakan data teks untuk tujuan berikut ini:

Kode berikut menunjukkan cara membuat set data teks dengan mengimpor file sumber data CSV dan file skema YAML. File skema yang Anda gunakan bergantung pada apakah set data teks Anda digunakan untuk klasifikasi, ekstraksi entity, atau analisis sentimen.

my_dataset = aiplatform.TextDataset.create(
    display_name="my-image-dataset",
    gcs_source=['gs://path/to/my/text-dataset.csv'],
    import_schema_uri=['gs://path/to/my/schema.yaml']
    )

VideoDataset

Gunakan class ini untuk menangani set data video terkelola. Untuk membuat set data video, Anda memerlukan file sumber data CSV dan skema dalam format YAML. File CSV dan skema diakses di dalam bucket Cloud Storage.

Gunakan data video untuk tujuan berikut ini:

Kode berikut menunjukkan cara membuat set data untuk melatih model klasifikasi video dengan mengimpor file sumber data CSV. File skema yang Anda gunakan bergantung pada apakah Anda menggunakan set data video untuk klasifikasi tindakan, pengenalan, atau pelacakan objek.

my_dataset = aiplatform.VideoDataset.create(
    gcs_source=['gs://path/to/my/dataset.csv'],
    import_schema_uri=['gs://aip.schema.dataset.ioformat.video.classification.yaml']
)

Class data Vertex AI Feature Store

Vertex AI Feature Store adalah layanan terkelola yang digunakan untuk menyimpan, menyajikan, mengelola, dan berbagi fitur ML dalam skala yang besar.

Vertex AI Feature Store menggunakan model data deret waktu yang terdiri dari tiga class yang mengelola fitur yang terus menerus berubah dari waktu ke waktu. Ketiga class tersebut diatur dalam urutan hierarki berikut ini:

Hierarki class Vertex AI Feature Store

Untuk informasi selengkapnya tentang model data Vertex AI Feature Store, lihat Model dan resource data. Untuk mempelajari persyaratan sumber data Vertex AI Feature Store, lihat Persyaratan data sumber.

Class berikut ini digunakan dengan data Vertex AI Feature Store:

Featurestore

Resource featurestore, yang diwakili oleh class Featurestore, adalah class level teratas dalam hierarki model data Vertex AI Feature Store. Resource tingkat berikutnya di dalam model data adalah jenis entity, yang merupakan kumpulan fitur yang terkait secara semantik yang Anda buat. Berikut adalah beberapa metode Featurestore yang berfungsi dengan jenis entity:

Membuat jenis entity

Gunakan Featurestore.Metode create_entity_type dengan entity_type_id untuk membuat resource jenis entity. Resource jenis entity diwakili oleh class EntityType. entity_type_id bersifat alfanumerik, dan harus bersifat unik di featurestore. Berikut ini adalah contoh cara untuk membuat jenis entity:

entity_type = aiplatform.featurestore.create_entity_type(
        entity_type_id=my_entity_type_name, description=my_entity_type_description
        )

Menyajikan jenis entity

Gunakan salah satu dari tiga metode Featurestore untuk menyajikan item data entity:

EntityType

Class EntityType mewakili resource jenis entity, yang merupakan kumpulan fitur yang terkait secara semantik yang Anda tentukan. Misalnya, layanan musik mungkin memiliki jenis entity musical_artist dan user. Anda dapat menggunakan metode FeatureStore.create_entity_type, atau metode EntityType.create untuk membuat jenis entity. Kode berikut ini menunjukkan cara untuk menggunakan EntityType.create:

entity_type = aiplatform.EntityType.create(
        entity_type_id=my_entity_type_name, featurestore_name=featurestore_name
    )

Feature

Class Feature mewakili resource fitur yang merupakan properti, atau atribut terukur dari suatu jenis entity. Misalnya, jenis entitas musical_artist mungkin memiliki fitur, seperti date_of_birth dan last_name, untuk melacak berbagai properti artis musik. Fitur harus bersifat unik untuk suatu jenis entity, tetapi tidak harus unik secara global.

Saat membuat Feature, Anda harus menentukan jenis nilainya (misalnya, BOOL_ARRAY, DOUBLE, DOUBLE_ARRAY, atau STRING). Kode berikut ini menunjukkan contoh cara untuk membuat fitur:

my_feature = aiplatform.Feature.create(
    feature_id='my_feature_id',
    value_type='INT64',
    entity_type_name='my_entity_type_id',
    featurestore_id='my_featurestore_id',
)

Langkah berikutnya