Vertex AI SDK menyertakan class yang menyimpan dan membaca data yang digunakan untuk melatih sebuah model. Setiap class yang berkaitan dengan data mewakili set data yang dikelola oleh Vertex AI yang memiliki data terstruktur, data tidak terstruktur, atau data Vertex AI Feature Store. Setelah membuat set data, Anda dapat menggunakannya untuk melatih model Anda.
Topik berikut ini memberikan penjelasan singkat tentang setiap class terkait data yang berada di dalam Vertex AI SDK. Topik untuk setiap class menyertakan contoh kode yang menunjukkan cara untuk membuat instance class tersebut. Setelah membuat set data, Anda dapat menggunakan ID-nya untuk mengambilnya:
dataset = aiplatform.ImageDataset('projects/my-project/location/my-region/datasets/{DATASET_ID}')
Class data terstruktur
Class berikut ini menggunakan data terstruktur, yang diatur di dalam baris dan kolom. Data terstruktur sering digunakan untuk menyimpan angka, tanggal, nilai, dan string.
TabularDataset
Gunakan class ini untuk bekerja dengan set data berbentuk tabulasi. Anda dapat menggunakan file CSV,
BigQuery, atau pandas
DataFrame
untuk membuat set data tabulasi. Untuk mengetahui informasi selengkapnya tentang penomoran halaman data BigQuery, lihat Membaca data dengan BigQuery API menggunakan penomoran halaman.
Untuk informasi selengkapnya tentang data tabel, lihat
Data tabel.
Kode berikut ini menunjukkan cara membuat set data tabel dengan mengimpor file CSV.
my_dataset = aiplatform.TabularDataset.create(
display_name="my-dataset", gcs_source=['gs://path/to/my/dataset.csv'])
Kode berikut menunjukkan cara membuat set data tabel dengan mengimpor file CSV dalam dua langkah yang berbeda.
my_dataset = aiplatform.TextDataset.create(
display_name="my-dataset")
my_dataset.import(
gcs_source=['gs://path/to/my/dataset.csv']
import_schema_uri=aiplatform.schema.dataset.ioformat.text.multi_label_classification
)
Jika Anda membuat set data tabulasi dengan pandas
DataFrame
,
Anda harus menggunakan tabel BigQuery untuk menata datanya bagi Vertex AI:
my_dataset = aiplatform.TabularDataset.create_from_dataframe(
df_source=my_pandas_dataframe,
staging_path=f"bq://{bq_dataset_id}.table-unique"
)
TimeSeriesDataset
Gunakan class ini untuk mengerjakan set data deret waktu. Deret waktu adalah set data yang berisi data yang dicatat pada interval waktu yang berbeda-beda. Set data mencakup waktu, dan setidaknya satu variabel yang bergantung pada waktu. Anda menggunakan set data deret waktu untuk prediksi perkiraan. Untuk informasi selengkapnya, lihat Ringkasan perkiraan.
Anda dapat membuat set data deret waktu terkelola dari file CSV dalam bucket Cloud Storage atau dari tabel BigQuery.
Kode berikut menunjukkan cara membuat TimeSeriesDataset
dengan mengimpor
file sumber data CSV yang memiliki set data deret waktu:
my_dataset = aiplatform.TimeSeriesDataset.create(
display_name="my-dataset", gcs_source=['gs://path/to/my/dataset.csv'])
Kode berikut menunjukkan cara membuat TimeSeriesDataset
dengan mengimpor
file tabel BigQuery yang memiliki set data deret waktu:
my_dataset = aiplatform.TimeSeriesDataset.create(
display_name="my-dataset", bq_source=['bq://path/to/my/bigquerydataset.train'])
Class data tidak terstruktur
Class berikut ini berfungsi dengan data tidak terstruktur, yang tidak dapat disimpan di dalam database relasional tradisional. Data ini sering disimpan sebagai file audio, teks, video, atau sebagai database NoSQL.
ImageDataset
Gunakan class ini untuk menangani set data gambar terkelola. Untuk membuat set data gambar terkelola, Anda memerlukan file sumber data dalam format CSV, dan file skema dalam format YAML. Skema bersifat opsional untuk model kustom. File CSV dan skema diakses di dalam bucket Cloud Storage.
Gunakan data gambar untuk tujuan berikut ini:
- Mengklasifikasi label tunggal. Untuk informasi selengkapnya, lihat Menyiapkan data pelatihan gambar untuk klasifikasi label tunggal.
- Mengklasifikasi multi-label. Untuk informasi selengkapnya, lihat Menyiapkan data pelatihan gambar untuk klasifikasi multi-label.
- Mendeteksi objek. Untuk informasi selengkapnya, lihat Menyiapkan data pelatihan gambar untuk deteksi objek.
Kode berikut ini menunjukkan cara membuat set data gambar dengan mengimpor file sumber data CSV, dan file skema YAML. File skema yang Anda gunakan bergantung pada apakah set data gambar Anda digunakan untuk klasifikasi label tunggal, klasifikasi multi-label, atau deteksi objek.
my_dataset = aiplatform.ImageDataset.create(
display_name="my-image-dataset",
gcs_source=['gs://path/to/my/image-dataset.csv'],
import_schema_uri=['gs://path/to/my/schema.yaml']
)
TextDataset
Gunakan class ini untuk menangani set data teks terkelola. Untuk membuat set data teks, Anda memerlukan sumber data dalam format CSV, dan skema dalam format YAML. Skema bersifat opsional untuk model kustom. File CSV dan skema diakses di bucket Cloud Storage.
Gunakan data teks untuk tujuan berikut ini:
- Mengklasifikasi. Untuk informasi selengkapnya, lihat Menyiapkan data pelatihan teks untuk klasifikasi.
- Mengekstraksi entity Untuk informasi selengkapnya, lihat Menyiapkan data pelatihan teks untuk ekstraksi entity.
- Menganalisis sentimen. Untuk informasi selengkapnya, lihat Menyiapkan data pelatihan teks untuk analisis sentimen.
Kode berikut menunjukkan cara membuat set data teks dengan mengimpor file sumber data CSV dan file skema YAML. File skema yang Anda gunakan bergantung pada apakah set data teks Anda digunakan untuk klasifikasi, ekstraksi entity, atau analisis sentimen.
my_dataset = aiplatform.TextDataset.create(
display_name="my-image-dataset",
gcs_source=['gs://path/to/my/text-dataset.csv'],
import_schema_uri=['gs://path/to/my/schema.yaml']
)
VideoDataset
Gunakan class ini untuk menangani set data video terkelola. Untuk membuat set data video, Anda memerlukan file sumber data CSV dan skema dalam format YAML. File CSV dan skema diakses di dalam bucket Cloud Storage.
Gunakan data video untuk tujuan berikut ini:
- Mengklasifikasi. Untuk informasi selengkapnya, lihat File skema klasifikasi.
- Pengenalan tindakan. Untuk informasi selengkapnya, lihat File skema pengenalan tindakan.
- Pelacakan objek. Untuk informasi lebih lanjut, lihat File skema pelacakan objek.
Kode berikut menunjukkan cara membuat set data untuk melatih model klasifikasi video dengan mengimpor file sumber data CSV. File skema yang Anda gunakan bergantung pada apakah Anda menggunakan set data video untuk klasifikasi tindakan, pengenalan, atau pelacakan objek.
my_dataset = aiplatform.VideoDataset.create(
gcs_source=['gs://path/to/my/dataset.csv'],
import_schema_uri=['gs://aip.schema.dataset.ioformat.video.classification.yaml']
)
Class data Vertex AI Feature Store
Vertex AI Feature Store adalah layanan terkelola yang digunakan untuk menyimpan, menyajikan, mengelola, dan berbagi fitur ML dalam skala yang besar.
Vertex AI Feature Store menggunakan model data deret waktu yang terdiri dari tiga class yang mengelola fitur yang terus menerus berubah dari waktu ke waktu. Ketiga class tersebut diatur dalam urutan hierarki berikut ini:
Untuk informasi selengkapnya tentang model data Vertex AI Feature Store, lihat Model dan resource data. Untuk mempelajari persyaratan sumber data Vertex AI Feature Store, lihat Persyaratan data sumber.
Class berikut ini digunakan dengan data Vertex AI Feature Store:
Featurestore
Resource featurestore, yang diwakili oleh class Featurestore
, adalah
class level teratas dalam hierarki model data Vertex AI Feature Store.
Resource tingkat berikutnya di dalam model data adalah jenis entity, yang merupakan kumpulan
fitur yang terkait secara semantik yang Anda buat. Berikut adalah beberapa
metode Featurestore
yang berfungsi dengan jenis entity:
Membuat jenis entity
Gunakan
Featurestore
.Metode create_entity_type
dengan entity_type_id
untuk membuat resource jenis entity. Resource
jenis entity diwakili oleh class EntityType
. entity_type_id
bersifat
alfanumerik, dan harus bersifat unik di featurestore. Berikut ini adalah contoh
cara untuk membuat jenis entity:
entity_type = aiplatform.featurestore.create_entity_type(
entity_type_id=my_entity_type_name, description=my_entity_type_description
)
Menyajikan jenis entity
Gunakan salah satu dari tiga metode Featurestore
untuk menyajikan
item data entity:
batch_serve_to_bq
menyajikan data ke tabel BigQuery.batch_serve_to_df
menyajikan data keDataFrame
pandas.batch_serve_to_gcs
menyajikan data ke file CSV, atau fileTFRecord
TensorFlow.
EntityType
Class EntityType
mewakili resource jenis
entity, yang merupakan kumpulan fitur yang terkait secara semantik yang Anda
tentukan. Misalnya, layanan musik mungkin memiliki jenis entity
musical_artist
dan user
. Anda dapat menggunakan metode
FeatureStore.create_entity_type
, atau
metode
EntityType.create
untuk membuat jenis entity. Kode berikut ini menunjukkan cara untuk menggunakan
EntityType.create
:
entity_type = aiplatform.EntityType.create(
entity_type_id=my_entity_type_name, featurestore_name=featurestore_name
)
Feature
Class Feature
mewakili resource fitur yang
merupakan properti, atau atribut terukur dari suatu jenis entity. Misalnya,
jenis entitas musical_artist
mungkin memiliki fitur, seperti date_of_birth
dan
last_name
, untuk melacak berbagai properti artis musik. Fitur harus
bersifat unik untuk suatu jenis entity, tetapi tidak harus unik secara global.
Saat membuat Feature
, Anda harus menentukan jenis
nilainya (misalnya, BOOL_ARRAY
, DOUBLE
, DOUBLE_ARRAY
, atau STRING
). Kode
berikut ini menunjukkan contoh cara untuk membuat fitur:
my_feature = aiplatform.Feature.create(
feature_id='my_feature_id',
value_type='INT64',
entity_type_name='my_entity_type_id',
featurestore_id='my_featurestore_id',
)
Langkah berikutnya
- Pelajari Vertex AI SDK.