Dengan Vertex AI, Anda dapat mengekspor kumpulan metadata dan anotasi dari
resource Dataset
. Kemampuan ini dapat berguna jika Anda ingin mempertahankan
kumpulan data tertentu dari perubahan, penambahan, atau penghapusan anotasi.
Saat Anda mengekspor Dataset
, Vertex AI akan membuat satu atau beberapa
Baris JSON
yang berisi metadata dan anotasi Dataset
, dan menyimpannya
File JSON Lines ke direktori Cloud Storage pilihan Anda.
Anda dapat mengekspor resource Dataset
gambar, teks, dan video. Anda tidak dapat mengekspor
resource Dataset
berbentuk tabel.
Mengekspor Dataset
tidak akan membuat salinan tambahan data gambar, teks, atau
video yang menjadi dasar Dataset
Anda. File JSON Lines yang dibuat oleh
proses ekspor mencakup URI Cloud Storage asli untuk data
yang Anda tentukan saat mengimpor data tersebut ke
Dataset
.
Ekspor Dataset
menggunakan Konsol Google Cloud atau API
Anda dapat menggunakan Konsol Google Cloud atau Vertex AI API untuk mengekspor Dataset
.
Ikuti langkah-langkah di tab yang sesuai:
Konsol
Di Konsol Google Cloud, di bagian Vertex AI, buka halaman Set Data.
Di menu drop-down Region, pilih lokasi tempat
Dataset
disimpan.Cari baris
Dataset
. Anda dapat mengekspor metadata dan anotasi untuk semua kumpulan anotasi atau untuk kumpulan anotasi tertentu:Jika Anda ingin mengekspor metadata dan anotasi untuk semua kumpulan anotasi
Dataset
, klik Tampilkan lainnya , lalu klik Ekspor set data.Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk setiap kumpulan anotasi.
Jika Anda ingin mengekspor metadata dan anotasi untuk kumpulan anotasi tertentu, lakukan hal berikut:
Klik Luaskan node
guna menampilkan baris untuk setiap kumpulan anotasiDataset
.Di baris kumpulan anotasi yang ingin Anda ekspor, klik Tampilkan lainnya
, lalu klik Ekspor kumpulan anotasi.
Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk kumpulan anotasi yang Anda tentukan.
Dalam dialog Ekspor data, masukkan direktori Cloud Storage tempat Anda ingin Vertex AI menyimpan file JSON Lines yang telah diekspor. Klik Ekspor.
REST
Dapatkan ID Dataset
Untuk mengekspor Dataset
, Anda harus mengetahui ID numerik Dataset
. Jika Anda
mengetahui nama tampilan Dataset
tetapi tidak mengetahui ID-nya, perluas bagian berikut
untuk mempelajari cara mendapatkan ID menggunakan API:
Mendapatkan ID Set Data dari nama tampilan
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
LOCATION: Lokasi tempat
Dataset
disimpan. Misalnya,us-central1
.PROJECT_ID: Project ID Anda.
DATASET_DISPLAY_NAME: Nama tampilan
Dataset
.
Metode HTTP dan URL:
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Jalankan perintah berikut:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME"
PowerShell
Jalankan perintah berikut:
$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME" | Select-Object -Expand Content
Contoh respons berikut telah dipotong dengan ...
untuk menekankan tempat
Anda dapat menemukan ID Dataset
: ID ini adalah angka yang menggantikan
DATASET_ID.
{ "datasets": [ { "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID", "displayName": "DATASET_DISPLAY_NAME", ... } ] }
Bisa juga dengan mendapatkanDataset
ID dari Konsol Google Cloud:
Buka halaman Set data Vertex AI lalu cari angkanya di
kolom ID.
Mengekspor satu atau beberapa kumpulan anotasi
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
LOCATION: Lokasi tempat
Dataset
disimpan. Misalnya,us-central1
.PROJECT_ID: Project ID Anda.
DATASET_ID: ID numerik
Dataset
.EXPORT_DIRECTORY: Cloud Storage URI (dimulai dengan
gs://
) dari direktori tempat Anda ingin Vertex AI menyimpan file JSON Lines yang telah diekspor. Folder ini harus berada di bucket Cloud Storage yang dapat Anda akses, tetapi direktorinya belum perlu ada.FILTER: String filter yang menentukan kumpulan anotasi yang akan diekspor.
Jika Anda ingin mengekspor metadata dan anotasi untuk semua kumpulan anotasi
Dataset
, ganti FILTER dengan suatu string kosong (atau hilangkan semuaannotationsFilter
dari isi permintaan). Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk setiap kumpulan anotasi.Jika Anda ingin mengekspor metadata dan anotasi untuk kumpulan anotasi tertentu,, ganti FILTER dengan elemen berikut ini:
labels.aiplatform.googleapis.com/annotation_set_name=ANNOTATION_SET_ID
Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk kumpulan anotasi dengan ID numerik ANNOTATION_SET_ID.
Untuk mencari ID numerik dari kumpulan anotasi yang ingin Anda tentukan, lihat anotasi yang disetel di Konsol Google Cloud lalu cari nilai setelah
annotationSetId
di URL.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:export
Isi JSON permintaan:
{ "exportConfig": { "gcsDestination": { "outputUriPrefix": "EXPORT_DIRECTORY" }, "annotationsFilter": "FILTER" } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:export"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:export" | Select-Object -Expand Content
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.ExportDataOperationMetadata", "genericMetadata": { "createTime": "2021-02-17T00:54:58.827429Z", "updateTime": "2021-02-17T00:54:58.827429Z" }, "gcsOutputDirectory": "EXPORT_DIRECTORY/export-data-DATASET_DISPLAY_NAME-2021-02-17T00:54:58.734772Z" } }
Beberapa permintaan memulai operasi yang berjalan lama, yang memerlukan waktu beberapa saat untuk selesai. Permintaan ini menampilkan nama operasi, yang dapat Anda gunakan untuk melihat status operasi atau membatalkan operasi. Vertex AI menyediakan metode helper untuk melakukan panggilan terhadap operasi yang berjalan lama. Untuk mengetahui informasi selengkapnya, lihat Menangani operasi yang berjalan lama.
Penjelasan tentang file yang diekspor
Dalam direktori ekspor yang telah Anda tentukan di bagian sebelumnya,
Vertex AI akan membuat direktori baru yang berlabel nama tampilan
Dataset
dan stempel waktu; misalnya,
export-data-DATASET_DISPLAY_NAME-2021-02-17T00:54:58.734772Z
.
Dalam direktori ini, Anda dapat menemukan subdirektori untuk setiap kumpulan anotasi yang
telah Anda ekspor.
Untuk setiap kumpulan anotasi, Anda dapat menemukan satu atau beberapa file JSON Lines. Setiap baris
dari setiap file JSON Lines mewakili item data dari kumpulan anotasi. Setiap item
data dapat berisi metadata dan anotasi yang telah Anda tentukan saat mengimpor
data
ke Vertex AI, serta metadata dan anotasi yang ditambahkan
setelah mengimpor data. Misalnya, jika Anda meminta pelabelan
data untuk Dataset
atau jika Anda
menambahkan label atau anotasi secara manual ke Dataset
di Konsol Google Cloud, informasi ini akan disertakan
dalam file yang diekspor.
Jika Anda mengekspor beberapa kumpulan anotasi, item data yang sama dapat muncul di
beberapa file JSON Lines. Misalnya, jika Anda mengekspor Dataset
gambar dengan
beberapa kumpulan anotasi, satu file JSON Lines mungkin berisi item data dengan
anotasi klasifikasi satu label; file JSON Lines lainnya untuk kumpulan anotasi
yang berbeda mungkin berisi item data yang sama, tetapi dengan anotasi
deteksi objek.
Format file yang diekspor cocok dengan format file impor JSON Lines
yang dapat Anda gunakan untuk
mengimpor data ke Vertex AI.
Format ini bergantung pada jenis data (gambar, tabel, teks, video) dan tujuan
(seperti pelacakan objek, ekstraksi entity, atau klasifikasi).
Misalnya, jika Anda mengekspor kumpulan anotasi untuk klasifikasi gambar
satu label, setiap baris dari setiap file JSON Lines akan diformat sesuai
dengan
file
skema
gs://google-cloud-aiplatform/schema/dataset/ioformat/image_classification_single_label_io_format_1.0.0.yaml
,
seperti yang dijelaskan dalam
Menyiapkan data gambar.
Untuk mempelajari lebih lanjut berbagai format JSON Lines untuk berbagai jenis kumpulan anotasi, lihat panduan berikut:
Langkah berikutnya
- Pelajari cara meminta pelabelan data.
- Baca selengkapnya tentang menggunakan set data di Vertex AI.