Mengekspor metadata dan anotasi dari set data

Dengan Vertex AI, Anda dapat mengekspor kumpulan metadata dan anotasi dari resource Dataset. Kemampuan ini dapat berguna jika Anda ingin mempertahankan data kumpulan perubahan, penambahan, atau penghapusan anotasi tertentu.

Saat Anda mengekspor Dataset, Vertex AI akan membuat satu atau beberapa file JSON Lines yang berisi metadata dan anotasi Dataset, lalu menyimpan file JSON Lines ini ke direktori Cloud Storage pilihan Anda.

Anda dapat mengekspor resource Dataset gambar, teks, dan video. Anda tidak dapat mengekspor resource Dataset berbentuk tabel.

Mengekspor Dataset tidak akan membuat salinan tambahan data gambar, teks, atau video yang menjadi dasar Dataset Anda. File JSON Lines yang dibuat oleh proses ekspor mencakup URI Cloud Storage asli untuk data yang Anda tentukan saat mengimpor data tersebut ke Dataset.

Ekspor Dataset menggunakan Konsol Google Cloud atau API

Anda dapat menggunakan Konsol Google Cloud atau Vertex AI API untuk mengekspor Dataset. Ikuti langkah-langkah di tab yang sesuai:

Konsol

  1. Di Konsol Google Cloud, di bagian Vertex AI, buka halaman Set Data.

    Buka halaman Set Data

  2. Di menu drop-down Region, pilih lokasi tempat Dataset disimpan.

  3. Cari baris Dataset. Anda dapat mengekspor metadata dan anotasi untuk semua kumpulan anotasi atau untuk kumpulan anotasi tertentu:

    • Jika Anda ingin mengekspor metadata dan anotasi untuk semua kumpulan anotasi Dataset, klik Tampilkan lainnya , lalu klik Ekspor set data.

      Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk setiap kumpulan anotasi.

    • Jika Anda ingin mengekspor metadata dan anotasi untuk kumpulan anotasi tertentu, lakukan hal berikut:

      1. Klik Luaskan node guna menampilkan baris untuk setiap kumpulan anotasi Dataset.

      2. Di baris kumpulan anotasi yang ingin Anda ekspor, klik Tampilkan lainnya , lalu klik Ekspor kumpulan anotasi.

      Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk kumpulan anotasi yang Anda tentukan.

  4. Dalam dialog Ekspor data, masukkan direktori Cloud Storage tempat Anda ingin Vertex AI menyimpan file JSON Lines yang telah diekspor. Klik Ekspor.

REST

Dapatkan ID Dataset

Untuk mengekspor Dataset, Anda harus mengetahui ID numerik Dataset. Jika Anda mengetahui nama tampilan Dataset tetapi tidak mengetahui ID-nya, perluas bagian berikut untuk mempelajari cara mendapatkan ID menggunakan API:

Dapatkan ID Dataset dari nama tampilannya

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Lokasi tempat Dataset disimpan. Misalnya, us-central1.

  • PROJECT_ID: Project ID Anda.

  • DATASET_DISPLAY_NAME: Nama tampilan Dataset.

Metode HTTP dan URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Jalankan perintah berikut:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME"

PowerShell

Jalankan perintah berikut:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME" | Select-Object -Expand Content

Contoh respons berikut telah dipotong dengan ... untuk menekankan tempat Anda dapat menemukan ID Dataset: ID ini adalah angka yang menggantikan DATASET_ID.

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID",
      "displayName": "DATASET_DISPLAY_NAME",
      ...
    }
  ]
}

Bisa juga dengan mendapatkanDataset ID dari Konsol Google Cloud: Buka halaman Set data Vertex AI lalu cari angkanya di kolom ID.

Buka halaman Set Data

Mengekspor satu atau beberapa kumpulan anotasi

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Lokasi tempat Dataset disimpan. Misalnya, us-central1.

  • PROJECT_ID: Project ID Anda.

  • DATASET_ID: ID numerik Dataset.

  • EXPORT_DIRECTORY: Cloud Storage URI (dimulai dengan gs://) dari direktori tempat Anda ingin Vertex AI menyimpan file JSON Lines yang telah diekspor. Folder ini harus berada di bucket Cloud Storage yang dapat Anda akses, tetapi direktorinya belum perlu ada.

  • FILTER: String filter yang menentukan kumpulan anotasi yang akan diekspor.

    • Jika Anda ingin mengekspor metadata dan anotasi untuk semua kumpulan anotasi Dataset, ganti FILTER dengan suatu string kosong (atau hilangkan semua annotationsFilter dari isi permintaan). Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk setiap kumpulan anotasi.

    • Jika Anda ingin mengekspor metadata dan anotasi untuk kumpulan anotasi tertentu,, ganti FILTER dengan elemen berikut ini:

      labels.aiplatform.googleapis.com/annotation_set_name=ANNOTATION_SET_ID
      

      Tindakan ini akan memerintahkan Vertex AI untuk membuat sekumpulan file JSON Lines untuk kumpulan anotasi dengan ID numerik ANNOTATION_SET_ID.

      Untuk mencari ID numerik dari kumpulan anotasi yang ingin Anda tentukan, lihat anotasi yang disetel di Konsol Google Cloud lalu cari nilai setelah annotationSetId di URL.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:export

Isi JSON permintaan:

{
  "exportConfig": {
    "gcsDestination": {
      "outputUriPrefix": "EXPORT_DIRECTORY"
    },
    "annotationsFilter": "FILTER"
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:export"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:export" | Select-Object -Expand Content

Anda akan melihat respons JSON seperti berikut:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.ExportDataOperationMetadata",
    "genericMetadata": {
      "createTime": "2021-02-17T00:54:58.827429Z",
      "updateTime": "2021-02-17T00:54:58.827429Z"
    },
    "gcsOutputDirectory": "EXPORT_DIRECTORY/export-data-DATASET_DISPLAY_NAME-2021-02-17T00:54:58.734772Z"
  }
}

Beberapa permintaan memulai operasi yang berjalan lama, yang memerlukan waktu beberapa saat untuk selesai. Permintaan ini menampilkan nama operasi, yang dapat Anda gunakan untuk melihat status operasi atau membatalkan operasi. Vertex AI menyediakan metode helper untuk melakukan panggilan terhadap operasi yang berjalan lama. Untuk mengetahui informasi selengkapnya, lihat Menangani operasi yang berjalan lama.

Penjelasan tentang file yang diekspor

Dalam direktori ekspor yang telah Anda tentukan di bagian sebelumnya, Vertex AI akan membuat direktori baru yang berlabel nama tampilan Dataset dan stempel waktu; misalnya, export-data-DATASET_DISPLAY_NAME-2021-02-17T00:54:58.734772Z. Dalam direktori ini, Anda dapat menemukan subdirektori untuk setiap kumpulan anotasi yang telah Anda ekspor.

Untuk setiap kumpulan anotasi, Anda dapat menemukan satu atau beberapa file JSON Lines. Setiap baris dari setiap file JSON Lines mewakili item data dari kumpulan anotasi. Setiap item data dapat berisi metadata dan anotasi yang telah Anda tentukan saat mengimpor data ke Vertex AI, serta metadata dan anotasi yang ditambahkan setelah mengimpor data. Misalnya, jika Anda meminta pelabelan data untuk Dataset atau jika Anda menambahkan label atau anotasi secara manual ke Dataset di Konsol Google Cloud, informasi ini akan disertakan dalam file yang diekspor.

Jika Anda mengekspor beberapa kumpulan anotasi, item data yang sama dapat muncul di beberapa file JSON Lines. Misalnya, jika Anda mengekspor Dataset gambar dengan beberapa kumpulan anotasi, satu file JSON Lines mungkin berisi item data dengan anotasi klasifikasi satu label; file JSON Lines lainnya untuk kumpulan anotasi yang berbeda mungkin berisi item data yang sama, tetapi dengan anotasi deteksi objek.

Format file yang diekspor cocok dengan format file impor JSON Lines yang dapat Anda gunakan untuk mengimpor data ke Vertex AI. Format ini bergantung pada jenis data (gambar, tabel, teks, video) dan tujuan (seperti pelacakan objek, ekstraksi entity, atau klasifikasi). Misalnya, jika Anda mengekspor kumpulan anotasi untuk klasifikasi gambar satu label, setiap baris dari setiap file JSON Lines akan diformat sesuai dengan file skema gs://google-cloud-aiplatform/schema/dataset/ioformat/image_classification_single_label_io_format_1.0.0.yaml, seperti yang dijelaskan dalam Menyiapkan data gambar.

Untuk mempelajari lebih lanjut berbagai format JSON Lines untuk berbagai jenis kumpulan anotasi, lihat panduan berikut:

Langkah selanjutnya