Halaman ini menunjukkan cara membuat set data Vertex AI dari data teks sehingga Anda dapat mulai melatih model ekstraksi entity. Anda dapat membuat set data menggunakan Konsol Google Cloud atau Vertex AI API.
Sebelum memulai
Sebelum dapat membuat set data Vertex AI dari data teks, Anda harus menyiapkan data teks.
Membuat set data kosong, dan mengimpor atau mengaitkan data
Konsol Google Cloud
Gunakan petunjuk berikut untuk membuat set data kosong, lalu mengimpor atau mengaitkan data Anda.
- Di konsol Google Cloud, di bagian Vertex AI, buka halaman Set Data.
- Klik Buat untuk membuka halaman detail pembuatan set data.
- Ubah kolom Nama set data untuk membuat nama tampilan set data deskriptif.
- Pilih tab Text.
- Pilih Ekstraksi entity.
- Pilih region dari menu drop-down Region.
- Klik Create untuk membuat set data kosong, dan lanjutkan ke halaman impor data.
- Pilih salah satu opsi berikut dari bagian Select an import method:
Mengupload data dari komputer Anda
- Di bagian Pilih metode impor, pilih untuk mengupload data dari komputer Anda.
- Klik Pilih file dan pilih semua file lokal yang akan diupload ke bucket Cloud Storage.
- Di bagian Pilih jalur Cloud Storage, klik Cari untuk memilih lokasi bucket Cloud Storage untuk mengupload data.
Mengupload file impor dari komputer Anda
- Klik Upload file impor dari komputer Anda.
- Klik Pilih file, lalu pilih file impor lokal yang akan diupload ke bucket Cloud Storage.
- Di bagian Pilih jalur Cloud Storage, klik Cari untuk memilih lokasi bucket Cloud Storage tempat mengupload file Anda.
Memilih file impor dari Cloud Storage
- Klik Memilih file import dari Cloud Storage.
- Di bagian Pilih jalur Cloud Storage, klik Cari untuk memilih file impor di Cloud Storage.
- Klik Lanjutkan.
Impor data dapat memakan waktu beberapa jam, bergantung pada ukuran data Anda. Anda dapat menutup tab ini dan kembali lagi nanti. Anda akan menerima email saat data Anda selesai diimpor.
API
Untuk membuat model machine learning, Anda harus terlebih dahulu memiliki kumpulan data yang representatif untuk dilatih. Setelah mengimpor data, Anda dapat mengubah dan memulai pelatihan model.
Membuat set data
Gunakan contoh berikut untuk membuat set data bagi data Anda.
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
-
LOCATION: Region tempat set data akan disimpan. Region ini harus mendukung resource set data. Contoh,
us-central1
. Lihat Daftar lokasi yang tersedia. - PROJECT_ID: project ID Anda
- DATASET_NAME: Nama untuk set data.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets
Isi JSON permintaan:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/text_1.0.0.yaml" }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content
Anda akan melihat output yang mirip dengan berikut ini: Anda dapat menggunakan OPERATION_ID dalam respons untuk mendapatkan status operasi tersebut.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } } }
Terraform
Contoh berikut menggunakan resource Terraform google_vertex_ai_dataset
untuk membuat set data teks bernama text-dataset
.
Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.
Java
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Java Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Node.js Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi Python API.
Contoh berikut menggunakan Vertex AI SDK untuk Python untuk membuat set data dan mengimpor data. Jika Anda menjalankan kode contoh ini, Anda dapat melewati bagian Impor data di panduan ini.
Sampel khusus ini mengimpor data untuk klasifikasi label tunggal. Jika model Anda memiliki tujuan yang berbeda, Anda harus menyesuaikan kodenya.
Mengimpor data
Setelah membuat set data kosong, Anda dapat mengimpor data Anda ke dalam set data tersebut. Jika Anda menggunakan Vertex AI SDK untuk Python untuk membuat set data, Anda mungkin telah mengimpor data saat membuat set data. Jika demikian, Anda dapat melewati bagian ini.
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region tempat set data akan disimpan. Contoh,
us-central1
. - PROJECT_ID: Project ID Anda.
- DATASET_ID: ID set data.
- IMPORT_FILE_URI: Jalur ke file CSV atau JSON Lines di Cloud Storage yang mencantumkan item data yang disimpan di Cloud Storage untuk digunakan dalam pelatihan model; untuk format dan batasan file impor, lihat Menyiapkan data teks.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
Isi JSON permintaan:
{ "import_configs": [ { "gcs_source": { "uris": "IMPORT_FILE_URI" }, "import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml" } ] }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
Anda akan melihat output yang mirip dengan berikut ini: Anda dapat menggunakan OPERATION_ID dalam respons untuk mendapatkan status operasi tersebut.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata", "genericMetadata": { "createTime": "2020-07-08T20:32:02.543801Z", "updateTime": "2020-07-08T20:32:02.543801Z" } } }
Java
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Java Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Node.js Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi Python API.
Mendapatkan status operasi
Beberapa permintaan memulai operasi yang berjalan lama dan memerlukan waktu beberapa saat untuk diselesaikan. Permintaan ini menampilkan nama operasi, yang dapat Anda gunakan untuk melihat status operasi atau membatalkan operasi. Vertex AI menyediakan metode helper untuk melakukan panggilan terhadap operasi yang berjalan lama. Untuk mengetahui informasi selengkapnya, lihat Bekerja dengan operasi yang berjalan lama.