Halaman ini menjelaskan cara membuat set data dan mengimpor data tabel ke dalamnya. Anda kemudian dapat menggunakan AutoML Tables untuk melatih model pada set data tersebut.
Pengantar
Set data adalah objek Google Cloud yang berisi data tabel sumber, beserta informasi skema yang menentukan parameter pelatihan model. Set data berfungsi sebagai input untuk melatih model.
Sebuah project dapat memiliki beberapa set data. Anda bisa mendapatkan daftar set data yang tersedia dan dapat menghapus set data yang tidak diperlukan lagi.
Saat Anda memperbarui set data atau informasi skemanya, model mendatang yang menggunakan set data tersebut akan terpengaruh. Model yang sudah memulai pelatihan tidak akan terpengaruh.
Sebelum memulai
Sebelum dapat menggunakan AutoML Tables, Anda harus menyiapkan project seperti yang dijelaskan di bagian Sebelum memulai. Sebelum dapat membuat set data, Anda harus sudah membuat data pelatihan seperti yang dijelaskan dalam artikel Menyiapkan data pelatihan Anda.
Membuat set data
Konsol
Kunjungi halaman AutoML Tables di Konsol Google Cloud untuk memulai proses pembuatan set data Anda.
Pilih Set data, lalu pilih Set data baru.
Masukkan nama set data dan tentukan Region tempat set data akan dibuat.
Untuk informasi selengkapnya, lihat Lokasi.
Klik Buat set data.
Tab Import akan ditampilkan. Sekarang Anda dapat mengimpor data.
REST
Untuk membuat set data, gunakan metode datasets.create.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
-
endpoint:
automl.googleapis.com
untuk lokasi global, daneu-automl.googleapis.com
untuk region Uni Eropa. - project-id: Project ID Google Cloud Anda.
- location: lokasi untuk resource:
us-central1
untuk Global ataueu
untuk Uni Eropa. - dataset-display-name: nama tampilan set data Anda.
Metode HTTP dan URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets
Isi JSON permintaan:
{ "displayName": "dataset-display-name", "tablesDatasetMetadata": { }, }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets" | Select-Object -Expand Content
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/1234/locations/us-central1/datasets/TBL6543", "displayName": "sample_dataset", "createTime": "2019-12-23T23:03:34.139313Z", "updateTime": "2019-12-23T23:03:34.139313Z", "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=", "tablesDatasetMetadata": { "areStatsFresh": true "statsUpdateTime": "1970-01-01T00:00:00Z", "tablesDatasetType": "BASIC" } }
Simpan name
set data baru (dari respons) untuk digunakan dengan operasi
lain, seperti mengimpor item ke set data Anda dan melatih model.
Sekarang Anda dapat mengimpor data.
Java
Jika resource Anda berada di wilayah Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Node.js
Jika resource Anda berada di wilayah Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Python
Library klien untuk AutoML Tables menyertakan metode Python tambahan yang menyederhanakan penggunaan AutoML Tables API. Metode ini merujuk pada set data dan model berdasarkan nama, bukan ID. Nama set data dan model Anda harus unik. Untuk informasi selengkapnya, lihat Referensi klien.
Jika resource Anda berada di wilayah Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Mengimpor data ke {i>dataset<i}
Anda tidak dapat mengimpor data ke dalam {i>dataset<i} yang sudah berisi data. Anda harus membuat set data baru terlebih dahulu.
Konsol
Jika perlu, pilih set data dari daftar di halaman Datasets untuk membuka tab Import.
Pilih sumber impor untuk data Anda: BigQuery, Cloud Storage, atau komputer lokal Anda. Berikan informasi yang diperlukan.
Jika Anda memuat file CSV dari komputer lokal, Anda harus menyediakan bucket Cloud Storage. File Anda akan dimuat ke bucket tersebut sebelum diimpor ke AutoML Tables. File tetap ada di sana setelah data diimpor kecuali Anda menghapusnya.
Bucket harus berada di lokasi yang sama dengan set data Anda. Pelajari lebih lanjut.
Klik Import untuk memulai proses impor.
Setelah proses impor selesai, tab Train akan ditampilkan, dan Anda siap untuk melatih model.
REST
Impor data Anda menggunakan metode datasets.importData.
Pastikan sumber impor Anda sesuai dengan persyaratan yang dijelaskan dalam Menyiapkan sumber impor.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
-
endpoint:
automl.googleapis.com
untuk lokasi global, daneu-automl.googleapis.com
untuk region Uni Eropa. - project-id: Project ID Google Cloud Anda.
- location: lokasi untuk resource:
us-central1
untuk Global ataueu
untuk Uni Eropa. - dataset-id: ID set data Anda. Contoh,
TBL6543
. - input-config: informasi lokasi sumber data Anda:
- Untuk BigQuery: { "bigquerySource": { "inputUri": "bq://projectId.bqDatasetId.bqTableId}"
- Untuk Cloud Storage: { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } }
Metode HTTP dan URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData
Isi JSON permintaan:
{ "inputConfig": input-config, }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData" | Select-Object -Expand Content
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/292381/locations/us-central1/operations/TBL6543", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2019-12-26T20:42:06.092180Z", "updateTime": "2019-12-26T20:42:06.092180Z", "cancellable": true, "worksOn": [ "projects/292381/locations/us-central1/datasets/TBL6543" ], "importDataDetails": {}, "state": "RUNNING" } }
Mengimpor data ke set data adalah operasi yang berjalan lama. Anda dapat memeriksa status operasi atau menunggu hingga operasi ditampilkan. Pelajari lebih lanjut.
Ketika proses impor selesai, Anda siap untuk melatih model.
Java
Jika resource Anda berada di wilayah Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Node.js
Jika resource Anda berada di wilayah Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Python
Library klien untuk AutoML Tables menyertakan metode Python tambahan yang menyederhanakan penggunaan AutoML Tables API. Metode ini merujuk pada set data dan model berdasarkan nama, bukan ID. Nama set data dan model Anda harus unik. Untuk informasi selengkapnya, lihat Referensi klien.
Jika resource Anda berada di wilayah Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Langkah selanjutnya
- Latih model Anda.
- Kelola set data Anda.
- Pelajari lebih lanjut cara menggunakan operasi yang berjalan lama.