Halaman ini menjelaskan cara membuat set data dan mengimpor data tabel ke dalamnya. Anda kemudian dapat menggunakan AutoML Tables untuk melatih model pada set data tersebut.
Pengantar
Set data adalah objek Google Cloud yang berisi data tabel sumber, beserta informasi skema yang menentukan parameter pelatihan model. Set data berfungsi sebagai input untuk melatih model.
Sebuah project dapat memiliki beberapa set data. Anda bisa mendapatkan daftar set data yang tersedia dan dapat menghapus set data yang tidak lagi diperlukan.
Saat memperbarui set data atau informasi skemanya, Anda memengaruhi model mendatang yang menggunakan set data tersebut. Model yang sudah memulai pelatihan tidak akan terpengaruh.
Sebelum memulai
Sebelum dapat menggunakan AutoML Tables, Anda harus menyiapkan project seperti yang dijelaskan dalam Sebelum memulai. Sebelum dapat membuat set data, Anda harus sudah membuat data pelatihan seperti yang dijelaskan dalam Menyiapkan data pelatihan.
Membuat set data
Konsol
Kunjungi halaman AutoML Tables di Konsol Google Cloud untuk memulai proses pembuatan set data Anda.
Pilih Datasets, lalu pilih New dataset.
Masukkan nama set data Anda dan tentukan Region tempat set data akan dibuat.
Untuk mengetahui informasi selengkapnya, lihat Lokasi.
Klik Create dataset.
Tab Import akan ditampilkan. Sekarang Anda dapat mengimpor data.
REST
Untuk membuat set data, gunakan metode datasets.create.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
-
endpoint:
automl.googleapis.com
untuk lokasi global, daneu-automl.googleapis.com
untuk region Uni Eropa. - project-id: Project ID Google Cloud Anda.
- location: lokasi untuk resource:
us-central1
untuk Global ataueu
untuk Uni Eropa. - dataset-display-name: nama tampilan set data Anda.
Metode HTTP dan URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets
Isi JSON permintaan:
{ "displayName": "dataset-display-name", "tablesDatasetMetadata": { }, }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets" | Select-Object -Expand Content
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/1234/locations/us-central1/datasets/TBL6543", "displayName": "sample_dataset", "createTime": "2019-12-23T23:03:34.139313Z", "updateTime": "2019-12-23T23:03:34.139313Z", "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=", "tablesDatasetMetadata": { "areStatsFresh": true "statsUpdateTime": "1970-01-01T00:00:00Z", "tablesDatasetType": "BASIC" } }
Simpan name
set data baru (dari respons) untuk digunakan dengan operasi
lain, seperti mengimpor item ke set data Anda dan melatih model.
Sekarang Anda dapat mengimpor data Anda.
Java
Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Node.js
Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Python
Library klien untuk AutoML Tables menyertakan metode Python tambahan yang menyederhanakan penggunaan AutoML Tables API. Metode ini merujuk pada set data dan model berdasarkan nama, bukan ID. Nama set data dan model Anda harus unik. Untuk mengetahui informasi selengkapnya, lihat Referensi klien.
Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Mengimpor data ke dalam {i>dataset<i}
Anda tidak dapat mengimpor data ke dalam set data yang sudah berisi data. Anda harus membuat set data baru terlebih dahulu.
Konsol
Jika perlu, pilih set data dari daftar di halaman Datasets untuk membuka tab Import.
Pilih sumber impor untuk data Anda: BigQuery, Cloud Storage, atau komputer lokal Anda. Berikan informasi yang diperlukan.
Jika Anda memuat file CSV dari komputer lokal, Anda harus menyediakan bucket Cloud Storage. File Anda akan dimuat ke bucket tersebut sebelum diimpor ke AutoML Tables. File tersebut tetap ada di sana setelah impor data kecuali Anda menghapusnya.
Bucket harus berada di lokasi yang sama dengan set data Anda. Pelajari lebih lanjut.
Klik Import untuk memulai proses impor.
Setelah proses impor selesai, tab Train akan ditampilkan, dan Anda siap untuk melatih model.
REST
Impor data menggunakan metode datasets.importData.
Pastikan sumber impor Anda sesuai dengan persyaratan yang dijelaskan dalam Menyiapkan sumber impor.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
-
endpoint:
automl.googleapis.com
untuk lokasi global, daneu-automl.googleapis.com
untuk region Uni Eropa. - project-id: Project ID Google Cloud Anda.
- location: lokasi untuk resource:
us-central1
untuk Global ataueu
untuk Uni Eropa. - dataset-id: ID set data Anda. Contoh,
TBL6543
. - input-config: informasi lokasi sumber data Anda:
- Untuk BigQuery: { "bigquerySource": { "inputUri": "bq://projectId.bqDatasetId.bqTableId } }"
- Untuk Cloud Storage: { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } }
Metode HTTP dan URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData
Isi JSON permintaan:
{ "inputConfig": input-config, }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
lalu jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData" | Select-Object -Expand Content
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/292381/locations/us-central1/operations/TBL6543", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2019-12-26T20:42:06.092180Z", "updateTime": "2019-12-26T20:42:06.092180Z", "cancellable": true, "worksOn": [ "projects/292381/locations/us-central1/datasets/TBL6543" ], "importDataDetails": {}, "state": "RUNNING" } }
Mengimpor data ke set data adalah operasi yang berjalan lama. Anda dapat memeriksa status operasi atau menunggu operasi ditampilkan. Pelajari lebih lanjut.
Setelah proses impor selesai, Anda siap untuk melatih model Anda.
Java
Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Node.js
Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Python
Library klien untuk AutoML Tables menyertakan metode Python tambahan yang menyederhanakan penggunaan AutoML Tables API. Metode ini merujuk pada set data dan model berdasarkan nama, bukan ID. Nama set data dan model Anda harus unik. Untuk mengetahui informasi selengkapnya, lihat Referensi klien.
Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.
Langkah selanjutnya
- Latih model Anda.
- Kelola set data Anda.
- Pelajari lebih lanjut cara menggunakan operasi yang berjalan lama.