AutoML Tables versi lama ini tidak digunakan lagi dan tidak akan tersedia lagi di Google Cloud setelah 31 Maret 2024. Semua fungsi AutoML Tables lama dan fitur baru tersedia di platform Vertex AI. Lihat Bermigrasi ke Vertex AI untuk mempelajari cara memigrasikan resource Anda.

Melatih model

Halaman ini menjelaskan cara menggunakan AutoML Tables untuk melatih model kustom berdasarkan set data Anda. Anda harus sudah membuat set data dan mengimpor data ke dalamnya.

Pengantar

Anda membuat model kustom dengan melatihnya menggunakan set data yang telah disiapkan. AutoML Tables menggunakan item dari set data untuk melatih model, mengujinya, dan mengevaluasi performanya. Anda dapat meninjau hasilnya, menyesuaikan set data pelatihan sesuai kebutuhan, dan melatih model baru menggunakan set data yang ditingkatkan.

Sebagai bagian dari persiapan untuk melatih model, Anda memperbarui informasi skema set data. Pembaruan skema ini memengaruhi semua model mendatang yang menggunakan set data tersebut. Model yang sudah memulai pelatihan tidak akan terpengaruh.

Proses pelatihan model dapat memakan waktu beberapa jam untuk diselesaikan. Anda dapat memeriksa progres pelatihan di Konsol Google Cloud, atau dengan menggunakan Cloud AutoML API.

Karena AutoML Tables membuat model baru setiap kali Anda memulai pelatihan, project Anda mungkin menyertakan banyak model. Anda bisa mendapatkan daftar model di project dan dapat menghapus model yang tidak lagi diperlukan.

Model harus dilatih ulang setiap enam bulan agar dapat terus menyajikan prediksi.

Melatih model

Konsol

Jika perlu, buka halaman Datasets dan klik set data yang ingin Anda gunakan.

Tindakan ini akan membuka set data di tab Train.
Pilih kolom target untuk model Anda.

Ini adalah nilai yang dilatih untuk diprediksi oleh model. Jenis datanya menentukan apakah model yang dihasilkan adalah model regresi (Numerik) atau klasifikasi (Kategoris). Pelajari lebih lanjut.

Jika kolom target Anda memiliki jenis data Kategorikal, kolom target harus memiliki setidaknya dua dan tidak lebih dari 500 nilai yang berbeda.
Tinjau Jenis data, Nullability, dan statistik data untuk setiap kolom dalam set data Anda.

Anda dapat mengklik masing-masing kolom untuk mendapatkan detail lebih lanjut tentang kolom tersebut. Pelajari peninjauan skema lebih lanjut.
Jika Anda ingin mengontrol pemisahan data, klik Edit parameter tambahan, lalu tentukan kolom pemisahan data atau kolom Waktu. Pelajari lebih lanjut.
Jika Anda ingin membobotkan contoh pelatihan berdasarkan nilai kolom, klik Edit parameter tambahan dan tentukan kolom yang sesuai. Pelajari lebih lanjut.
Tinjau statistik dan detail ringkasan untuk memastikan kualitas data Anda sesuai harapan, dan Anda telah mengidentifikasi kolom yang perlu dikecualikan saat membuat model.

Untuk informasi selengkapnya, lihat Menganalisis data pelatihan.
Setelah puas dengan skema set data Anda, klik Train model di bagian atas layar.

Saat Anda membuat perubahan pada skema, AutoML Tables akan memperbarui statistik ringkasan, yang dapat memerlukan waktu beberapa saat untuk diselesaikan. Anda tidak perlu menunggu hingga proses ini selesai sebelum memulai pelatihan model.
Untuk Anggaran pelatihan, masukkan jumlah jam pelatihan maksimum untuk model ini.

Anggaran pelatihan berkisar antara 1 dan 72 jam. Ini adalah jumlah maksimum waktu pelatihan yang akan ditagihkan kepada Anda.

Waktu pelatihan yang disarankan berkaitan dengan ukuran data pelatihan Anda. Tabel di bawah ini menunjukkan rentang waktu pelatihan yang disarankan berdasarkan jumlah baris; sejumlah besar kolom juga akan meningkatkan waktu pelatihan.

Baris Waktu pelatihan yang disarankan

Kurang dari 100.000 1-3 jam

100.000 - 1.000.000 1-6 jam

1.000.000 - 10.000.000 1-12 jam

Lebih dari 10.000.000 3 - 24 jam

Pembuatan model mencakup tugas lain selain pelatihan, sehingga total waktu yang diperlukan untuk membuat model Anda lebih lama daripada waktu pelatihan. Misalnya, jika Anda menetapkan 2 jam pelatihan, masih diperlukan waktu 3 jam atau lebih sebelum model siap di-deploy. Anda hanya dikenai biaya untuk waktu pelatihan yang sebenarnya.

Pelajari harga pelatihan lebih lanjut.

Jika AutoML Tables mendeteksi bahwa model tidak lagi meningkat sebelum anggaran pelatihan habis, model akan menghentikan pelatihan. Jika Anda ingin menggunakan seluruh waktu pelatihan yang dianggarkan, buka Opsi lanjutan dan nonaktifkan Penghentian awal.
Di bagian Pemilihan fitur input, kecualikan semua kolom yang Anda targetkan untuk pengecualian dalam langkah analisis skema.
Jika Anda tidak ingin menggunakan tujuan pengoptimalan default, buka Advanced options lalu pilih metrik yang ingin dioptimalkan oleh Tabel AutoML saat melatih model Anda. Pelajari lebih lanjut.

Bergantung pada jenis data kolom target Anda, mungkin hanya ada satu pilihan untuk Tujuan pengoptimalan.
Klik Train model untuk memulai pelatihan model.

Melatih model dapat memerlukan waktu beberapa jam hingga selesai, bergantung pada ukuran set data dan anggaran pelatihan. Anda dapat menutup jendela browser tanpa memengaruhi proses pelatihan.

Setelah model berhasil dilatih, tab Model akan menampilkan metrik tingkat tinggi untuk model tersebut, seperti presisi dan perolehan.

Untuk bantuan dalam mengevaluasi kualitas model, lihat Mengevaluasi model.

Baris	Waktu pelatihan yang disarankan
Kurang dari 100.000	1-3 jam
100.000 - 1.000.000	1-6 jam
1.000.000 - 10.000.000	1-12 jam
Lebih dari 10.000.000	3 - 24 jam

REST

Contoh berikut menunjukkan cara meninjau dan memperbarui skema data sebelum melatih model Anda.

Jika resource Anda berada di region Uni Eropa, gunakan eu untuk {location} dan gunakan endpoint eu-automl.googleapis.com. Jika tidak, gunakan us-central1. Pelajari lebih lanjut.

Setelah impor selesai, cantumkan spesifikasi tabel untuk mendapatkan ID tabel.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

endpoint: automl.googleapis.com untuk lokasi global, dan eu-automl.googleapis.com untuk region Uni Eropa.
project-id: Project ID Google Cloud Anda.
location: lokasi untuk resource: us-central1 untuk Global atau eu untuk Uni Eropa.
dataset-id: ID set data. Misalnya, TBL6543.

Metode HTTP dan URL:

GET https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id/tableSpecs/

Untuk mengirim permintaan, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Jalankan perintah berikut:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "x-goog-user-project: project-id" \
    "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id/tableSpecs/"

PowerShell (Windows)

Jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id/tableSpecs/" | Select-Object -Expand Content

Respons

{
  "tableSpecs": [
    {
      "name": "projects/292381/locations/us-central1/datasets/TBL6543/tableSpecs/370474",
      "rowCount": "1460",
      "validRowCount": "1460",
      "inputConfigs": [
        {
          "gcsSource": {
            "inputUris": [
              "gs://datasets/housing_price.csv"
            ]
          }
        }
      ],
      "etag": "AB3BwFppc_H1J3MdRSzDs4nr_fgUUY1sz5g=",
      "columnCount": "81"
    }
  ]
}

ID tabel ditampilkan dalam huruf tebal di kolom name.

Cantumkan spesifikasi kolom Anda.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

endpoint: automl.googleapis.com untuk lokasi global, dan eu-automl.googleapis.com untuk region Uni Eropa.
project-id: Project ID Google Cloud Anda.
location: lokasi untuk resource: us-central1 untuk Global atau eu untuk Uni Eropa.
dataset-id: ID set data. Misalnya, TBL6543.
table-id: ID tabel.

Metode HTTP dan URL:

GET https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id/tableSpecs/table-id/columnSpecs/

Untuk mengirim permintaan, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Jalankan perintah berikut:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "x-goog-user-project: project-id" \
    "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id/tableSpecs/table-id/columnSpecs/"

PowerShell (Windows)

Jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id/tableSpecs/table-id/columnSpecs/" | Select-Object -Expand Content

Respons

{
  "columnSpecs": [
    {
      "name": "projects/292381/locations/us-central1/datasets/TBL6543/tableSpecs/370474/columnSpecs/45948",
      "dataType": {
        "typeCode": "FLOAT64",
        "compatibleDataTypes": [
          {
            "typeCode": "FLOAT64"
          },
          {
            "typeCode": "CATEGORY"
          }
        ]
      },
      "displayName": "Id",
      "dataStats": {
        "distinctValueCount": "1460",
        "float64Stats": {
          "mean": 730.5,
          "standardDeviation": 421.6100093688479,
          "quantiles": [
            1,
            343,
            716,
            1083,
            1460
          ],
          "histogramBuckets": [
            {
              "min": "-Infinity",
              "max": 146.9,
              "count": "146"
            },
            ...
            {
              "min": 1314.1000000000001,
              "max": "Infinity",
              "count": "146"
            }
          ]
        },
        "validValueCount": "1460"
      },
      "etag": "AB3BwFoaeD2X9CbCpGM8pWxNJ6S5L1_Rtnk="
    },
    {
      "name": "projects/292381/locations/us-central1/datasets/TBL6543/tableSpecs/370474/columnSpecs/29635,
      "dataType": {
        "typeCode": "FLOAT64",
        "compatibleDataTypes": [
          {
            "typeCode": "FLOAT64"
          },
          {
            "typeCode": "CATEGORY"
          }
        ]
      },
      "displayName": "MSSubClass",
      "dataStats": {
        "distinctValueCount": "15",
        "float64Stats": {
          "mean": 56.897260273972606,
          "standardDeviation": 42.300570993810425,
          "quantiles": [
            20,
            20,
            50,
            70,
            190
          ],
          "histogramBuckets": [
            {
              "min": "-Infinity",
              "max": 37,
              "count": "605"
            },
            ...
            {
              "min": 173,
              "max": "Infinity",
              "count": "40"
            }
          ]
        },
        "validValueCount": "1460"
      },
      "etag": "AB3BwFrppb1HM7wJd9_mnGFIoVs7ohmzeTD3NgjJ_aNxKjE="
    }
  ]
}

Secara opsional, konfigurasikan kolom target Anda.

Ini adalah nilai yang dilatih untuk diprediksi oleh model. Jenis datanya menentukan apakah model yang dihasilkan adalah model regresi (Numerik) atau klasifikasi (Kategoris). Pelajari lebih lanjut.

Jika kolom target Anda memiliki jenis data Kategorikal, kolom target harus memiliki setidaknya dua dan tidak lebih dari 500 nilai yang berbeda.

Anda juga dapat menentukan kolom target saat melatih model. Jika Anda berencana melakukannya, pertahankan ID tabel dan ID kolom target yang diinginkan untuk digunakan nanti.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

endpoint: automl.googleapis.com untuk lokasi global, dan eu-automl.googleapis.com untuk region Uni Eropa.
project-id: Project ID Google Cloud Anda.
location: lokasi untuk resource: us-central1 untuk Global atau eu untuk Uni Eropa.
dataset-id: ID set data Anda.
target-column-id: ID kolom target Anda.

Metode HTTP dan URL:

PATCH https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id

Meminta isi JSON:

{
  "tablesDatasetMetadata": {
    "targetColumnSpecId": "target-column-id"
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "x-goog-user-project: project-id" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id"

PowerShell (Windows)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }

Invoke-WebRequest `
    -Method PATCH `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id" | Select-Object -Expand Content

Respons

{
  "name": "projects/1234/locations/us-central1/datasets/TBL6543",
  "displayName": "sample_dataset",
  "createTime": "2019-12-23T23:03:34.139313Z",
  "updateTime": "2019-12-30T20:51:41.532594Z",
  "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=",
  "tablesDatasetMetadata": {
    "primaryTableSpecId": "370474",
    "targetColumnSpecId": "690065",
    "statsUpdateTime": "2019-12-26T20:42:29.185Z",
    "tablesDatasetType": "BASIC"
  }
}

Jika ingin, perbarui kolom mlUseColumnSpecId untuk menentukan pembagian data, dan kolom weightColumnSpecId untuk menggunakan kolom bobot.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

endpoint: automl.googleapis.com untuk lokasi global, dan eu-automl.googleapis.com untuk region Uni Eropa.
project-id: Project ID Google Cloud Anda.
location: lokasi untuk resource: us-central1 untuk Global atau eu untuk Uni Eropa.
dataset-id: ID set data Anda.
split-column-id: ID kolom target Anda.
weight-column-id: ID kolom target Anda.

Metode HTTP dan URL:

PATCH https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id

Meminta isi JSON:

{
  "tablesDatasetMetadata": {
    "mlUseColumnSpecId": "split-column-id",
    "weightColumnSpecId": "weight-column-id"
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "x-goog-user-project: project-id" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id"

PowerShell (Windows)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }

Invoke-WebRequest `
    -Method PATCH `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id" | Select-Object -Expand Content

Respons

{
  "name": "projects/1234/locations/us-central1/datasets/TBL6543",
  "displayName": "sample_dataset",
  "createTime": "2019-12-23T23:03:34.139313Z",
  "updateTime": "2019-12-30T20:53:41.532594Z",
  "etag": "AB3BwFq6VkX643xLwY4T4z-0jUQLKgFvvtD1RcZ2oikA=",
  "tablesDatasetMetadata": {
    "primaryTableSpecId": "370474",
    "splitColumnSpecId": "602945",
    "weightColumnSpecId": "459913,
    "statsUpdateTime": "2019-12-26T20:42:29.185Z",
    "tablesDatasetType": "BASIC"
  }
}

Tinjau statistik kolom untuk memastikan nilai dataType sudah benar, dan kolom memiliki nilai yang benar untuk nullable.

Jika kolom ditandai sebagai non-nullable, artinya kolom tersebut tidak memiliki nilai null untuk set data pelatihan. Pastikan ini juga akan berlaku untuk data prediksi Anda; jika kolom ditandai sebagai non-nullable, dan nilai tidak diberikan untuknya pada waktu prediksi, error prediksi akan ditampilkan untuk baris tersebut.

Pelajari peninjauan skema lebih lanjut.
Tinjau kualitas data Anda.

Pelajari cara menganalisis data pelatihan lebih lanjut.
Latih model.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- endpoint: automl.googleapis.com untuk lokasi global, dan eu-automl.googleapis.com untuk region Uni Eropa.
- project-id: Project ID Google Cloud Anda.
- location: lokasi untuk resource: us-central1 untuk Global atau eu untuk Uni Eropa.
- dataset-id: ID set data.
- table-id: ID tabel, yang digunakan untuk menetapkan kolom target.
- target-column-id: ID kolom target.
- model-display-name: nama tampilan untuk model baru.
- optimization-objective dengan metrik yang akan dioptimalkan (opsional).
  
  Lihat Tentang tujuan pengoptimalan model.
- train-budget-milli-node-hours dengan jumlah jam kerja milidetik untuk pelatihan. Misalnya, 1.000 = 1 jam.
  
  Waktu pelatihan yang disarankan berkaitan dengan ukuran data pelatihan Anda. Tabel di bawah ini menunjukkan rentang waktu pelatihan yang disarankan berdasarkan jumlah baris; sejumlah besar kolom juga akan meningkatkan waktu pelatihan.
  
  Baris Waktu pelatihan yang disarankan
  
  Kurang dari 100.000 1-3 jam
  
  100.000 - 1.000.000 1-6 jam
  
  1.000.000 - 10.000.000 1-12 jam
  
  Lebih dari 10.000.000 3 - 24 jam
  
  Pembuatan model mencakup tugas lain selain pelatihan, sehingga total waktu yang diperlukan untuk membuat model Anda lebih lama daripada waktu pelatihan. Misalnya, jika Anda menetapkan 2 jam pelatihan, masih diperlukan waktu 3 jam atau lebih sebelum model siap di-deploy. Anda hanya dikenai biaya untuk waktu pelatihan yang sebenarnya.
  
  Pelajari harga pelatihan lebih lanjut.
  
  Jika AutoML Tables mendeteksi bahwa model tidak lagi meningkat sebelum anggaran pelatihan habis, model akan menghentikan pelatihan. Jika Anda ingin menggunakan seluruh waktu pelatihan yang dianggarkan, tetapkan properti disableEarlyStopping pada objek tablesModelMetadata ke true.
Metode HTTP dan URL:
```
POST https://endpoint/v1beta1/projects/project-id/locations/location/models/
```
Meminta isi JSON:
```
{
  "datasetId": "dataset-id",
  "displayName": "model-display-name",
  "tablesModelMetadata": {
    "trainBudgetMilliNodeHours": "train-budget-milli-node-hours",
    "optimizationObjective": "optimization-objective",
    "targetColumnSpec": {
      "name": "projects/project-id/locations/location/datasets/dataset-id/tableSpecs/table-id/columnSpecs/target-column-id"
    }
  },
}
```
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
curl (Linux, macOS, atau Cloud Shell)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:
```
curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "x-goog-user-project: project-id" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://endpoint/v1beta1/projects/project-id/locations/location/models/"
```
PowerShell (Windows)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:
```
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://endpoint/v1beta1/projects/project-id/locations/location/models/" | Select-Object -Expand Content
```
Anda akan melihat respons JSON seperti berikut:
```
{

  "name": "projects/292381/locations/us-central1/operations/TBL64984",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata",
    "createTime": "2019-12-30T22:12:03.014058Z",
    "updateTime": "2019-12-30T22:12:03.014058Z",
    "cancellable": true,
    "createModelDetails": {
      "modelDisplayName": "new_model1"
    },
    "worksOn": [
      "projects/292381/locations/us-central1/datasets/TBL3718"
    ],
    "state": "RUNNING"
  }
}
```
Melatih model adalah operasi yang berjalan lama. Anda dapat memeriksa status operasi atau menunggu operasi ditampilkan. Pelajari lebih lanjut.

Baris	Waktu pelatihan yang disarankan
Kurang dari 100.000	1-3 jam
100.000 - 1.000.000	1-6 jam
1.000.000 - 10.000.000	1-12 jam
Lebih dari 10.000.000	3 - 24 jam

Java

Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.

import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.automl.v1beta1.AutoMlClient;
import com.google.cloud.automl.v1beta1.ColumnSpec;
import com.google.cloud.automl.v1beta1.ColumnSpecName;
import com.google.cloud.automl.v1beta1.LocationName;
import com.google.cloud.automl.v1beta1.Model;
import com.google.cloud.automl.v1beta1.OperationMetadata;
import com.google.cloud.automl.v1beta1.TablesModelMetadata;
import java.io.IOException;
import java.util.concurrent.ExecutionException;

class TablesCreateModel {

  public static void main(String[] args)
      throws IOException, ExecutionException, InterruptedException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "YOUR_PROJECT_ID";
    String datasetId = "YOUR_DATASET_ID";
    String tableSpecId = "YOUR_TABLE_SPEC_ID";
    String columnSpecId = "YOUR_COLUMN_SPEC_ID";
    String displayName = "YOUR_DATASET_NAME";
    createModel(projectId, datasetId, tableSpecId, columnSpecId, displayName);
  }

  // Create a model
  static void createModel(
      String projectId,
      String datasetId,
      String tableSpecId,
      String columnSpecId,
      String displayName)
      throws IOException, ExecutionException, InterruptedException {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (AutoMlClient client = AutoMlClient.create()) {
      // A resource that represents Google Cloud Platform location.
      LocationName projectLocation = LocationName.of(projectId, "us-central1");

      // Get the complete path of the column.
      ColumnSpecName columnSpecName =
          ColumnSpecName.of(projectId, "us-central1", datasetId, tableSpecId, columnSpecId);

      // Build the get column spec.
      ColumnSpec targetColumnSpec =
          ColumnSpec.newBuilder().setName(columnSpecName.toString()).build();

      // Set model metadata.
      TablesModelMetadata metadata =
          TablesModelMetadata.newBuilder()
              .setTargetColumnSpec(targetColumnSpec)
              .setTrainBudgetMilliNodeHours(24000)
              .build();

      Model model =
          Model.newBuilder()
              .setDisplayName(displayName)
              .setDatasetId(datasetId)
              .setTablesModelMetadata(metadata)
              .build();

      // Create a model with the model metadata in the region.
      OperationFuture<Model, OperationMetadata> future =
          client.createModelAsync(projectLocation, model);
      // OperationFuture.get() will block until the model is created, which may take several hours.
      // You can use OperationFuture.getInitialFuture to get a future representing the initial
      // response to the request, which contains information while the operation is in progress.
      System.out.format("Training operation name: %s%n", future.getInitialFuture().get().getName());
      System.out.println("Training started...");
    }
  }
}

Node.js

Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.

const automl = require('@google-cloud/automl');
const client = new automl.v1beta1.AutoMlClient();

/**
 * Demonstrates using the AutoML client to create a model.
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const projectId = '[PROJECT_ID]' e.g., "my-gcloud-project";
// const computeRegion = '[REGION_NAME]' e.g., "us-central1";
// const datasetId = '[DATASET_ID]' e.g., "TBL2246891593778855936";
// const tableId = '[TABLE_ID]' e.g., "1991013247762825216";
// const columnId = '[COLUMN_ID]' e.g., "773141392279994368";
// const modelName = '[MODEL_NAME]' e.g., "testModel";
// const trainBudget = '[TRAIN_BUDGET]' e.g., "1000",
// `Train budget in milli node hours`;

// A resource that represents Google Cloud Platform location.
const projectLocation = client.locationPath(projectId, computeRegion);

// Get the full path of the column.
const columnSpecId = client.columnSpecPath(
  projectId,
  computeRegion,
  datasetId,
  tableId,
  columnId
);

// Set target column to train the model.
const targetColumnSpec = {name: columnSpecId};

// Set tables model metadata.
const tablesModelMetadata = {
  targetColumnSpec: targetColumnSpec,
  trainBudgetMilliNodeHours: trainBudget,
};

// Set datasetId, model name and model metadata for the dataset.
const myModel = {
  datasetId: datasetId,
  displayName: modelName,
  tablesModelMetadata: tablesModelMetadata,
};

// Create a model with the model metadata in the region.
client
  .createModel({parent: projectLocation, model: myModel})
  .then(responses => {
    const initialApiResponse = responses[1];
    console.log(`Training operation name: ${initialApiResponse.name}`);
    console.log('Training started...');
  })
  .catch(err => {
    console.error(err);
  });

Python

Library klien untuk AutoML Tables menyertakan metode Python tambahan yang menyederhanakan penggunaan AutoML Tables API. Metode ini merujuk pada set data dan model berdasarkan nama, bukan ID. Nama set data dan model Anda harus unik. Untuk mengetahui informasi selengkapnya, lihat Referensi klien.

Jika resource Anda berada di region Uni Eropa, Anda harus menetapkan endpoint secara eksplisit. Pelajari lebih lanjut.

# TODO(developer): Uncomment and set the following variables
# project_id = 'PROJECT_ID_HERE'
# compute_region = 'COMPUTE_REGION_HERE'
# dataset_display_name = 'DATASET_DISPLAY_NAME_HERE'
# model_display_name = 'MODEL_DISPLAY_NAME_HERE'
# train_budget_milli_node_hours = 'TRAIN_BUDGET_MILLI_NODE_HOURS_HERE'
# include_column_spec_names = 'INCLUDE_COLUMN_SPEC_NAMES_HERE'
#    or None if unspecified
# exclude_column_spec_names = 'EXCLUDE_COLUMN_SPEC_NAMES_HERE'
#    or None if unspecified

from google.cloud import automl_v1beta1 as automl

client = automl.TablesClient(project=project_id, region=compute_region)

# Create a model with the model metadata in the region.
response = client.create_model(
    model_display_name,
    train_budget_milli_node_hours=train_budget_milli_node_hours,
    dataset_display_name=dataset_display_name,
    include_column_spec_names=include_column_spec_names,
    exclude_column_spec_names=exclude_column_spec_names,
)

print("Training model...")
print(f"Training operation name: {response.operation.name}")
print(f"Training completed: {response.result()}")

Ulasan skema

Tabel AutoML menyimpulkan jenis data dan apakah suatu kolom bersifat nullable untuk setiap kolom berdasarkan jenis data asli (jika diimpor dari BigQuery) dan nilai dalam kolom tersebut. Anda harus memeriksa setiap kolom dan memastikannya sudah benar.

Gunakan daftar berikut untuk meninjau skema Anda:

Kolom yang berisi teks bentuk bebas harus berupa Text.

Kolom teks dipisahkan menjadi token berdasarkan UnicodeScriptTokenizer, dengan masing-masing token digunakan untuk pelatihan model. UnicodeScriptTokenizer membuat token teks dengan spasi kosong, sekaligus juga memisahkan tanda baca dari teks dan bahasa yang berbeda satu sama lain.
Jika nilai kolom adalah salah satu dari kumpulan nilai terbatas, nilai tersebut mungkin harus Kategori, terlepas dari jenis data yang digunakan di kolom.

Misalnya, Anda mungkin memiliki kode untuk warna: 1 = merah, 2 = kuning, dst. Anda harus memastikan bahwa kolom tersebut ditetapkan sebagai Kategori.

Pengecualian untuk panduan ini adalah jika kolom berisi string multi-kata. Dalam hal ini, Anda harus menetapkannya sebagai kolom Teks, meskipun memiliki kardinalitas rendah. AutoML Tables membuat token kolom Teks, dan mungkin dapat memperoleh sinyal prediksi dari setiap token atau urutannya.
Jika kolom ditandai sebagai non-nullable, artinya kolom tersebut tidak memiliki nilai null untuk set data pelatihan. Pastikan ini juga akan berlaku untuk data prediksi Anda; jika kolom ditandai sebagai non-nullable, dan nilai tidak diberikan untuknya pada waktu prediksi, error prediksi akan ditampilkan untuk baris tersebut.

Menganalisis data pelatihan Anda

Jika persentase nilai yang hilang di kolom tinggi, pastikan hal ini diperkirakan, bukan karena masalah pengumpulan data.
Pastikan jumlah nilai yang tidak valid relatif rendah atau nol.

Setiap baris yang berisi satu atau beberapa nilai yang tidak valid akan otomatis dikecualikan agar tidak digunakan untuk pelatihan model.
Jika Nilai berbeda untuk kolom Kategoris mendekati jumlah baris (misalnya, lebih dari 90%), kolom tersebut tidak akan memberikan banyak sinyal pelatihan. Model harus dikecualikan dari pelatihan. Kolom ID harus selalu dikecualikan.
Jika nilai Correlation with Target di kolom tinggi, pastikan hal tersebut sesuai perkiraan, dan bukan merupakan indikasi kebocoran target.

Jika kolom akan tersedia saat Anda meminta prediksi, berarti kolom tersebut mungkin merupakan fitur yang memiliki penjelasan yang sangat kuat dan dapat disertakan. Namun, terkadang fitur dengan korelasi tinggi sebenarnya berasal dari target atau dikumpulkan setelah fakta. Fitur ini harus dikecualikan dari pelatihan, karena tidak tersedia pada waktu prediksi, sehingga model tidak dapat digunakan dalam produksi.

Korelasi dihitung untuk kolom kategori, numerik, dan stempel waktu menggunakan Cramér's V. Untuk kolom numerik, korelasi dihitung menggunakan jumlah bucket yang dihasilkan dari kuantil.

Tentang tujuan pengoptimalan model

Tujuan pengoptimalan memengaruhi cara model dilatih, dan juga performa model dalam produksi. Tabel di bawah ini memberikan beberapa detail tentang jenis masalah yang paling cocok untuk setiap tujuan:

Tujuan pengoptimalan	Jenis masalah	Nilai API	Gunakan tujuan ini jika Anda ingin...
AUC ROC	Classification	`MAXIMIZE_AU_ROC`	Membedakan antar-class. Memberikan nilai default untuk klasifikasi biner.
Kerugian log	Classification	`MINIMIZE_LOG_LOSS`	Membuat probabilitas prediksi seakurat mungkin. Hanya mendukung tujuan untuk klasifikasi multi-class.
AUC PR	Classification	`MAXIMIZE_AU_PRC`	Mengoptimalkan hasil untuk prediksi bagi class yang kurang umum.
Presisi pada Perolehan	Classification	`MAXIMIZE_PRECISION_AT_RECALL`	Mengoptimalkan presisi pada nilai perolehan tertentu.
Perolehan pada Presisi	Classification	`MAXIMIZE_RECALL_AT_PRECISION`	Mengoptimalkan perolehan pada nilai presisi tertentu.
RMSE	Regresi	`MINIMIZE_RMSE`	Menangkap nilai yang lebih ekstrem secara akurat.
MAE	Regresi	`MINIMIZE_MAE`	Lihat nilai ekstrem sebagai outlier dengan dampak lebih kecil pada model.
RMSLE	Regresi	`MINIMIZE_RMSLE`	Menindak error pada ukuran relatif dan bukan nilai absolut. Hal ini sangat membantu terutama ketika nilai aktual dan yang diprediksi cukup besar.

Langkah selanjutnya

Pelajari arsitektur model.
Mengevaluasi model Anda.
Dapatkan prediksi batch dari model Anda.
Dapatkan prediksi online dari model Anda.
Ekspor model Anda.
Pelajari lebih lanjut cara menggunakan operasi yang berjalan lama.