Fitur dan kemampuan AutoML Tables

Halaman ini menjelaskan bagaimana AutoML Tables membantu Anda dan tim Anda untuk membangun model berperforma tinggi dari data tabel Anda.

Lihat halaman Masalah umum kami untuk mengetahui masalah umum saat ini dan cara menghindari atau memulihkannya.

AutoML Tables adalah Layanan yang tercakup dalam kewajiban Google yang ditetapkan dalam Persyaratan Pemrosesan dan Keamanan Data.

Dukungan data

AutoML Tables membantu Anda membuat data pelatihan yang bersih dan efektif dengan memberikan informasi tentang data yang hilang, korelasi, kardinalitas, dan distribusi untuk setiap fitur Anda. Dan karena mengimpor data dan melihat informasinya tidak dikenai biaya, Anda tidak dikenai biaya dari AutoML Tables hingga Anda mulai melatih model.

Rekayasa fitur

Saat Anda memulai pelatihan, AutoML Tables secara otomatis melakukan tugas rekayasa fitur umum untuk Anda, termasuk:

  • Menormalisasi dan mengelompokkan fitur numerik.
  • Membuat encoding dan embedding one-hot untuk fitur kategoris.
  • Lakukan pemrosesan dasar untuk fitur teks.
  • Ekstrak fitur terkait tanggal dan waktu dari kolom Stempel waktu.

Untuk mengetahui informasi selengkapnya, lihat Persiapan data yang dilakukan AutoML Tables untuk Anda.

Pelatihan model

Pengujian model paralel

Saat Anda memulai pelatihan untuk model, AutoML Tables mengambil set data Anda dan memulai pelatihan untuk beberapa arsitektur model secara bersamaan. Pendekatan ini memungkinkan AutoML Tables menentukan arsitektur model terbaik untuk data Anda dengan cepat, tanpa harus melakukan iterasi serial pada banyak kemungkinan arsitektur model. Pengujian arsitektur model AutoML Tables meliputi:

  • Linear
  • Jaringan saraf dalam alur maju
  • Pohon Keputusan Peningkatan Gradien
  • AdaNet
  • Kumpulan dari berbagai arsitektur model

Saat arsitektur model baru muncul dari komunitas riset, kami juga akan menambahkannya.

Evaluasi model dan pembuatan akhir model

Dengan menggunakan set pelatihan dan validasi Anda, kami menentukan arsitektur model terbaik untuk data Anda. Kemudian, kami melatih dua model lainnya, menggunakan parameter dan arsitektur yang kami tentukan pada fase pengujian paralel:

  1. Model yang dilatih dengan set pelatihan dan validasi Anda.

    Kami menggunakan set pengujian Anda untuk memberikan evaluasi model pada model ini.

  2. Model yang dilatih dengan set pelatihan, validasi, dan pengujian Anda.

    Model inilah yang kami berikan kepada Anda untuk membuat prediksi.

Memilih antara AutoML Tables dan BigQuery ML

Anda mungkin ingin menggunakan BigQuery ML jika lebih fokus pada eksperimen atau iterasi cepat dengan data yang akan disertakan dalam model dan ingin menggunakan jenis model yang lebih sederhana untuk tujuan ini (seperti regresi logistik).

Anda mungkin ingin bekerja langsung di antarmuka AutoML Tables jika Anda telah menyelesaikan data, dan Anda:

  • Melakukan pengoptimalan untuk memaksimalkan kualitas model (akurasi, RMSE rendah, dan sebagainya) tanpa perlu melakukan rekayasa fitur, pemilihan model, penafsiran, dan sebagainya secara manual.

  • Bersedia menunggu lebih lama untuk mendapatkan kualitas model tersebut. AutoML Tables memerlukan waktu setidaknya satu jam untuk melatih model karena bereksperimen dengan banyak opsi pemodelan. BigQuery ML berpotensi menampilkan model dalam hitungan menit karena tetap sesuai dengan arsitektur model, parameter value, dan rentang yang Anda tetapkan.

  • Memiliki berbagai input fitur (di luar angka dan class) yang akan bermanfaat dari rekayasa fitur otomatis tambahan yang disediakan AutoML Tables.

Transparansi model dan Cloud Logging

Anda dapat melihat struktur model AutoML Tables menggunakan Cloud Logging. Dalam Logging, Anda dapat melihat hyperparameter model akhir serta hyperparameter dan nilai tujuan yang digunakan selama validasi model.

Untuk mengetahui informasi selengkapnya, lihat Logging.

Penjelasan

Kami tahu bahwa Anda harus dapat menjelaskan keterkaitan data Anda dengan model akhir, serta dengan prediksi yang dibuatnya. Kami memberi dua cara utama untuk mendapatkan insight tentang model Anda dan cara beroperasinya:

Menguji ekspor data

Anda dapat mengekspor set pengujian, beserta prediksi yang dibuat model. Kemampuan ini memberi Anda insight tentang performa model Anda pada setiap baris data pelatihan. Memeriksa set pengujian dan hasilnya dapat membantu Anda memahami jenis prediksi yang performanya buruk, dan mungkin memberikan petunjuk tentang cara meningkatkan data untuk model yang berkualitas lebih tinggi.