Ringkasan pipeline ML

Dokumen ini memberikan ringkasan tentang layanan yang dapat Anda gunakan untuk membuat pipeline ML guna mengelola alur kerja MLOps BigQuery ML.

Pipeline ML adalah representasi alur kerja MLOps yang terdiri dari serangkaian tugas pipeline. Setiap tugas pipeline melakukan langkah tertentu dalam alur kerja MLOps untuk melatih dan men-deploy model. Memisahkan setiap langkah menjadi tugas standar yang dapat digunakan kembali memungkinkan Anda mengotomatiskan dan memantau proses berulang dalam praktik ML Anda.

Anda dapat menggunakan salah satu layanan berikut untuk membuat pipeline ML BigQuery ML:

  • Gunakan Vertex AI Pipelines untuk membuat pipeline ML yang portabel dan dapat diperluas.
  • Gunakan kueri GoogleSQL untuk membuat pipeline ML berbasis SQL yang kurang kompleks.
  • Gunakan Dataform untuk membuat pipeline ML berbasis SQL yang lebih kompleks, atau pipeline ML tempat Anda perlu menggunakan kontrol versi.

Vertex AI Pipelines

Di Vertex AI Pipelines, pipeline ML disusun sebagai directed acyclic graph (DAG) dari tugas pipeline berkontainer yang saling terhubung menggunakan dependensi input-output. Setiap tugas pipeline adalah pembuatan instance komponen pipeline dengan input tertentu. Saat menentukan pipeline ML, Anda menghubungkan beberapa tugas pipeline untuk membentuk DAG dengan merutekan output dari satu tugas pipeline ke input untuk tugas pipeline berikutnya dalam alur kerja ML. Anda juga dapat menggunakan input asli ke pipeline ML sebagai input untuk tugas pipeline tertentu.

Gunakan komponen BigQuery ML dari Google Cloud Pipeline Components SDK untuk membuat komposisi pipeline ML di Vertex AI Pipelines. Untuk mulai menggunakan komponen BigQuery ML, lihat notebook berikut:

Kueri GoogleSQL

Anda dapat menggunakan bahasa prosedural GoogleSQL untuk mengeksekusi beberapa pernyataan dalam kueri multi-pernyataan. Anda dapat menggunakan kueri multi-pernyataan untuk:

  • Menjalankan beberapa pernyataan secara berurutan, dengan status bersama.
  • Mengotomatiskan tugas pengelolaan seperti membuat atau menghapus tabel.
  • Terapkan logika kompleks menggunakan konstruksi pemrograman seperti IF dan WHILE.

Setelah membuat kueri multi-pernyataan, Anda dapat menyimpan dan menjadwalkan kueri untuk mengotomatiskan pelatihan, inferensi, dan pemantauan model.

Jika pipeline ML Anda menyertakan penggunaan fungsi ML.GENERATE_TEXT, lihat Menangani error kuota dengan memanggil ML.GENERATE_TEXT secara iteratif untuk mengetahui informasi selengkapnya tentang cara menggunakan SQL untuk melakukan iterasi melalui panggilan ke fungsi. Memanggil fungsi secara iteratif memungkinkan Anda mengatasi error yang dapat dicoba ulang yang terjadi karena melebihi kuota dan batas.

Dataform

Anda dapat menggunakan Dataform untuk mengembangkan, menguji, mengontrol versi, dan menjadwalkan alur kerja SQL yang kompleks untuk transformasi data di BigQuery. Anda dapat menggunakan Dataform untuk tugas seperti transformasi data dalam proses Ekstraksi, Pemuatan, dan Transformasi (ELT) untuk integrasi data. Setelah data mentah diekstrak dari sistem sumber dan dimuat ke BigQuery, Dataform membantu Anda mengubahnya menjadi rangkaian tabel data yang terdefinisi dengan baik, diuji, dan didokumentasikan.

Jika pipeline ML Anda menyertakan penggunaan fungsi ML.GENERATE_TEXT, Anda dapat menyesuaikan library contoh structured_table_ml.js untuk melakukan iterasi melalui panggilan ke fungsi. Memanggil fungsi secara iteratif memungkinkan Anda mengatasi error yang dapat dicoba ulang yang terjadi karena melebihi kuota dan batas yang berlaku untuk fungsi.