Ringkasan pipeline ML

Dokumen ini memberikan ringkasan layanan yang dapat Anda gunakan untuk membangun ML pipeline untuk mengelola BigQuery ML Anda MLOps alur kerja.

Pipeline ML adalah representasi dari alur kerja MLOps yang terdiri dari serangkaian tugas pipeline. Setiap tugas pipeline melakukan langkah tertentu dalam Alur kerja MLOps untuk melatih dan men-deploy model. Memisahkan setiap langkah ke dalam tugas terstandardisasi dan dapat digunakan kembali memungkinkan Anda mengotomatiskan dan memantau proses yang dapat diulang dalam praktik ML Anda.

Anda dapat menggunakan salah satu layanan berikut untuk membuat BigQuery ML Pipeline ML:

  • Menggunakan Vertex AI Pipelines untuk membuat pipeline ML yang portabel dan dapat diperluas.
  • Menggunakan kueri GoogleSQL untuk membuat ML berbasis SQL yang tidak terlalu rumit pipeline.
  • Menggunakan Dataform untuk membuat pipeline ML berbasis SQL yang lebih kompleks, atau ML pipeline yang mengharuskan Anda menggunakan kontrol versi.

Vertex AI Pipelines

Di Vertex AI Pipelines, pipeline ML disusun sebagai directed acyclic graph (DAG) dari container tugas pipeline yang saling berhubungan menggunakan dependensi input-output. Setiap tugas pipeline adalah instance dari komponen pipeline dengan input tertentu. Saat menentukan pipeline ML, Anda menghubungkan beberapa tugas pipeline untuk membentuk DAG dengan mengarahkan output dari satu tugas pipeline ke untuk tugas pipeline berikutnya dalam alur kerja ML. Anda juga dapat menggunakan input asli ke pipeline ML sebagai input untuk tugas pipeline tertentu.

Gunakan Komponen BigQuery ML Google Cloud Pipeline Components SDK untuk menyusun pipeline ML di Vertex AI Pipelines. Untuk mulai menggunakan Komponen ML BigQuery, lihat notebook berikut:

Kueri GoogleSQL

Anda dapat menggunakan Bahasa prosedural GoogleSQL untuk mengeksekusi beberapa pernyataan dalam satu kueri multi-pernyataan. Anda dapat menggunakan kueri multi-pernyataan ke:

  • Jalankan beberapa pernyataan secara berurutan, dengan status bersama.
  • Otomatiskan tugas pengelolaan seperti membuat atau melepas tabel.
  • Implementasikan logika kompleks menggunakan konstruksi pemrograman seperti IF dan WHILE.

Setelah membuat kueri multi-pernyataan, Anda bisa simpan dan menjadwalkan kueri untuk mengotomatiskan model pelatihan, inferensi, dan pemantauan.

Jika pipeline ML Anda mencakup penggunaan Fungsi ML.GENERATE_TEXT, lihat Tangani error kuota dengan memanggil ML.GENERATE_TEXT secara iteratif guna mengetahui informasi selengkapnya tentang cara menggunakan SQL untuk dan melakukan iterasi melalui panggilan ke fungsi. Memanggil fungsi memungkinkan Anda untuk mengatasi error yang dapat dicoba ulang karena kuota dan batas.

Dataform

Anda dapat menggunakan Dataform untuk mengembangkan, menguji, mengontrol versi, dan menjadwalkan alur kerja SQL yang kompleks untuk data transformasi di BigQuery. Anda dapat menggunakan Dataform untuk tugas seperti transformasi data di bagian Ekstraksi, Pemuatan, Proses transformasi (ELT) untuk integrasi data. Setelah data mentah diekstrak dari sistem sumber dan dimuat ke BigQuery, Dataform membantu Anda untuk mengubahnya menjadi data yang terdefinisi dengan baik, teruji, serta rangkaian tabel data yang terdokumentasi.

Jika pipeline ML Anda mencakup penggunaan Fungsi ML.GENERATE_TEXT, Anda dapat mengadaptasi library contoh structured_table_ml.js untuk melakukan iterasi melalui panggilan ke fungsi. Memanggil fungsi memungkinkan Anda untuk mengatasi error yang dapat dicoba ulang karena kuota dan batas yang berlaku untuk fungsi.