Membangun pipeline Dataflow

Halaman ini menjelaskan berbagai cara untuk membangun pipeline untuk Dataflow, dan keunggulan setiap metode.

Template yang disediakan Google

Google menyediakan template open source untuk puluhan pipeline Dataflow yang telah dibuat sebelumnya. Anda dapat menjalankan template ini dari konsolGoogle Cloud atau dari command line. Beberapa template mendukung penambahan fungsi yang ditentukan pengguna (UDF), sehingga Anda dapat mentransformasi data sebelum menulisnya ke tujuan output.

Pertimbangkan untuk menggunakan template jika ada yang sesuai dengan skenario Anda. Untuk mengetahui daftar lengkapnya, lihat Template yang disediakan Google.

Pembuat tugas

Builder tugas adalah UI visual untuk membangun dan menjalankan pipeline Dataflow di konsol Google Cloud , tanpa perlu menulis kode. Di pembuat tugas, Anda membuat pipeline dengan memilih sumber, sink, dan transformasi, lalu menghubungkannya untuk membentuk grafik. Pembangun tugas juga memungkinkan Anda menyimpan dan memuat pipeline sebagai file YAML.

Pertimbangkan pembuat tugas untuk skenario berikut:

  • Buat pipeline kustom jika template yang disediakan Google tidak sesuai dengan skenario Anda.
  • Buat pipeline tanpa coding.
  • Buat pipeline dengan beberapa sumber atau tujuan.
  • Buat prototipe cepat.

Untuk mengetahui informasi selengkapnya, lihat Ringkasan UI pembuat tugas.

Pembangun tugas mendukung subset sumber dan sink yang tersedia di Apache Beam. Jika Anda memerlukan template yang tidak didukung di pembuat tugas, coba template yang disediakan Google atau gunakan Apache Beam SDK.

Apache Beam SDK

Pipeline Dataflow dibangun di Apache Beam SDK open source. Dengan menggunakan SDK untuk menulis pipeline, Anda akan mendapatkan kemampuan penuh Apache Beam untuk beban kerja Anda. Pipeline dapat ditulis dalam Java, Python, atau Go.

Pertimbangkan untuk menggunakan Apache Beam SDK jika Anda tidak dapat mencapai skenario Anda dengan template yang disediakan Google atau dengan menggunakan pembuat tugas. Contoh:

  • Pipeline yang lebih kompleks yang memerlukan set fitur Apache Beam lengkap.
  • Pipeline streaming yang memerlukan strategi yang lebih canggih untuk menangani data terlambat, seperti pemrosesan ulang.

Untuk mengetahui informasi selengkapnya, lihat Menggunakan Apache Beam untuk membangun pipeline.

Notebook

Anda dapat menjalankan kode Python Apache Beam di notebook JupyterLab. Notebook ini tersedia melalui Vertex AI Workbench, layanan yang menghosting VM notebook yang telah diinstal sebelumnya dengan framework data science dan machine learning terbaru. Dengan notebook, Anda tidak perlu menyiapkan lingkungan pengembangan, dan Anda dapat melakukan iterasi pada kode pipeline dengan cepat. Notebook berjalan di lingkungan pengujian, tetapi Anda dapat mengekspor kode untuk penggunaan produksi.

Untuk mengetahui informasi selengkapnya, lihat Mengembangkan notebook Apache Beam.