Halaman ini menunjukkan cara menginstal Apache Beam SDK sehingga Anda dapat menjalankan pipeline pada layanan Dataflow.
Menginstal rilis SDK
Apache Beam SDK adalah model pemrograman open source untuk pipeline data. Anda menentukan pipeline ini dengan program Apache Beam dan dapat memilih runner, seperti Dataflow, untuk menjalankan pipeline.
Java
Versi terbaru yang dirilis untuk Apache Beam SDK untuk Java adalah 2.55.1. Lihat pengumuman rilis untuk mendapatkan informasi tentang perubahan yang disertakan dalam rilis tersebut.
Untuk mendapatkan Apache Beam SDK untuk Java menggunakan Maven, gunakan salah satu artefak yang dirilis dari Maven Central Repository.
Tambahkan dependensi dan alat pengelolaan dependensi ke file pom.xml
untuk artefak SDK. Untuk mengetahui detailnya, lihat
Mengelola dependensi pipeline di Dataflow.
Untuk informasi selengkapnya tentang Apache Beam SDK untuk dependensi Java, lihat Apache Beam SDK untuk dependensi Java dan Mengelola dependensi Beam di Java dalam dokumentasi Apache Beam.
Python
Versi terbaru yang dirilis untuk Apache Beam SDK untuk Python adalah 2.55.1. Lihat pengumuman rilis untuk mendapatkan informasi tentang perubahan yang disertakan dalam rilis tersebut.
Untuk mendapatkan Apache Beam SDK untuk Python, gunakan salah satu paket yang dirilis dari Indeks Paket Python.
Instal wheel Python dengan menjalankan perintah berikut:
pip install wheel
Instal versi terbaru Apache Beam SDK untuk Python dengan menjalankan perintah berikut dari lingkungan virtual:
pip install 'apache-beam[gcp]'
Bergantung pada koneksi, penginstalan mungkin memerlukan waktu beberapa saat.
Untuk mengupgrade penginstalan apache-beam yang sudah ada, gunakan flag --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
Versi terbaru yang dirilis untuk Apache Beam SDK untuk Go adalah 2.55.1. Lihat pengumuman rilis untuk mendapatkan informasi tentang perubahan yang disertakan dalam rilis tersebut.
Untuk menginstal Apache Beam SDK untuk Go versi terbaru, jalankan perintah berikut:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Menyiapkan lingkungan pengembangan
Guna mengetahui informasi cara menyiapkan project Google Cloud dan lingkungan pengembangan untuk menggunakan Dataflow, ikuti salah satu panduan memulai:
- Membuat pipeline Dataflow menggunakan Java
- Membuat pipeline Dataflow menggunakan Python
- Membuat pipeline Dataflow menggunakan Go
- Membuat pipeline streaming menggunakan template Dataflow
Kode sumber dan contoh
Kode sumber Apache Beam tersedia di repositori Apache Beam di GitHub.
Java
Contoh kode tersedia di direktori Contoh Apache Beam di GitHub.
Python
Contoh kode tersedia di direktori Example Apache Beam di GitHub.
Go
Contoh kode tersedia di direktori Example Apache Beam di GitHub.
Menemukan versi Dataflow SDK
Detail penginstalan bergantung pada lingkungan pengembangan Anda. Jika menggunakan Maven, Anda dapat memiliki beberapa versi Dataflow SDK yang "terinstal", di satu atau beberapa repositori Maven lokal.
Java
Untuk mengetahui versi Dataflow SDK yang dijalankan oleh pipeline tertentu, Anda dapat melihat output konsol saat menjalankan DataflowPipelineRunner
atau BlockingDataflowPipelineRunner
. Konsol akan berisi pesan seperti berikut, yang berisi informasi versi Dataflow SDK:
Python
Untuk mengetahui versi Dataflow SDK yang dijalankan oleh pipeline tertentu, Anda dapat melihat output konsol saat menjalankan DataflowRunner
. Konsol akan berisi pesan seperti berikut, yang berisi informasi versi Dataflow SDK:
Go
Untuk mengetahui versi Dataflow SDK yang dijalankan oleh pipeline tertentu, Anda dapat melihat output konsol saat menjalankan DataflowRunner
. Konsol akan berisi pesan seperti berikut, yang berisi informasi versi Dataflow SDK:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
Langkah selanjutnya
- Dataflow terintegrasi dengan Google Cloud CLI. Untuk mengetahui petunjuk cara menginstal antarmuka command line Dataflow, baca artikel Menggunakan antarmuka command line Dataflow.
- Untuk mempelajari kemampuan Apache Beam yang didukung Dataflow, tinjau matriks kemampuan Apache Beam.