Menjalankan tugas Dataflow dalam container kustom

Dokumen ini menjelaskan cara menjalankan pipeline Dataflow menggunakan container kustom.

Untuk mengetahui informasi tentang cara membuat image container, lihat Mem-build image container kustom untuk Dataflow.

Saat Anda menjalankan pipeline, luncurkan pipeline menggunakan Apache Beam SDK dengan versi dan versi bahasa yang sama dengan SDK pada image container kustom Anda. Langkah ini menghindari error yang tidak terduga dari dependensi atau SDK yang tidak kompatibel.

Menguji secara lokal

Sebelum menjalankan pipeline di Dataflow, sebaiknya uji image container secara lokal, agar pengujian dan proses debug berjalan lebih cepat.

Untuk mempelajari lebih lanjut penggunaan khusus Apache Beam, lihat panduan Apache Beam untuk Menjalankan pipeline dengan image container kustom.

Pengujian dasar dengan PortableRunner

Untuk memverifikasi bahwa image container jarak jauh dapat diambil dan dapat menjalankan pipeline sederhana, gunakan PortableRunner Apache Beam. Saat Anda menggunakan PortableRunner, pengiriman tugas akan dilakukan di lingkungan lokal, dan eksekusi DoFn terjadi di lingkungan Docker.

Saat Anda menggunakan GPU, container Docker mungkin tidak memiliki akses ke GPU. Untuk menguji container dengan GPU, gunakan direct runner dan ikuti langkah-langkah untuk menguji image container pada VM mandiri dengan GPU di bagian Debug dengan VM mandiri di halaman "Gunakan GPU".

Berikut ini adalah contoh pipeline:

Java

mvn compile exec:java -Dexec.mainClass=com.example.package.MyClassWithMain \
    -Dexec.args="--runner=PortableRunner \
    --jobEndpoint=REGION \
    --defaultEnvironmentType=DOCKER \
    --defaultEnvironmentConfig=IMAGE_URI \
    --inputFile=INPUT_FILE \
    --output=OUTPUT_FILE"

Python

python path/to/my/pipeline.py \
  --runner=PortableRunner \
  --job_endpoint=REGION \
  --environment_type=DOCKER \
  --environment_config=IMAGE_URI \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE

Go

go path/to/my/pipeline.go \
  --runner=PortableRunner \
  --job_endpoint=REGION \
  --environment_type=DOCKER \
  --environment_config=IMAGE_URI \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE

Ganti kode berikut:

  • REGION: wilayah layanan tugas yang akan digunakan, dalam bentuk alamat dan port. Contoh: localhost:3000. Gunakan embed untuk menjalankan layanan tugas dalam proses.
  • IMAGE_URI: URI image container kustom.
  • INPUT_FILE: file input yang dapat dibaca sebagai file teks. File ini harus dapat diakses oleh image container
    harness SDK, baik yang dimuat sebelumnya di image container atau file jarak jauh.
  • OUTPUT_FILE: jalur untuk menulis output. Jalur ini dapat berupa jalur jarak jauh atau jalur lokal pada container.

Setelah pipeline berhasil diselesaikan, tinjau log konsol untuk memastikan pipeline berhasil diselesaikan dan bahwa gambar jarak jauh, yang ditentukan oleh IMAGE_URI, digunakan.

Setelah menjalankan pipeline, file yang disimpan ke penampung tidak ada dalam sistem file lokal Anda, dan container akan dihentikan. Anda dapat menyalin file dari sistem file container yang dihentikan menggunakan docker cp.

Sebagai alternatif:

  • Memberikan output ke sistem file jarak jauh seperti Cloud Storage. Anda mungkin perlu mengonfigurasi akses secara manual untuk tujuan pengujian, termasuk untuk file kredensial atau Kredensial Default Aplikasi.
  • Untuk proses debug cepat, tambahkan logging sementara.

Menggunakan Runner Langsung

Untuk pengujian lokal yang lebih mendalam pada image container dan pipeline Anda, gunakan Direct Runner Apache Beam.

Anda dapat memverifikasi pipeline secara terpisah dari container dengan mengujinya di lingkungan lokal yang cocok dengan image container, atau dengan meluncurkan pipeline pada container yang sedang berjalan.

Java

docker run -it --entrypoint "/bin/bash" IMAGE_URI
...
# On docker container:
root@4f041a451ef3:/#  mvn compile exec:java -Dexec.mainClass=com.example.package.MyClassWithMain ...

Python

docker run -it --entrypoint "/bin/bash" IMAGE_URI
...
# On docker container:
root@4f041a451ef3:/#  python path/to/my/pipeline.py ...

Go

docker run -it --entrypoint "/bin/bash" IMAGE_URI
...
# On docker container:
root@4f041a451ef3:/#  go path/to/my/pipeline.go ...

Ganti IMAGE_URI dengan URI image container kustom.

Contoh ini mengasumsikan bahwa semua file pipeline, termasuk pipeline itu sendiri, berada di penampung kustom, telah dipasang dari sistem file lokal, atau bersifat jarak jauh dan dapat diakses oleh Apache Beam dan container. Misalnya, untuk menggunakan Maven (mvn) guna menjalankan contoh Java sebelumnya, Maven dan dependensinya harus di-stage di container. Untuk mengetahui informasi selengkapnya, lihat Penyimpanan dan docker run di dokumentasi Docker.

Pengujian di Direct Runner bertujuan untuk menguji pipeline Anda di lingkungan container kustom, bukan menguji proses menjalankan container dengan ENTRYPOINT default. Ubah ENTRYPOINT (misalnya, docker run --entrypoint ...) untuk langsung menjalankan pipeline atau mengizinkan perintah yang berjalan secara manual di container.

Jika Anda mengandalkan konfigurasi tertentu yang didasarkan pada menjalankan container di Compute Engine, Anda dapat menjalankan container secara langsung di VM Compute Engine. Untuk mengetahui informasi selengkapnya, lihat Container di Compute Engine.

Meluncurkan tugas Dataflow

Saat meluncurkan pipeline Apache Beam di Dataflow, tentukan jalur ke image container. Jangan gunakan tag :latest pada gambar kustom Anda. Beri tag pada build dengan tanggal atau ID unik. Jika terjadi error, penggunaan jenis tag ini dapat memungkinkan Anda mengembalikan eksekusi pipeline ke konfigurasi kerja yang sebelumnya diketahui dan memungkinkan pemeriksaan perubahan.

Java

Gunakan --sdkContainerImage untuk menentukan image container SDK bagi runtime Java Anda.

Gunakan --experiments=use_runner_v2 untuk mengaktifkan Runner v2.

Python

Jika menggunakan SDK versi 2.30.0 atau yang lebih baru, gunakan opsi pipeline --sdk_container_image untuk menentukan gambar penampung SDK.

Untuk SDK versi sebelumnya, gunakan opsi pipeline --worker_harness_container_image guna menentukan lokasi image container yang akan digunakan untuk harness pekerja.

Container kustom hanya didukung untuk Dataflow Runner v2. Jika Anda meluncurkan pipeline batch Python, tetapkan flag --experiments=use_runner_v2. Jika Anda meluncurkan pipeline streaming Python, Anda tidak perlu menentukan eksperimen, karena pipeline streaming Python menggunakan Runner v2 secara default.

Go

Jika menggunakan SDK versi 2.40.0 atau yang lebih baru, gunakan opsi pipeline --sdk_container_image untuk menentukan gambar penampung SDK.

Untuk SDK versi sebelumnya, gunakan opsi pipeline --worker_harness_container_image guna menentukan lokasi image container yang akan digunakan untuk harness pekerja.

Penampung kustom didukung pada semua versi Go SDK karena menggunakan Dataflow Runner v2 secara default.

Contoh berikut menunjukkan cara meluncurkan contoh WordCount batch dengan penampung kustom.

Java

mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \
   -Dexec.args="--runner=DataflowRunner \
                --inputFile=INPUT_FILE \
                --output=OUTPUT_FILE \
                --project=PROJECT_ID \
                --region=REGION \
                --gcpTempLocation=TEMP_LOCATION \
                --diskSizeGb=DISK_SIZE_GB \
                --experiments=use_runner_v2 \
                --sdkContainerImage=IMAGE_URI"

Python

Menggunakan Apache Beam SDK untuk Python versi 2.30.0 atau yang lebih baru:

python -m apache_beam.examples.wordcount \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE \
  --project=PROJECT_ID \
  --region=REGION \
  --temp_location=TEMP_LOCATION \
  --runner=DataflowRunner \
  --disk_size_gb=DISK_SIZE_GB \
  --experiments=use_runner_v2 \
  --sdk_container_image=IMAGE_URI

Go

wordcount --input gs://dataflow-samples/shakespeare/kinglear.txt \
          --output gs://<your-gcs-bucket>/counts \
          --runner dataflow \
          --project your-gcp-project \
          --region your-gcp-region \
          --temp_location gs://<your-gcs-bucket>/tmp/ \
          --staging_location gs://<your-gcs-bucket>/binaries/ \
          --sdk_container_image=IMAGE_URI

Ganti kode berikut:

  • INPUT_FILE: jalur input Cloud Storage yang dibaca oleh Dataflow saat menjalankan contoh.
  • OUTPUT_FILE: jalur output Cloud Storage yang ditulis oleh contoh pipeline. File ini berisi jumlah kata.
  • PROJECT_ID: ID project Google Cloud Anda.
  • REGION: region untuk men-deploy tugas Dataflow Anda.
  • TEMP_LOCATION: jalur Cloud Storage untuk Dataflow guna mempersiapkan file tugas sementara yang dibuat selama eksekusi pipeline.
  • DISK_SIZE_GB: Opsional. Jika container Anda berukuran besar, sebaiknya tingkatkan ukuran boot disk default agar tidak kehabisan ruang disk.
  • IMAGE_URI: URI image container kustom SDK. Selalu gunakan SHA atau tag penampung berversi. Jangan gunakan tag :latest atau tag yang dapat diubah.