Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan Dataflow Prime

Dataflow Prime adalah platform pemrosesan data serverless untuk pipeline Apache Beam. Berdasarkan Dataflow, Dataflow Prime menggunakan arsitektur yang memisahkan komputasi dan status. Dalam kasus berikut, Dataflow Prime dapat meningkatkan efisiensi pipeline:

Pipeline Anda akan mendapatkan manfaat dari Penskalaan Otomatis Vertikal.

Dataflow Prime mendukung pipeline batch dan streaming. Secara default, Dataflow Prime menggunakan Dataflow Shuffle dan Dataflow Runner v2 untuk pipeline batch.

Dukungan versi SDK

Dataflow Prime mendukung Apache Beam SDK berikut:

Apache Beam Python SDK versi 2.21.0 atau yang lebih baru
Apache Beam Java SDK versi 2.30.0 atau yang lebih baru
Apache Beam Go SDK versi 2.44.0 atau yang lebih baru

Untuk mendownload paket SDK atau membaca Catatan Rilis, lihat Download Apache Beam.

Fitur Dataflow Prime

Berikut adalah daftar fitur Dataflow Prime yang didukung untuk berbagai jenis pipeline:

Penskalaan Otomatis Vertikal (memori). Mendukung pipeline streaming di Python, Java, dan Go.
Penyesuaian yang tepat (petunjuk resource). Mendukung pipeline batch di Python dan Java.
Visualizer Tugas. Mendukung pipeline batch di Python dan Java.
Rekomendasi Pintar. Mendukung pipeline streaming dan batch di Python dan Java.
Pipeline Data. Mendukung pipeline streaming dan batch di Python dan Java.

Fitur Job Visualizer, Smart Recommendations, dan Data Pipelines juga didukung untuk tugas non-Dataflow Prime.

Penskalaan Otomatis Vertikal

Fitur ini secara otomatis menyesuaikan memori yang tersedia untuk VM worker Dataflow agar sesuai dengan kebutuhan pipeline dan membantu mencegah error kehabisan memori. Di Dataflow Prime, Penskalaan Otomatis Vertikal bekerja bersama Penskalaan Otomatis Horizontal untuk menskalakan resource secara dinamis.

Untuk mengetahui informasi selengkapnya, lihat Penskalaan Otomatis Vertikal.

Penyesuaian yang tepat

Fitur ini menggunakan petunjuk resource, fitur Apache Beam. Dengan menggunakan petunjuk resource, Anda dapat menentukan persyaratan resource untuk seluruh pipeline atau untuk langkah-langkah tertentu dalam pipeline. Fitur ini memungkinkan Anda membuat worker yang disesuaikan untuk berbagai langkah pipeline. Penyesuaian yang tepat memungkinkan Anda menentukan resource pipeline untuk memaksimalkan efisiensi, menurunkan biaya operasional, dan menghindari error kehabisan memori dan error resource lainnya. API ini mendukung petunjuk resource GPU dan memori.

Penyesuaian yang tepat memerlukan Apache Beam 2.30.0 atau yang lebih baru.

Untuk mengetahui informasi selengkapnya, lihat Pemasangan yang tepat.

Job Visualizer

Dengan fitur ini, Anda dapat melihat performa tugas Dataflow dan mengoptimalkan performa tugas dengan menemukan kode yang tidak efisien, termasuk bottleneck paralelisme. Di konsol Google Cloud , Anda dapat mengklik tugas Dataflow apa pun di halaman Tugas untuk melihat detail tentang tugas tersebut. Anda juga dapat melihat daftar langkah-langkah yang terkait dengan setiap tahap pipeline.

Untuk mengetahui informasi selengkapnya, lihat Detail eksekusi.

Rekomendasi Smart

Fitur ini memungkinkan Anda mengoptimalkan dan memecahkan masalah pipeline berdasarkan rekomendasi yang diberikan di tab Diagnostik pada halaman detail tugas. Di konsol Google Cloud , Anda dapat mengklik tugas Dataflow apa pun di halaman Tugas untuk melihat detail tentang tugas tersebut.

Untuk mengetahui informasi selengkapnya, lihat Diagnostik.

Pipeline Data

Fitur ini memungkinkan Anda menjadwalkan tugas, mengamati pemanfaatan resource, melacak tujuan keaktualan data untuk data streaming, dan mengoptimalkan pipeline.

Untuk mengetahui informasi selengkapnya, lihat Bekerja dengan Pipeline Data.

Persyaratan kuota dan batas

Kuota dan batasnya sama untuk Dataflow dan Dataflow Prime. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas.

Jika Anda memilih Data Pipelines, ada implikasi tambahan untuk kuota dan region.

Fitur yang tidak didukung

Dataflow Prime tidak mendukung hal berikut:

Menetapkan jenis VM tertentu menggunakan tanda --worker_machine_type atau --machine_type untuk pipeline Python dan --workerMachineType untuk pipeline Java.
Melihat atau menggunakan SSH untuk login ke VM pekerja.
Flexible Resource Scheduling (FlexRS).
Menggunakan Kontrol Layanan VPC dengan Penskalaan Otomatis Vertikal. Jika Anda mengaktifkan Dataflow Prime dan meluncurkan tugas baru dalam perimeter Kontrol Layanan VPC, tugas tersebut akan menggunakan Dataflow Prime tanpa Penskalaan Otomatis Vertikal.
NVIDIA Multi-Process Service (MPS).
Pipeline Java yang memenuhi persyaratan berikut dapat menggunakan class MapState dan SetState:
- menggunakan Streaming Engine
- menggunakan Apache Beam SDK versi 2.58.0 dan yang lebih baru
- Jangan gunakan Runner v2

Semua opsi pipeline yang tidak disebutkan secara eksplisit sebelumnya atau dalam tabel perbandingan fitur berfungsi sama untuk Dataflow dan Dataflow Prime.

Sebelum menggunakan Dataflow Prime

Untuk menggunakan Dataflow Prime, Anda dapat menggunakan kembali kode pipeline yang ada dan juga mengaktifkan opsi Dataflow Prime melalui Cloud Shell atau secara terprogram.

Dataflow Prime kompatibel mundur dengan tugas batch yang menggunakan Dataflow Shuffle dan tugas streaming yang menggunakan Streaming Engine. Namun, sebaiknya uji pipeline Anda dengan Dataflow Prime sebelum menggunakannya di lingkungan produksi.

Jika pipeline streaming Anda berjalan dalam produksi, untuk menggunakan Dataflow Prime, lakukan langkah-langkah berikut:

Hentikan pipeline.
Aktifkan Dataflow Prime.
Jalankan kembali pipeline.

Mengaktifkan Dataflow Prime

Untuk mengaktifkan Dataflow Prime untuk pipeline:

Aktifkan Cloud Autoscaling API.

Mengaktifkan API

Dataflow Prime menggunakan Cloud Autoscaling API untuk menyesuaikan memori secara dinamis.
Aktifkan Prime di opsi pipeline Anda.

Anda dapat menetapkan opsi pipeline secara terprogram atau menggunakan command line. Untuk versi Apache Beam SDK yang didukung, aktifkan tanda berikut:

Java

--dataflowServiceOptions=enable_prime

Python

Apache Beam Python SDK versi 2.29.0 atau yang lebih baru:

--dataflow_service_options=enable_prime

Apache Beam Python SDK versi 2.21.0 hingga 2.28.0:

--experiments=enable_prime

Go

--dataflow_service_options=enable_prime