Google Cloud dinobatkan sebagai Pemimpin dalam laporan Forrester Wave: Streaming Data Platforms 2023. Pelajari lebih lanjut.

Langsung ke
Dataflow

Dataflow

Pemrosesan data streaming dan batch terpadu, yang serverless, cepat, dan hemat biaya.

Pelanggan baru mendapatkan $300 dalam bentuk kredit gratis untuk dibelanjakan di Dataflow.

  • Insight dan aktivasi real-time dengan aliran data dan machine learning

  • Layanan pemrosesan data yang terkelola sepenuhnya

  • Penyediaan dan pengelolaan resource pemrosesan yang otomatis

  • Penskalaan horizontal dan vertikal otomatis terhadap resource pekerja untuk memaksimalkan penggunaan resource

  • Inovasi berbasis komunitas OSS dengan Apache Beam SDK

Manfaat

Melakukan streaming analisis data dengan cepat

Dataflow memungkinkan pengembangan pipeline data streaming yang cepat dan sederhana dengan latensi data yang lebih rendah.

Mempermudah pengoperasian dan pengelolaan

Biarkan tim untuk berfokus pada pemrograman, dan bukan pengelolaan cluster server karena pendekatan serverless Dataflow menghilangkan beban operasional dari workload data engineering.

Mengurangi total biaya kepemilikan

Dengan penskalaan otomatis resource serta kemampuan batch processing yang menggunakan pengoptimalan biaya, Dataflow menawarkan kapasitas tanpa batas untuk mengelola workload musiman atau naik turun tanpa memboroskan anggaran.

Fitur utama

Fitur utama

AI real-time yang siap digunakan

Diaktifkan melalui fitur ML siap pakai termasuk NVIDIA GPU dan pola yang siap digunakan, kemampuan AI real-time Dataflow memungkinkan reaksi real-time dengan kecerdasan yang hampir mirip manusia terhadap banyaknya rentetan event.

Pelanggan dapat membuat solusi cerdas, mulai dari analisis prediktif, deteksi anomali, hingga personalisasi real-time dan kasus penggunaan analisis lanjutan lainnya.

Melatih, men-deploy, dan mengelola pipeline machine learning (ML) lengkap, termasuk inferensi lokal dan jarak jauh dengan pipeline streaming dan batch. 

Penskalaan otomatis resource dan penyeimbangan ulang tugas dinamis

Minimalkan latensi pipeline, maksimalkan penggunaan resource, dan kurangi biaya pemrosesan per kumpulan data dengan penskalaan otomatis resource yang sadar data. Input data dipartisi secara otomatis dan terus diseimbangkan kembali untuk meratakan penggunaan resource worker dan mengurangi efek “hot key” terhadap performa pipeline.

Kemampuan observasi dan pemantauan

Mengamati data di setiap langkah pipeline Dataflow. Mendiagnosis masalah dan memecahkan masalah secara efektif dengan sampel data aktual. Membandingkan berbagai operasi tugas untuk mengidentifikasi masalah dengan mudah.

Lihat semua fitur

Dokumentasi

Dokumentasi

Tutorial

Pemrosesan Data Serverless dengan Dataflow: Dasar-dasar

Pelatihan dasar terkait semua hal yang perlu Anda tahu tentang Dataflow.
Tutorial

Panduan memulai Dataflow menggunakan Python

Siapkan project Google Cloud dan lingkungan pengembangan Python, dapatkan Apache Beam Python SDK, lalu jalankan dan ubah contoh WordCount di layanan Dataflow.
Tutorial

Menggunakan Dataflow SQL

Buat kueri SQL dan deploy tugas Dataflow untuk menjalankan kueri Anda dari UI Dataflow SQL.
Tutorial

Menginstal Apache Beam SDK

Instal Apache Beam SDK sehingga Anda dapat menjalankan pipeline di layanan Dataflow.
Tutorial

Machine learning dengan Apache Beam dan TensorFlow

Lakukan prapemrosesan, latih, dan buat prediksi pada model machine learning energi molekul, menggunakan Apache Beam, Dataflow, dan TensorFlow.
Tutorial

Tutorial jumlah kata Dataflow menggunakan Java

Dalam tutorial ini, Anda akan mempelajari dasar-dasar layanan Cloud Dataflow dengan menjalankan contoh pipeline simpel menggunakan Apache Beam Java SDK.
Tutorial

Lab interaktif: Memproses Data dengan Google Cloud Dataflow

Pelajari cara memproses set data real-time berbasis teks menggunakan Python dan Dataflow, lalu menyimpannya di BigQuery.
Tutorial

Lab interaktif: Stream Processing dengan Pub/Sub dan Dataflow

Pelajari cara menggunakan Dataflow untuk membaca pesan yang dipublikasikan ke topik Pub/Sub, mengelompokkan pesan berdasarkan stempel waktu, dan menulis pesan ke Cloud Storage.
Google Cloud Basics

Referensi Dataflow

Temukan informasi terkait harga, kuota resource, FAQ, dan lain-lain.

Tidak menemukan yang Anda cari?

Kasus penggunaan

Kasus penggunaan

Kasus penggunaan
Analisis streaming

Analisis streaming Google menjadikan data lebih terkelola, bermanfaat, dan mudah diakses secara langsung setelah dibuat. Solusi streaming kami, yang dibangun berdasarkan Dataflow serta Pub/Sub dan BigQuery, menyediakan resource yang dibutuhkan untuk menyerap, memproses, dan menganalisis data real-time dengan volume yang berfluktuasi untuk insight bisnis real-time. Penyediaan secara terpisah ini mengurangi kompleksitas dan menjadikan analisis streaming dapat diakses oleh para analis data dan data engineer.

Alur berurutan pada 5 kolom, mulai dari Pemicu, hingga Serap, Perkaya, Analisis & Aktifkan. Setiap kolom memiliki bagian atas dan bawah. Di bagian atas kolom Pemicu adalah perangkat edge (seluler, web, Penyimpanan Data, dan IoT) yang mengarah ke Pub/Sub di kolom Serap, lalu ke kolom Perkaya dan Streaming Apache Beam/Dataflow, lalu ke bawah kotak Analisis kemudian kotak Aktifkan yang akhirnya mengarah kembali ke perangkat edge di Kol 1. Dari Apache Beam di kolom 3, panah mengarah bolak-balik ke kolom Analisis, ke BigQuery, AI Platform, dan Bigtable: ketiganya ditunjuk oleh Pengisian Ulang/Proses Ulang - Dataflow Batch. Alur berpindah dari kolom BigQuery ke kolom Aktifkan, menuju Data Studio, BI pihak ketiga, dan Cloud Functions, yang mengarah kembali ke perangkat edge di kolom 1. Di bagian bawah kolom, ada keterangan Alur Pembuatan: Pemicu yang menyatakan “Konfigurasikan sumber untuk mengirimkan pesan peristiwa push ke topik Pub/Sub.” Mengarah ke Serap “Buat Topik dan langganan Pub/Sub.” Ke Perkaya “Deploy streaming atau tugas Dataflow batch menggunakan template, CLI, atau notebooks.” Ke Analisis “Buat set data, tabel, dan model untuk menerima stream.” Ke Aktifkan “Buat dasbor real-time dan panggil API eksternal.”
Kasus penggunaan
AI Real-time

Dataflow menghadirkan peristiwa streaming ke Vertex AI dan TensorFlow Extended (TFX) Google Cloud untuk memungkinkan analisis prediktif, deteksi penipuan, personalisasi real-time, dan kasus penggunaan analisis lanjutan lainnya. TFX menggunakan Dataflow dan Apache Beam sebagai mesin pemrosesan data terdistribusi untuk memungkinkan beberapa aspek siklus proses ML, semuanya didukung dengan CI/CD untuk ML melalui pipeline Kubeflow.

Kasus penggunaan
Pemrosesan data log dan sensor

Hasilkan insight bisnis dari jaringan perangkat global Anda dengan platform IoT yang cerdas.

Semua fitur

Semua fitur

ML Dataflow
Men-deploy dan mengelola pipeline machine learning (ML) dengan mudah. Menggunakan model ML untuk melakukan inferensi lokal dan jarak jauh dengan pipeline streaming dan batch. Menggunakan alat pemrosesan data guna menyiapkan data Anda untuk pelatihan model dan memproses hasil model.
GPU Dataflow
Sistem pemrosesan data yang dioptimalkan untuk performa dan biaya penggunaan GPU Anda. Dukungan untuk berbagai GPU NVIDIA.
Penskalaan otomatis vertikal
Secara dinamis menyesuaikan kapasitas komputasi yang dialokasikan ke setiap worker berdasarkan pemakaian. Penskalaan otomatis vertikal dapat dimanfaatkan secara bersama dengan penskalaan otomatis horizontal untuk menskalakan worker secara lancar agar sesuai dengan kebutuhan pipeline.
Penskalaan horizontal otomatis
Penskalaan horizontal otomatis memungkinkan layanan Dataflow secara otomatis memilih jumlah instance worker yang diperlukan untuk menjalankan tugas Anda. Layanan Dataflow juga dapat secara dinamis mengalokasikan lebih banyak atau lebih sedikit worker selama runtime agar sesuai dengan karakteristik tugas Anda.
Penyesuaian yang tepat
Penyesuaian yang tepat akan membuat kumpulan resource untuk tahap tertentu yang dioptimalkan untuk setiap tahap guna mengurangi pemborosan resource.
Diagnostik cerdas
Rangkaian fitur yang mencakup 1) Pengelolaan pipeline data berbasis SLO, 2) Kemampuan visualisasi tugas yang memberi pengguna informasi visual untuk memeriksa grafik tugas dan mengidentifikasi bottleneck, 3) Rekomendasi otomatis untuk mengidentifikasi serta memperbaiki performa dan masalah ketersediaan.
Streaming Engine
Streaming Engine memisahkan komputasi dari penyimpanan state serta memindahkan sebagian eksekusi pipeline dari VM worker ke backend layanan Dataflow, sehingga meningkatkan penskalaan otomatis dan mengurangi latensi data secara signifikan.
Dataflow Shuffle
Dataflow Shuffle berbasis layanan memindahkan operasi shuffle, yang digunakan untuk mengelompokkan dan menggabungkan data, dari VM worker dan ke backend layanan Dataflow untuk pipeline batch. Pipeline batch melakukan penskalaan dengan lancar, tanpa memerlukan penyesuaian, ke ratusan terabyte.
Dataflow SQL
Dataflow SQL memungkinkan Anda menggunakan keterampilan SQL Anda untuk mengembangkan pipeline Dataflow streaming langsung dari UI web BigQuery. Anda dapat menggabungkan data streaming dari Pub/Sub dengan file di Cloud Storage atau tabel di BigQuery, menulis hasil ke BigQuery, dan membangun dasbor real-time menggunakan Google Spreadsheet atau alat BI lainnya.
Penjadwalan Resource yang Fleksibel (FlexRS)
Dataflow FlexRS mengurangi biaya batch processing menggunakan teknik penjadwalan lanjutan, layanan Dataflow Shuffle, dan kombinasi instance preemptible virtual machine (VM) dan VM reguler.
Template Dataflow
Template Dataflow memungkinkan Anda dengan mudah berbagi pipeline dengan anggota tim dan dengan seluruh organisasi Anda atau memanfaatkan berbagai template yang disediakan Google untuk menerapkan tugas pemrosesan data yang sederhana tetapi bermanfaat. Hal ini meliputi template Pengambilan Data Perubahan untuk kasus penggunaan analisis streaming. Dengan Template Flex, Anda dapat membuat template dari pipeline Dataflow apa pun.
Integrasi Notebooks
Bangun pipeline secara iteratif dari awal dengan Vertex AI Notebooks dan deploy dengan runner Dataflow. Tulis pipeline Apache Beam langkah demi langkah dengan memeriksa grafik pipeline dalam alur kerja read-eval-print-loop (REPL). Tersedia melalui Vertex AI Google, Notebooks memungkinkan Anda menulis pipeline di lingkungan intuitif dengan kerangka machine learning dan data science terbaru.
Pengambilan data perubahan real-time
Sinkronkan atau replikasikan data secara andal dan dengan latensi minimal di beragam sumber data untuk mendukung analisis streaming. Template Dataflow yang dapat dikembangkan lagi diintegrasikan dengan Datastream untuk mereplikasi data dari Cloud Storage ke BigQuery, PostgreSQL, atau Cloud Spanner. Konektor Debezium Apache Beam akan memberi opsi open source untuk menyerap perubahan data dari MySQL, PostgreSQL, SQL Server, dan Db2.
Pemantauan inline
Pemantauan inline Dataflow memungkinkan Anda mengakses metrik tugas secara langsung untuk membantu pemecahan masalah pipeline streaming dan batch. Anda dapat mengakses diagram pemantauan di visibilitas tingkat langkah dan worker serta menyetel pemberitahuan untuk kondisi seperti data tidak berlaku dan latensi sistem yang tinggi.
Kunci enkripsi yang dikelola pelanggan
Anda dapat membuat pipeline streaming atau batch yang dilindungi dengan kunci enkripsi yang dikelola pelanggan (CMEK) atau mengakses data yang dilindungi CMEK di sumber dan sink.
Kontrol Layanan VPC Dataflow
Integrasi Dataflow dengan Kontrol Layanan VPC memberikan keamanan tambahan terhadap lingkungan pemrosesan data Anda dengan meningkatkan kemampuan Anda untuk mengurangi risiko pemindahan data yang tidak sah.
IP Pribadi
Dengan menonaktifkan IP publik, Anda dapat mengamankan infrastruktur pemrosesan data secara lebih baik. Dengan tidak menggunakan alamat IP publik untuk worker Dataflow, Anda juga mengurangi jumlah alamat IP publik yang Anda gunakan dari kuota project Google Cloud.

Harga

Harga

Tugas Dataflow dikenai biaya per detik, berdasarkan penggunaan sebenarnya dari worker batch atau streaming Dataflow. Resource tambahan seperti Cloud Storage atau Pub/Sub dikenai biaya berdasarkan harga setiap layanan tersebut.

Partner

Mempelajari solusi partner

Partner Google Cloud telah mengembangkan integrasi dengan Dataflow untuk menjalankan tugas pemrosesan data berbagai ukuran secara cepat dan mudah.


Produk-produk Cloud AI mematuhi Kebijakan SLA kami. Produk tersebut mungkin menawarkan latensi atau jaminan ketersediaan yang berbeda dari layanan Google Cloud lainnya.

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
  • Transformasi Digital
  • Percepat pemulihan bisnis dan pastikan masa depan yang lebih baik dengan solusi yang memungkinkan hybrid dan multi-cloud, menghasilkan insight cerdas, dan membuat agar pekerja Anda tetap terhubung.
  • Hemat uang dengan pendekatan transparan kami soal harga
  • Harga bayar sesuai penggunaan dari Google Cloud menawarkan penghematan otomatis berdasarkan penggunaan bulanan dan tarif diskon untuk resource prabayar. Hubungi kami sekarang untuk mendapatkan penawaran harga.
Google Cloud