Dataflow

Pemrosesan data streaming dan batch terpadu, yang tanpa server, cepat, dan hemat biaya.

Coba Dataflow gratis
  • action/check_circle_24px Dibuat dengan Sketch.

    Layanan pemrosesan data yang terkelola sepenuhnya

  • action/check_circle_24px Dibuat dengan Sketch.

    Penyediaan dan pengelolaan pemrosesan resource yang otomatis

  • action/check_circle_24px Dibuat dengan Sketch.

    Penskalaan horizontal otomatis terhadap resource pekerja untuk memaksimalkan penggunaan resource

  • action/check_circle_24px Dibuat dengan Sketch.

    Inovasi berbasis komunitas OSS dengan Apache Beam SDK

  • action/check_circle_24px Dibuat dengan Sketch.

    Pemrosesan tepat satu kali, andal, dan konsisten

Manfaat

Melakukan streaming analisis data dengan cepat

Dataflow memungkinkan pengembangan pipeline data streaming yang cepat dan sederhana dengan latensi data yang lebih rendah.

Mempermudah operasi dan pengelolaan

Biarkan tim untuk berfokus pada pemrograman, dan bukan pengelolaan cluster server karena pendekatan tanpa server Dataflow menghilangkan overhead operasional dari beban kerja rekayasa data.

Mengurangi total biaya kepemilikan

Dengan penskalaan otomatis resource serta kemampuan batch processing dengan pengoptimalan biaya, Dataflow menawarkan kapasitas tanpa batas untuk mengelola beban kerja musiman atau naik turun tanpa memboroskan anggaran.

Fitur utama

Fitur utama

Penskalaan otomatis resource dan penyeimbangan ulang tugas dinamis

Minimalkan latensi pipeline, maksimalkan penggunaan resource, dan kurangi biaya pemrosesan per record data dengan penskalaan otomatis resource yang sadar data. Input data dipartisi secara otomatis dan terus diseimbangkan kembali untuk meratakan penggunaan resource pekerja dan mengurangi efek “hot key” terhadap performa pipeline.

Penjadwalan dan harga yang fleksibel untuk batch processing

Untuk pemrosesan dengan waktu penjadwalan tugas fleksibel, seperti tugas semalaman, penjadwalan resource yang fleksibel (FlexRS) menawarkan harga yang lebih rendah untuk batch processing. Tugas fleksibel ini ditempatkan dalam antrean dengan jaminan bahwa tugas tersebut akan diambil untuk dieksekusi dalam waktu enam jam.

Pola AI real-time yang siap digunakan

Diaktifkan melalui pola yang siap digunakan, kemampuan AI real-time Dataflow memungkinkan reaksi real-time dengan kecerdasan yang hampir mirip manusia terhadap aliran peristiwa yang sangat deras. Pelanggan dapat mem-build solusi cerdas, mulai dari analisis prediktif, deteksi anomali, hingga personalisasi real-time dan kasus penggunaan analisis lanjutan lainnya. 

Lihat semua fitur

Pelanggan

Pelanggan

Dow Jones
Dow Jones mengurai makna dari set data peristiwa historis penting dengan Dataflow.
Baca kisahnya

Sorotan kisah

  • Menyintesis lebih dari 30 tahun data berita untuk menilai dampak bisnis.

  • Menemukan hubungan dan insight data yang tersembunyi.

  • Prototipe Grafik Pengetahuan dihasilkan dengan mudah dalam 10 minggu

Partner

Yang baru

Yang baru

Daftar untuk berlangganan newsletter Google Cloud guna menerima info terbaru produk, informasi acara, penawaran spesial, dan lainnya.

Dokumentasi

Dokumentasi

Panduan Memulai
Panduan memulai Dataflow menggunakan Python

Siapkan project Google Cloud dan lingkungan pengembangan Python, dapatkan Apache Beam SDK, lalu jalankan dan ubah contoh WordCount di layanan Dataflow.

Tutorial
Menggunakan Dataflow SQL

Buat kueri SQL dan deploy tugas Dataflow untuk menjalankan kueri Anda dari UI Dataflow SQL.

Tutorial
Menginstal Apache Beam SDK

Instal Apache Beam SDK sehingga Anda dapat menjalankan pipeline di layanan Dataflow.

Tutorial
Machine learning dengan Apache Beam dan TensorFlow

Lakukan pra-proses, latih, dan buat prediksi pada model machine learning energi molekul, menggunakan Apache Beam, Dataflow, dan TensorFlow.

Tutorial
Qwiklab: Memproses Data dengan Google Cloud Dataflow

Pelajari cara memproses set data real-time berbasis teks menggunakan Python dan Dataflow, lalu menyimpannya di BigQuery.

Dasar-Dasar Google Cloud
Referensi Dataflow

Temukan informasi terkait harga, kuota resource, FAQ, dan lainnya.

Tutorial
Pelajari solusi yang dapat Anda build di Google Cloud

Temukan panduan referensi teknis Google Cloud yang berhubungan dengan Dataflow.

Kasus penggunaan

Kasus penggunaan

Kasus penggunaan
Analisis streaming

Analisis streaming Google menjadikan data lebih terkelola, bermanfaat, dan mudah diakses secara langsung setelah dibuat. Solusi streaming kami, yang di-build dari Dataflow serta Pub/Sub dan BigQuery, menyediakan resource yang dibutuhkan untuk menyerap, memproses, dan menganalisis data real-time dengan volume yang berfluktuasi untuk insight bisnis real-time. Penyediaan secara terpisah ini mengurangi kompleksitas dan menjadikan analisis streaming dapat diakses oleh para analis dan engineer data.

Diagram analisis streaming Dataflow
Kasus penggunaan
AI real-time

Dataflow menghadirkan peristiwa streaming ke AI Platform dan TensorFlow Extended (TFX) Google Cloud untuk memungkinkan analisis prediktif, deteksi penipuan, personalisasi real-time, dan kasus penggunaan analisis lanjutan lainnya. TFX menggunakan Dataflow dan Apache Beam sebagai mesin pemrosesan data terdistribusi untuk memungkinkan beberapa aspek siklus proses ML, semuanya didukung dengan CI/CD untuk ML melalui pipeline Kubeflow.

Kasus penggunaan
Pemrosesan data sensor dan log

Hasilkan insight bisnis dari jaringan perangkat global Anda dengan platform IoT yang cerdas.

Semua fitur

Semua fitur

Streaming Engine Streaming Engine memisahkan compute dari penyimpanan state dan memindahkan bagian eksekusi pipeline dari VM pekerja ke backend layanan Dataflow, sehingga meningkatkan penskalaan otomatis dan mengurangi latensi data secara signifikan.
Penskalaan otomatis Penskalaan otomatis memungkinkan layanan Dataflow secara otomatis memilih jumlah instance pekerja yang tepat, yang diperlukan untuk menjalankan tugas Anda. Layanan Dataflow juga dapat secara dinamis mengalokasikan lebih banyak atau lebih sedikit pekerja selama runtime agar sesuai dengan karakteristik tugas Anda.
Dataflow Shuffle Dataflow Shuffle berbasis layanan memindahkan operasi shuffle, yang digunakan untuk mengelompokkan dan menggabungkan data, dari VM pekerja ke backend layanan Dataflow untuk pipeline batch. Pipeline batch melakukan penskalaan dengan lancar, tanpa memerlukan penyesuaian, ke ratusan terabyte.
Dataflow SQL Dataflow SQL memungkinkan Anda menggunakan keterampilan SQL Anda untuk mengembangkan pipeline Dataflow streaming langsung dari UI web BigQuery. Anda dapat menggabungkan data streaming dari Pub/Sub dengan file di Cloud Storage atau tabel di BigQuery, menulis hasil ke BigQuery, dan mem-build dasbor real-time menggunakan Google Spreadsheet atau alat BI lainnya.
Penjadwalan Resource yang Fleksibel (FlexRS) Dataflow FlexRS mengurangi biaya batch processing menggunakan teknik penjadwalan lanjutan, layanan Dataflow Shuffle, dan kombinasi instance preemptible virtual machine (VM) dan VM reguler.
Template Dataflow Template Dataflow memungkinkan Anda dengan mudah membagikan pipeline dengan anggota tim dan dengan seluruh organisasi Anda atau memanfaatkan berbagai template yang disediakan Google untuk menerapkan tugas pemrosesan data yang sederhana tetapi bermanfaat. Dengan Template Flex, Anda dapat membuat template dari pipeline Dataflow apa pun.
Integrasi Notebook Build pipeline secara iteratif dari awal dengan AI Platform Notebooks dan deploy dengan runner Dataflow. Tulis pipeline Apache Beam langkah demi langkah dengan memeriksa grafik pipeline di alur kerja read-eval-print-loop (REPL). Tersedia melalui AI Platform Google, Notebooks memungkinkan Anda menulis pipeline di lingkungan yang intuitif dengan sains data dan framework machine learning terbaru.
Pemantauan inline Pemantauan inline Dataflow memungkinkan Anda mengakses metrik tugas secara langsung untuk membantu pemecahan masalah pipeline streaming dan batch. Anda dapat mengakses chart pemantauan di visibilitas tingkat langkah dan pekerja serta menyetel pemberitahuan untuk kondisi seperti data stale dan latensi sistem yang tinggi.
Kunci enkripsi yang dikelola pelanggan Anda dapat membuat pipeline streaming atau batch yang dilindungi dengan kunci enkripsi yang dikelola pelanggan (CMEK) atau mengakses data yang dilindungi CMEK di sumber dan sink.
Kontrol Layanan VPC Dataflow Integrasi Dataflow dengan Kontrol Layanan VPC memberikan keamanan tambahan terhadap lingkungan pemrosesan data Anda dengan meningkatkan kemampuan Anda untuk memitigasi risiko pemindahan data yang tidak sah.
IP Pribadi Menonaktifkan IP publik memungkinan Anda untuk lebih mengamankan infrastruktur pemrosesan data. Dengan tidak menggunakan alamat IP publik untuk pekerja Dataflow, Anda juga mengurangi jumlah alamat IP publik yang Anda gunakan dari kuota project Google Cloud.

Harga

Harga

Tugas Dataflow dikenai biaya per detik, berdasarkan penggunaan sebenarnya dari pekerja batch atau streaming Dataflow. Resource tambahan seperti Cloud Storage atau Pub/Sub dikenai biaya berdasarkan harga setiap layanan tersebut.

Partner

Partner

Partner Google Cloud telah mengembangkan integrasi dengan Dataflow untuk menjalankan tugas pemrosesan data berbagai ukuran secara cepat dan mudah.