Dataflow

Pemrosesan data streaming dan batch terpadu, yang tanpa server, cepat, dan hemat biaya.

Coba Dataflow gratis
  • action/check_circle_24px Dibuat dengan Sketch.

    Layanan pemrosesan data yang terkelola sepenuhnya

  • action/check_circle_24px Dibuat dengan Sketch.

    Penyediaan dan pengelolaan pemrosesan resource yang otomatis

  • action/check_circle_24px Dibuat dengan Sketch.

    Penskalaan horizontal otomatis terhadap resource pekerja untuk memaksimalkan penggunaan resource

  • action/check_circle_24px Dibuat dengan Sketch.

    Inovasi berbasis komunitas OSS dengan Apache Beam SDK

  • action/check_circle_24px Dibuat dengan Sketch.

    Pemrosesan tepat satu kali, andal, dan konsisten

Analisis data streaming dengan cepat

Dataflow memungkinkan pengembangan pipeline data streaming yang cepat dan sederhana dengan latensi data yang lebih rendah.

Mempermudah operasi dan pengelolaan

Memungkinkan tim untuk berfokus pada pemrograman, dan bukan pengelolaan cluster server karena pendekatan tanpa server Dataflow menghilangkan overhead operasional dari beban kerja rekayasa data.

Mengurangi total biaya kepemilikan

Penskalaan otomatis resource serta kemampuan batch processing dengan biaya yang dioptimalkan berarti bahwa Dataflow menawarkan kapasitas tanpa batas untuk mengelola beban kerja yang musiman dan naik turun tanpa mengeluarkan terlalu banyak anggaran

Fitur utama

Pengelolaan resource otomatis dan penyeimbangan ulang tugas dinamis

Dataflow mengotomatiskan penyediaan dan pengelolaan resource pemrosesan untuk menekan latensi dan memaksimalkan penggunaan, sehingga Anda tidak perlu lagi mengoperasikan instance atau mencadangkannya secara manual. Pembagian tugas juga diotomatiskan dan dioptimalkan untuk menyeimbangkan kembali tugas yang mengalami lag secara dinamis. Tidak perlu menghafal “hot key” atau memproses data input.

Penskalaan horizontal otomatis

Penskalaan horizontal otomatis terhadap resource pekerja demi mendapatkan hasil throughput yang optimal dan rasio harga terhadap performa keseluruhan yang lebih baik.

Harga penjadwalan resource yang fleksibel untuk batch processing

Untuk pemrosesan dengan waktu penjadwalan tugas yang fleksibel, seperti tugas semalaman, penjadwalan resource yang fleksibel (FlexRS) menawarkan harga yang lebih rendah untuk batch processing. Tugas fleksibel ini ditempatkan dalam antrean dengan jaminan bahwa tugas tersebut akan diambil untuk dieksekusi dalam waktu enam jam.

Lihat semua fitur

Pelanggan

Dow Jones
Dow Jones mewujudkan set data peristiwa historis utama dengan Dataflow.
Baca kisahnya

Sorotan kisah

  • Menyintesis lebih dari 30 tahun data berita untuk menilai dampak bisnis.

  • Menemukan hubungan dan insight data yang tersembunyi.

  • Pembuatan prototipe Grafik Pengetahuan yang diberikan dengan mudah dalam 10 minggu

Partner

Yang baru

Daftar untuk berlangganan newsletter Google Cloud guna menerima berita terbaru produk, informasi acara, penawaran spesial, dan banyak lagi.

Dokumentasi

Panduan Memulai
Panduan memulai Dataflow menggunakan Python

Siapkan project Google Cloud dan lingkungan pengembangan Python, dapatkan Apache Beam SDK, lalu jalankan dan ubah contoh WordCount di layanan Dataflow.

Tutorial
Menggunakan Dataflow SQL

Buat kueri SQL dan deploy tugas Dataflow untuk menjalankan kueri Anda dari UI Dataflow SQL.

Tutorial
Menginstal Apache Beam SDK

Instal Apache Beam SDK sehingga Anda dapat menjalankan pipeline di layanan Dataflow.

Tutorial
Machine learning dengan Apache Beam dan TensorFlow

Lakukan pra-proses, latih, dan buat prediksi di model machine learning energi molekul, menggunakan Apache Beam, Dataflow, dan TensorFlow.

Tutorial
Qwiklab: Dasar-Dasar ML dan Big Data Google Cloud

Kursus sesuai permintaan yang berdurasi satu minggu ini memperkenalkan analisis data dan kemampuan ML Google Cloud, termasuk pembuatan pipeline dengan Dataflow.

Dasar-Dasar Google Cloud
Resource Dataflow

Temukan informasi terkait harga, kuota resource, FAQ, dan masih banyak lagi.

Tutorial
Jelajahi solusi yang dapat Anda build di Google Cloud

Cari panduan referensi teknis Google Cloud yang berhubungan dengan Dataflow.

Kasus penggunaan

Kasus penggunaan
Analisis streaming

Analisis streaming Google menjadikan data lebih terkelola, bermanfaat, dan mudah diakses secara langsung setelah dibuat. Solusi streaming kami yang di-build berdasarkan Dataflow serta Pub/Sub dan BigQuery, menyediakan resource yang dibutuhkan untuk menyerap, memproses, dan menganalisis data real-time dengan volume yang berfluktuasi untuk insight bisnis real-time. Penyediaan secara terpisah ini mengurangi kompleksitas dan menjadikan analisis streaming dapat diakses oleh para analis dan engineer data.

Diagram analisis streaming Dataflow
Kasus penggunaan
AI real-time

Dataflow menghadirkan peristiwa streaming ke AI Platform dan TensorFlow Extended (TFX) Google Cloud untuk memungkinkan analisis prediktif, deteksi penipuan, personalisasi real-time, dan kasus penggunaan Analisis Lanjutan lainnya. TFX menggunakan Dataflow dan Apache Beam sebagai mesin pemrosesan data terdistribusi untuk memungkinkan beberapa aspek siklus proses ML, semuanya didukung dengan CI/CD untuk ML melalui pipeline Kubeflow.

Kasus penggunaan
Pemrosesan data sensor dan log

Hasilkan insight bisnis dari jaringan perangkat global Anda dengan platform IoT yang cerdas.

Semua fitur

Streaming Engine Streaming Engine memisahkan compute dari penyimpanan state dan memindahkan bagian eksekusi pipeline dari VM pekerja ke backend layanan Dataflow, sehingga meningkatkan penskalaan otomatis dan mengurangi latensi data secara signifikan.
Penskalaan otomatis Penskalaan otomatis memungkinkan layanan Dataflow secara otomatis memilih jumlah instance pekerja yang tepat, yang diperlukan untuk menjalankan tugas Anda. Layanan Dataflow juga dapat secara dinamis mengalokasikan lebih banyak atau lebih sedikit pekerja selama runtime untuk memperhitungkan karakteristik tugas Anda.
Dataflow Shuffle Dataflow Shuffle berbasis layanan memindahkan operasi shuffle, yang digunakan untuk mengelompokkan dan menggabungkan data, dari VM pekerja ke backend layanan Dataflow untuk pipeline batch. Pipeline batch melakukan penskalaan dengan lancar, tanpa memerlukan penyesuaian, ke ratusan terabyte.
Dataflow SQL Dataflow SQL memungkinkan Anda menggunakan keterampilan SQL Anda untuk mengembangkan pipeline Dataflow streaming langsung dari UI web BigQuery. Anda dapat menggabungkan data streaming dari Pub/Sub dengan file di Cloud Storage atau tabel di BigQuery, menulis hasil ke BigQuery, dan mem-build dasbor real-time menggunakan Google Spreadsheet atau alat BI lainnya.
Penjadwalan Resource yang Fleksibel (FlexRS) Dataflow FlexRS mengurangi biaya batch processing menggunakan teknik penjadwalan lanjutan, layanan Dataflow Shuffle, dan kombinasi instance preemptible virtual machine (VM) dan VM reguler. 
Template Dataflow Template Dataflow memungkinkan Anda dengan mudah membagikan pipeline dengan anggota tim dan dengan seluruh organisasi Anda atau memanfaatkan berbagai template yang disediakan Google untuk menerapkan tugas pemrosesan data yang sederhana tetapi bermanfaat. Dengan Template Flex, Anda dapat membuat template dari pipeline Dataflow apa pun.
Integrasi Notebook Build pipeline secara iteratif dari awal dengan AI Platform Notebooks dan deploy dengan runner Dataflow. Tulis pipeline Apache Beam langkah demi langkah dengan memeriksa grafik pipeline di alur kerja read-eval-print-loop (REPL). Tersedia melalui AI Platform Google, Notebooks memungkinkan Anda menulis pipeline di lingkungan yang intuitif dengan sains data dan framework machine learning terbaru.
Pemantauan inline Pemantauan inline Dataflow memungkinkan Anda mengakses metrik tugas secara langsung untuk membantu pemecahan masalah pipeline streaming dan batch. Anda dapat mengakses chart pemantauan di visibilitas tingkat langkah dan pekerja serta menyetel pemberitahuan untuk kondisi seperti data stale dan latensi sistem yang tinggi.
Kunci enkripsi yang dikelola pelanggan Anda dapat membuat pipeline streaming atau batch yang dilindungi dengan kunci enkripsi yang dikelola pelanggan (CMEK) atau mengakses data yang dilindungi CMEK di sumber dan sink.
Kontrol Layanan VPC Dataflow Integrasi Dataflow dengan Kontrol Layanan VPC memberikan keamanan tambahan terhadap lingkungan pemrosesan data Anda dengan meningkatkan kemampuan Anda untuk memitigasi risiko pemindahan data yang tidak sah.
IP Pribadi Menonaktifkan IP publik memungkinan Anda untuk lebih mengamankan infrastruktur pemrosesan data. Dengan tidak menggunakan alamat IP publik untuk pekerja Dataflow, Anda juga mengurangi jumlah alamat IP publik yang Anda gunakan dari kuota project Google Cloud.

Harga

Tugas Dataflow dikenai biaya per detik, berdasarkan penggunaan sebenarnya dari pekerja batch atau streaming Dataflow. Resource tambahan seperti Cloud Storage atau Pub/Sub dikenai biaya berdasarkan harga masing-masing layanan tersebut

Partners

Partner Google Cloud telah mengembangkan integrasi dengan Dataflow untuk menjalankan tugas pemrosesan data berbagai ukuran secara cepat dan mudah.