Dataflow
Pemrosesan data streaming dan batch terpadu, yang tanpa server, cepat, dan hemat biaya.
Coba Dataflow gratis-
Layanan pemrosesan data yang terkelola sepenuhnya
-
Penyediaan dan pengelolaan pemrosesan resource yang otomatis
-
Penskalaan horizontal otomatis terhadap resource pekerja untuk memaksimalkan penggunaan resource
-
Inovasi berbasis komunitas OSS dengan Apache Beam SDK
-
Pemrosesan tepat satu kali, andal, dan konsisten
Manfaat
Melakukan streaming analisis data dengan cepat
Dataflow memungkinkan pengembangan pipeline data streaming yang cepat dan sederhana dengan latensi data yang lebih rendah.
Mempermudah operasi dan pengelolaan
Biarkan tim untuk berfokus pada pemrograman, dan bukan pengelolaan cluster server karena pendekatan tanpa server Dataflow menghilangkan overhead operasional dari beban kerja rekayasa data.
Mengurangi total biaya kepemilikan
Dengan penskalaan otomatis resource serta kemampuan batch processing dengan pengoptimalan biaya, Dataflow menawarkan kapasitas tanpa batas untuk mengelola beban kerja musiman atau naik turun tanpa memboroskan anggaran.
Fitur utama
Fitur utama
Penskalaan otomatis resource dan penyeimbangan ulang tugas dinamis
Minimalkan latensi pipeline, maksimalkan penggunaan resource, dan kurangi biaya pemrosesan per record data dengan penskalaan otomatis resource yang sadar data. Input data dipartisi secara otomatis dan terus diseimbangkan kembali untuk meratakan penggunaan resource pekerja dan mengurangi efek “hot key” terhadap performa pipeline.
Penjadwalan dan harga yang fleksibel untuk batch processing
Untuk pemrosesan dengan waktu penjadwalan tugas fleksibel, seperti tugas semalaman, penjadwalan resource yang fleksibel (FlexRS) menawarkan harga yang lebih rendah untuk batch processing. Tugas fleksibel ini ditempatkan dalam antrean dengan jaminan bahwa tugas tersebut akan diambil untuk dieksekusi dalam waktu enam jam.
Pola AI real-time yang siap digunakan
Diaktifkan melalui pola yang siap digunakan, kemampuan AI real-time Dataflow memungkinkan reaksi real-time dengan kecerdasan yang hampir mirip manusia terhadap aliran peristiwa yang sangat deras. Pelanggan dapat mem-build solusi cerdas, mulai dari analisis prediktif, deteksi anomali, hingga personalisasi real-time dan kasus penggunaan analisis lanjutan lainnya.
Pelanggan
Pelanggan
Sorotan kisah
-
Menyintesis lebih dari 30 tahun data berita untuk menilai dampak bisnis.
-
Menemukan hubungan dan insight data yang tersembunyi.
-
Prototipe Grafik Pengetahuan dihasilkan dengan mudah dalam 10 minggu
Partner
Yang baru
Yang baru
Daftar untuk berlangganan newsletter Google Cloud guna menerima info terbaru produk, informasi acara, penawaran spesial, dan lainnya.
Dokumentasi
Dokumentasi
Panduan memulai Dataflow menggunakan Python
Siapkan project Google Cloud dan lingkungan pengembangan Python, dapatkan Apache Beam SDK, lalu jalankan dan ubah contoh WordCount di layanan Dataflow.
Menggunakan Dataflow SQL
Buat kueri SQL dan deploy tugas Dataflow untuk menjalankan kueri Anda dari UI Dataflow SQL.
Menginstal Apache Beam SDK
Instal Apache Beam SDK sehingga Anda dapat menjalankan pipeline di layanan Dataflow.
Machine learning dengan Apache Beam dan TensorFlow
Lakukan pra-proses, latih, dan buat prediksi pada model machine learning energi molekul, menggunakan Apache Beam, Dataflow, dan TensorFlow.
Qwiklab: Memproses Data dengan Google Cloud Dataflow
Pelajari cara memproses set data real-time berbasis teks menggunakan Python dan Dataflow, lalu menyimpannya di BigQuery.
Referensi Dataflow
Temukan informasi terkait harga, kuota resource, FAQ, dan lainnya.
Pelajari solusi yang dapat Anda build di Google Cloud
Temukan panduan referensi teknis Google Cloud yang berhubungan dengan Dataflow.
Kasus penggunaan
Kasus penggunaan
Analisis streaming Google menjadikan data lebih terkelola, bermanfaat, dan mudah diakses secara langsung setelah dibuat. Solusi streaming kami, yang di-build dari Dataflow serta Pub/Sub dan BigQuery, menyediakan resource yang dibutuhkan untuk menyerap, memproses, dan menganalisis data real-time dengan volume yang berfluktuasi untuk insight bisnis real-time. Penyediaan secara terpisah ini mengurangi kompleksitas dan menjadikan analisis streaming dapat diakses oleh para analis dan engineer data.
Dataflow menghadirkan peristiwa streaming ke AI Platform dan TensorFlow Extended (TFX) Google Cloud untuk memungkinkan analisis prediktif, deteksi penipuan, personalisasi real-time, dan kasus penggunaan analisis lanjutan lainnya. TFX menggunakan Dataflow dan Apache Beam sebagai mesin pemrosesan data terdistribusi untuk memungkinkan beberapa aspek siklus proses ML, semuanya didukung dengan CI/CD untuk ML melalui pipeline Kubeflow.
Hasilkan insight bisnis dari jaringan perangkat global Anda dengan platform IoT yang cerdas.
Semua fitur
Semua fitur
Streaming Engine | Streaming Engine memisahkan compute dari penyimpanan state dan memindahkan bagian eksekusi pipeline dari VM pekerja ke backend layanan Dataflow, sehingga meningkatkan penskalaan otomatis dan mengurangi latensi data secara signifikan. |
Penskalaan otomatis | Penskalaan otomatis memungkinkan layanan Dataflow secara otomatis memilih jumlah instance pekerja yang tepat, yang diperlukan untuk menjalankan tugas Anda. Layanan Dataflow juga dapat secara dinamis mengalokasikan lebih banyak atau lebih sedikit pekerja selama runtime agar sesuai dengan karakteristik tugas Anda. |
Dataflow Shuffle | Dataflow Shuffle berbasis layanan memindahkan operasi shuffle, yang digunakan untuk mengelompokkan dan menggabungkan data, dari VM pekerja ke backend layanan Dataflow untuk pipeline batch. Pipeline batch melakukan penskalaan dengan lancar, tanpa memerlukan penyesuaian, ke ratusan terabyte. |
Dataflow SQL | Dataflow SQL memungkinkan Anda menggunakan keterampilan SQL Anda untuk mengembangkan pipeline Dataflow streaming langsung dari UI web BigQuery. Anda dapat menggabungkan data streaming dari Pub/Sub dengan file di Cloud Storage atau tabel di BigQuery, menulis hasil ke BigQuery, dan mem-build dasbor real-time menggunakan Google Spreadsheet atau alat BI lainnya. |
Penjadwalan Resource yang Fleksibel (FlexRS) | Dataflow FlexRS mengurangi biaya batch processing menggunakan teknik penjadwalan lanjutan, layanan Dataflow Shuffle, dan kombinasi instance preemptible virtual machine (VM) dan VM reguler. |
Template Dataflow | Template Dataflow memungkinkan Anda dengan mudah membagikan pipeline dengan anggota tim dan dengan seluruh organisasi Anda atau memanfaatkan berbagai template yang disediakan Google untuk menerapkan tugas pemrosesan data yang sederhana tetapi bermanfaat. Dengan Template Flex, Anda dapat membuat template dari pipeline Dataflow apa pun. |
Integrasi Notebook | Build pipeline secara iteratif dari awal dengan AI Platform Notebooks dan deploy dengan runner Dataflow. Tulis pipeline Apache Beam langkah demi langkah dengan memeriksa grafik pipeline di alur kerja read-eval-print-loop (REPL). Tersedia melalui AI Platform Google, Notebooks memungkinkan Anda menulis pipeline di lingkungan yang intuitif dengan sains data dan framework machine learning terbaru. |
Pemantauan inline | Pemantauan inline Dataflow memungkinkan Anda mengakses metrik tugas secara langsung untuk membantu pemecahan masalah pipeline streaming dan batch. Anda dapat mengakses chart pemantauan di visibilitas tingkat langkah dan pekerja serta menyetel pemberitahuan untuk kondisi seperti data stale dan latensi sistem yang tinggi. |
Kunci enkripsi yang dikelola pelanggan | Anda dapat membuat pipeline streaming atau batch yang dilindungi dengan kunci enkripsi yang dikelola pelanggan (CMEK) atau mengakses data yang dilindungi CMEK di sumber dan sink. |
Kontrol Layanan VPC Dataflow | Integrasi Dataflow dengan Kontrol Layanan VPC memberikan keamanan tambahan terhadap lingkungan pemrosesan data Anda dengan meningkatkan kemampuan Anda untuk memitigasi risiko pemindahan data yang tidak sah. |
IP Pribadi | Menonaktifkan IP publik memungkinan Anda untuk lebih mengamankan infrastruktur pemrosesan data. Dengan tidak menggunakan alamat IP publik untuk pekerja Dataflow, Anda juga mengurangi jumlah alamat IP publik yang Anda gunakan dari kuota project Google Cloud. |
Harga
Harga
Tugas Dataflow dikenai biaya per detik, berdasarkan penggunaan sebenarnya dari pekerja batch atau streaming Dataflow. Resource tambahan seperti Cloud Storage atau Pub/Sub dikenai biaya berdasarkan harga setiap layanan tersebut.
Produk Cloud AI mematuhi kebijakan SLA yang tercantum di sini. Produk tersebut mungkin menawarkan latensi atau jaminan ketersediaan yang berbeda dari layanan Google Cloud lainnya.