Cloud Dataflow

Pemrosesan data streaming dan batch yang lebih sederhana, tanpa mengurangi keandalan dan kecepatannya

Coba Gratis

Pengembangan yang lebih cepat, pengelolaan lebih mudah

Cloud Dataflow adalah layanan yang terkelola sepenuhnya untuk mentransformasi dan memperkaya data di mode streaming (real time) serta batch (historis) tanpa mengurangi keandalan dan kecepatan, serta tak perlu lagi repot-repot berkoordinasi dengan kiri-kanan. Selain itu, karena penyediaan dan pengelolaan resource tanpa server, Anda dapat mengatasi kendala terbesar pemrosesan data menggunakan akses ke kapasitas yang hampir tanpa batas, serta hanya perlu membayar sesuai yang Anda gunakan.

Dengan Cloud Dataflow, Anda dapat mengetahui kasus penggunaan transformasional di seluruh bagian industri, yang meliputi:

  • Analisis Clickstream, Tempat Penjualan, dan segmentasi untuk bidang retail
  • Deteksi penipuan untuk bidang layanan keuangan
  • Pengalaman pengguna yang dipersonalisasi untuk bidang gaming
  • Analisis IoT untuk bidang manufaktur, kesehatan, dan logistik
faster-development-easier-management

Mempercepat pengembangan untuk batch dan streaming

Cloud Dataflow mendukung pengembangan pipeline cepat dan sederhana lewat API SQL, Java, dan Python yang ekspresif di Apache Beam SDK, yang menyediakan beragam rangkaian dasar windowing dan analisis sesi, serta ekosistem konektor sumber dan sink. Di samping itu, dengan model pengembangan Beam yang unik dan terpadu, Anda dapat mendaur ulang penggunaan lebih banyak kode di seluruh pipeline streaming dan batch.

Untuk meminta notifikasi tentang ketersediaan alfa Dataflow SQL mendatang, silakan isi formulir ini. Kami akan menghubungi Anda untuk memberi tahu ketersediaannya untuk Anda gunakan.

accelerate-development-with-no-compromises

Sederhanakan operasi & manajemen

Karena GCP tidak menggunakan server, overhead operasional digantikan dengan performa, penskalaan, ketersediaan, keamanan, dan kepatuhan yang ditangani secara otomatis, jadi pengguna dapat fokus pada pemrograman, bukan mengelola cluster server. Integrasi dengan Stackdriver, solusi logging dan pemantauan terpadu GCP, memungkinkan Anda untuk memantau dan memecahkan masalah pipeline saat proses logging dan pemantauan berlangsung. Visualisasi dan logging yang kaya, serta peringatan yang canggih membantu Anda mengidentifikasi dan merespons potensi masalah.

simplify-operations-and-management

Buat di atas fondasi untuk machine learning

Gunakan Cloud Dataflow sebagai titik integrasi yang praktis dalam memanfaatkan analisis prediktif untuk deteksi penipuan, personalisasi real-time, dan kasus penggunaan serupa dengan menambahkan model Cloud Machine Learning berbasis TensorFlow dan API ke pipeline pemrosesan data Anda.

build-on-a-foundation-for-machine-learning

Gunakan fitur yang Anda sukai dan kerap gunakan

Cloud Dataflow terintegrasi secara lancar dengan layanan GCP untuk penyerapan peristiwa streaming (Cloud Pub/Sub), data warehousing (BigQuery), machine learning (Cloud Machine Learning), dan lain sebagainya. SDK-nya yang berbasis Beam juga memungkinkan developer untuk membuat ekstensi khusus, bahkan memilih mesin eksekusi alternatif, seperti Apache Spark melalui Cloud Dataproc atau infrastruktur lokal. Bagi pengguna Apache Kafka, konektor Cloud Dataflow memudahkan proses integrasi dengan GCP.

use-your-favorite-and-familiar-tools

Transformasi Data dengan Cloud Dataflow

diagram-dataflow

FITUR CLOUD DATAFLOW

Pengelolaan Resource Otomatis
Cloud Dataflow mengotomatiskan penyediaan dan pengelolaan resource pemrosesan untuk menekan latensi dan memaksimalkan penggunaan; tak perlu lagi mengoperasikan instance secara manual atau mencadangkannya.
Penyeimbangan Tugas Dinamis
Pembagian tugas yang otomatis dan optimal mampu memperlancar pengerjaan tugas yang terhambat. Tidak perlu menghapal “hot key” atau memproses data input terlebih dahulu.
Pemrosesan Paling Tepat, Andal & Konsisten
Menyediakan dukungan internal untuk eksekusi fault-tolerant yang konsisten dan benar, terlepas dari ukuran data, ukuran cluster, pola pemrosesan, atau kompleksitas pipeline.
Penskalaan Horizontal Otomatis
Penskalaan horizontal otomatis terhadap resource pekerja demi mendapatkan hasil throughput optimal dan rasio harga terhadap performa yang lebih baik.
Model Pemrograman Terpadu
Apache Beam SDK menawarkan pengoperasian mirip MapReduce yang sama-sama membawa banyak manfaat, windowing data yang andal, dan kendali ketepatan yang sangat teliti baik untuk data streaming maupun batch.
Inovasi Berbasis Komunitas
Developer yang berniat memperluas model pemrograman Cloud Dataflow dapat mempergunakan dan/atau berkontribusi ke Apache Beam.
Harga penjadwalan resource yang fleksibel untuk batch processing
Untuk pemrosesan dengan waktu penjadwalan tugas yang fleksibel, seperti tugas semalaman, penjadwalan resource yang fleksibel menawarkan harga yang lebih rendah untuk batch processing. Tugas fleksibel ini ditempatkan dalam antrean dengan jaminan bahwa tugas tersebut akan diambil untuk dieksekusi dalam waktu enam jam.

Cloud Dataflow vs. Cloud Dataproc: Mana yang sebaiknya digunakan?

Cloud Dataproc dan Cloud Dataflow sama-sama dapat digunakan untuk pemrosesan data, dan ada kesamaan dalam kemampuan batch serta streaming-nya. Bagaimana Anda menentukan produk mana yang paling cocok untuk lingkungan Anda?
Dataproc vs Dataflow

Cloud Dataproc

Cloud Dataproc cocok untuk lingkungan yang tergantung pada komponen khusus ekosistem big data Apache:

  • Fitur/paket
  • Pipeline
  • Seperangkat kemampuan resource yang sudah ada

Cloud Dataflow

Cloud Dataflow biasanya menjadi pilihan favorit untuk lingkungan yang masih baru:

  • Overhead operasional lebih sedikit
  • Pendekatan terpadu untuk pengembangan pipeline batch atau streaming
  • Menggunakan Apache Beam
  • Mendukung portabilitas pipeline di Cloud Dataflow, Apache Spark, dan Apache Flink sebagai runtime

Beban Kerja yang Disarankan

BEBAN KERJA CLOUD DATAPROC CLOUD DATAFLOW
Stream processing (ETL)
Batch processing (ETL)
Iterative processing dan notebook
Machine learning menggunakan Spark ML
Pemrosesan awal untuk machine learning (dengan Cloud ML Engine)

Kemitraan & Integrasi

Partner dan developer pihak ke-3 Google Cloud Platform telah mengembangkan integrasi dengan Dataflow untuk menjalankan tugas pemrosesan data berbagai ukuran secara cepat dan mudah.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Dengan menjalankan pipeline di Cloud Dataflow, kami dapat fokus ke pemrograman tanpa perlu merisaukan deployment dan pemeliharaan instance yang dipakai dalam kode kami (testimoni tentang keseluruhan GCP).”

- Jibran Saithi Lead Architect, Qubit

Harga yang Terjangkau bagi Pengguna

Tugas Cloud Dataflow dikenai biaya per kelipatan detik, berdasarkan penggunaan aktual pekerja batch atau streaming Cloud Dataflow. Tugas yang membutuhkan tambahan resource GCP, seperti Cloud Storage atau Cloud Pub/Sub, dikenai biaya berdasarkan harga setiap layanan tersebut.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Virginia Utara (us-east4) Carolina Selatan (us-east1) Montréal (northamerica-northeast1) São Paulo (southamerica-east1) Belgia (europe-west1) Finlandia (europe-north1) Frankfurt (europe-west3) London (europe-west2) Belanda (europe-west4) Zürich (europe-west6) Mumbai (asia-south1) Singapura (asia-southeast1) Sydney (australia-southeast1) Hong Kong (asia-east2) Taiwan (asia-east1) Tokyo (asia-northeast1) Osaka (asia-northeast2)
Jenis Pekerja Cloud Dataflow vCPU
$/jam
Memori
$ GB/jam
Penyimpanan - Persistent Disk Standar
$ GB/jam
Penyimpanan - Persistent Disk SSD
$ GB/jam
Data yang Diproses4,5
$ GB6
Batch 1
FlexRS 2
Streaming 3
Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

1 Setelan default pekerja batch: 1 vCPU, memori sebesar 3,75 GB, Persistent Disk sebesar 250 GB

2 Setelan default pekerja FlexRS: 2 vCPU, memori sebesar 7,50 GB, Persistent Disk sebesar 25 GB per pekerja, dengan minimal dua pekerja.

3 Setelan default pekerja streaming: 4 vCPU, memori sebesar 15 GB, Persistent Disk sebesar 420 GB

4 Cloud Dataflow Shuffle saat ini tersedia untuk pipeline batch di region berikut:

  • us-central1 (Iowa)
  • europe-west1 (Belgia)
  • europe-west4 (Belanda)
  • asia-northeast1 (Tokyo)

Layanan ini nantinya juga akan tersedia di region lain.

5 Cloud Dataflow Streaming Engine menggunakan satuan harga Data Streaming yang Diproses. Streaming Engine saat ini tersedia di region berikut:

  • us-central1 (Iowa)
  • europe-west1 (Belgia)
  • europe-west4 (Belanda)
  • asia-northeast1 (Tokyo)
Layanan ini nantinya juga akan tersedia di region lain.

6 Lihat Harga Cloud Dataflow untuk mengetahui informasi Data yang Diproses lebih lanjut.

Produk Cloud AI mematuhi kebijakan SLA yang tercantum di sini. Produk tersebut mungkin menawarkan latensi atau jaminan ketersediaan yang berbeda dari layanan Google Cloud lainnya.

Kirim masukan tentang...

Cloud Dataflow
Butuh bantuan? Kunjungi halaman dukungan kami.