Pola hybrid dan multicloud Analytics

Last reviewed 2023-12-14 UTC

Dokumen ini membahas bahwa tujuan pola analisis hybrid dan multicloud adalah memanfaatkan pemisahan antara beban kerja transaksi dan analisis.

Dalam sistem perusahaan, sebagian besar workload termasuk dalam kategori berikut:

  • Workload transaksional mencakup aplikasi interaktif seperti penjualan, pemrosesan keuangan, perencanaan sumber daya perusahaan, atau komunikasi.
  • Workload analytics mencakup aplikasi yang mengubah, menganalisis, meningkatkan kualitas, atau memvisualisasikan data untuk membantu proses pengambilan keputusan.

Sistem analisis mendapatkan datanya dari sistem transaksional dengan membuat kueri API atau mengakses database. Di sebagian besar perusahaan, analisis dan sistem transaksi cenderung terpisah dan dikaitkan secara longgar. Tujuan pola analytics hybrid dan multicloud adalah memanfaatkan pemisahan yang sudah ada sebelumnya dengan menjalankan workload transaksi dan analisis di dua lingkungan komputasi yang berbeda. Data mentah pertama kali diekstrak dari workload yang berjalan di lingkungan komputasi pribadi, lalu dimuat ke Google Cloud, tempat data tersebut digunakan untuk pemrosesan analisis. Beberapa hasilnya kemudian dapat dimasukkan kembali ke sistem transaksional.

Diagram berikut mengilustrasikan kemungkinan arsitektur secara konseptual dengan menunjukkan pipeline data potensial. Setiap jalur/panah mewakili kemungkinan opsi pipeline transformasi dan perpindahan data yang dapat didasarkan pada ETL atau ELT, bergantung pada kualitas data yang tersedia dan kasus penggunaan yang ditargetkan.

Untuk memindahkan data Anda ke Google Cloud dan memperoleh manfaat dari data tersebut, gunakan layanan perpindahan data, yang merupakan rangkaian lengkap layanan penyerapan, integrasi, dan replikasi data.

Data yang mengalir dari lingkungan lokal atau lingkungan cloud lainnya ke Google Cloud, melalui penyerapan, pipeline, penyimpanan, analisis, ke dalam lapisan aplikasi dan presentasi.

Seperti yang ditunjukkan dalam diagram sebelumnya, menghubungkan Google Cloud dengan lingkungan lokal dan lingkungan cloud lainnya dapat memungkinkan berbagai kasus penggunaan analisis data, seperti streaming data dan pencadangan database. Untuk mendukung transportasi dasar pola analisis hybrid dan multicloud yang memerlukan volume transfer data yang tinggi, Cloud Interconnect dan Cross-Cloud Interconnect menyediakan konektivitas khusus ke penyedia lokal dan penyedia cloud lainnya.

Kelebihan

Menjalankan workload analytics di cloud memiliki beberapa keuntungan utama:

  • Traffic masuk—memindahkan data dari lingkungan komputasi pribadi Anda atau cloud lainnya ke Google Cloud—mungkin tidak dikenai biaya.
  • Workload Analytics sering kali perlu memproses data dalam jumlah besar dan dapat mengalami burst, sehingga sangat cocok untuk di-deploy di lingkungan cloud publik. Dengan menskalakan resource komputasi secara dinamis, Anda dapat memproses set data besar dengan cepat sekaligus menghindari investasi di awal atau harus menyediakan peralatan komputasi secara berlebihan.
  • Google Cloud menyediakan rangkaian layanan yang lengkap untuk mengelola data di seluruh siklus prosesnya, mulai dari akuisisi awal, pemrosesan dan analisis, hingga visualisasi akhir.
    • Layanan perpindahan data di Google Cloud menyediakan rangkaian produk yang lengkap untuk memindahkan, mengintegrasikan, dan mengubah data secara lancar dengan berbagai cara.
    • Cloud Storage sangat cocok untuk mem-build data lake.
  • Google Cloud membantu Anda memodernisasi dan mengoptimalkan platform data untuk mengurai data silo. Penggunaan lakehouse data akan membantu menstandarkan berbagai format penyimpanan. Teknologi ini juga dapat memberikan fleksibilitas, skalabilitas, dan ketangkasan yang diperlukan untuk membantu memastikan bahwa data menghasilkan nilai bagi bisnis Anda, bukan inefisiensi. Untuk mengetahui informasi selengkapnya, lihat BigLake.

  • BigQuery Omni, menyediakan daya komputasi yang berjalan secara lokal ke penyimpanan di AWS atau Azure. Alat ini juga membantu Anda membuat kueri data Anda sendiri yang tersimpan di Amazon Simple Storage Service (Amazon S3) atau Azure Blob Storage. Kemampuan analisis multicloud ini memungkinkan tim data mengurai data silo. Untuk mengetahui informasi selengkapnya tentang cara membuat kueri data yang disimpan di luar BigQuery, lihat Pengantar sumber data eksternal.

Praktik terbaik

Untuk menerapkan pola arsitektur hybrid dan multicloud analisis, pertimbangkan praktik terbaik umum berikut:

  • Gunakan pola jaringan pengalihan untuk mengaktifkan penyerapan data. Jika hasil analisis perlu dimasukkan kembali ke sistem transaksional, Anda dapat menggabungkan pola pengalihan dan traffic keluar yang dibatasi.
  • Gunakan antrean Pub/Sub atau bucket Cloud Storage untuk menyerahkan data ke Google Cloud dari sistem transaksional yang berjalan di lingkungan komputasi pribadi Anda. Antrean atau bucket ini kemudian dapat berfungsi sebagai sumber untuk pipeline dan workload pemrosesan data.
  • Untuk men-deploy pipeline data ETL dan ELT, pertimbangkan untuk menggunakan Cloud Data Fusion atau Dataflow bergantung pada persyaratan kasus penggunaan spesifik Anda. Keduanya merupakan layanan pemrosesan data yang terkelola sepenuhnya dan cloud-first untuk membangun dan mengelola pipeline data.
  • Untuk menemukan, mengklasifikasikan, dan melindungi aset data Anda yang berharga, pertimbangkan untuk menggunakan kemampuan Sensitive Data Protection Google Cloud, seperti teknik de-identifikasi. Teknik ini memungkinkan Anda menyamarkan, mengenkripsi, dan mengganti data sensitif—seperti informasi identitas pribadi (PII)—menggunakan kunci yang dibuat secara acak atau yang telah ditentukan sebelumnya, jika berlaku dan mematuhi kebijakan.
  • Jika Anda sudah memiliki workload Hadoop atau Spark, pertimbangkan untuk memigrasikan tugas ke Dataproc dan memigrasikan data HDFS yang ada ke Cloud Storage.
  • Saat melakukan transfer data awal dari lingkungan komputasi pribadi Anda ke Google Cloud, pilih pendekatan transfer yang paling sesuai dengan ukuran set data dan bandwidth yang tersedia. Untuk mengetahui informasi selengkapnya, lihat Migrasi ke Google Cloud: Mentransfer set data besar.

  • Jika transfer atau pertukaran data antara Google Cloud dan cloud lainnya diperlukan dalam jangka panjang dengan volume traffic tinggi, sebaiknya Anda mengevaluasi penggunaan Cross-Cloud Interconnect Google Cloud untuk membantu Anda membangun konektivitas khusus bandwidth tinggi antara Google Cloud dan penyedia layanan cloud lainnya (tersedia di lokasi tertentu).

  • Jika enkripsi diperlukan di lapisan konektivitas, berbagai opsi tersedia berdasarkan solusi konektivitas hybrid yang dipilih. Opsi ini mencakup tunnel VPN, VPN dengan ketersediaan tinggi (HA) melalui Cloud Interconnect, dan MACsec untuk Cross-Cloud Interconnect.

  • Gunakan alat dan proses yang konsisten di seluruh lingkungan. Dalam skenario campuran analisis, praktik ini dapat membantu meningkatkan efisiensi operasi, meskipun bukan prasyarat.