Memigrasikan infrastruktur Hadoop Lokal ke Google Cloud

Last reviewed 2024-08-15 UTC

Panduan ini berisi ringkasan cara memindahkan sistem Apache Hadoop lokal ke Google Cloud. Panduan ini menjelaskan proses migrasi yang tidak hanya memindahkan pekerjaan Hadoop Anda ke Google Cloud, tetapi juga memungkinkan Anda menyesuaikan pekerjaan untuk memanfaatkan keunggulan sistem Hadoop yang dioptimalkan untuk cloud computing. Panduan ini juga memperkenalkan beberapa konsep dasar yang perlu dipahami untuk menerjemahkan konfigurasi Hadoop Anda ke Google Cloud.

Panduan ini adalah yang pertama dari beberapa panduan yang menjelaskan cara beralih dari Hadoop lokal:

Manfaat bermigrasi ke Google Cloud

Ada banyak cara dalam menggunakan Google Cloud yang menghemat waktu, uang, dan upaya Anda dibandingkan dengan menggunakan solusi Hadoop lokal. Dalam banyak kasus, mengadopsi pendekatan berbasis cloud dapat membuat keseluruhan solusi Anda menjadi lebih sederhana dan mudah dikelola.

Dukungan bawaan untuk Hadoop

Google Cloud mencakup Dataproc, yang merupakan lingkungan Hadoop dan Spark terkelola. Anda dapat menggunakan Dataproc untuk menjalankan sebagian besar tugas yang sudah ada dengan sedikit perubahan, sehingga Anda tidak perlu beralih dari semua alat Hadoop yang sudah Anda ketahui.

Hardware dan konfigurasi terkelola

Saat menjalankan Hadoop di Google Cloud, Anda tidak perlu mengkhawatirkan hardware fisik. Anda menentukan konfigurasi cluster, dan Dataproc mengalokasikan resource untuk Anda. Anda dapat menskalakan cluster kapan saja.

Pengelolaan versi yang disederhanakan

Menjaga agar alat open source selalu terbaru dan bekerja sama adalah salah satu bagian paling kompleks dalam mengelola cluster Hadoop. Saat Anda menggunakan Dataproc, sebagian besar pekerjaan tersebut dikelola oleh Pembuatan versi Dataproc untuk Anda.

Konfigurasi tugas fleksibel

Penyiapan Hadoop lokal yang umum menggunakan satu cluster yang melayani banyak tujuan. Saat beralih ke Google Cloud, Anda dapat berfokus pada tugas individu, membuat cluster sebanyak yang Anda butuhkan. Cara ini menghilangkan sebagian besar kompleksitas pemeliharaan satu cluster dengan dependensi dan interaksi konfigurasi software yang terus berkembang.

Merencanakan migrasi Anda

Bermigrasi dari solusi Hadoop lokal ke Google Cloud memerlukan perubahan pendekatan. Sistem Hadoop lokal yang umum terdiri dari cluster monolitik yang mendukung banyak workload, sering kali di beberapa area bisnis. Akibatnya, sistem menjadi lebih kompleks seiring waktu dan dapat mengharuskan administrator membuat penyusupan agar semua dapat berfungsi di cluster monolitik. Saat memindahkan sistem Hadoop ke Google Cloud, Anda dapat mengurangi kompleksitas administratif. Namun, untuk mendapatkan penyederhanaan tersebut dan untuk mendapatkan pemrosesan yang paling efisien di Google Cloud dengan biaya yang sedikit, Anda perlu memikirkan kembali cara menyusun data dan tugas Anda.

Karena Dataproc menjalankan Hadoop di Google Cloud, menggunakan cluster Dataproc persisten untuk mereplikasi penyiapan lokal Anda mungkin menjadi solusi yang paling mudah. Namun, ada beberapa batasan untuk pendekatan tersebut:

  • Menyimpan data Anda dalam cluster HDFS persisten menggunakan Dataproc lebih mahal daripada menyimpan data di Cloud Storage, itulah rekomendasi dari kami, seperti yang akan dijelaskan nanti. Menyimpan data dalam cluster HDFS juga membatasi kemampuan Anda untuk menggunakan data dengan produk Google Cloud lainnya.
  • Meningkatkan atau mengganti beberapa alat berbasis open source dengan layanan Google Cloud terkait lainnya dapat lebih efisien atau ekonomis untuk kasus penggunaan tertentu.
  • Menggunakan satu cluster Dataproc yang persisten untuk tugas Anda lebih sulit dikelola daripada beralih ke cluster yang ditargetkan yang melayani tugas individu atau area tugas.

Cara paling hemat biaya dan fleksibel untuk memigrasikan sistem Hadoop Anda ke Google Cloud adalah dengan tidak berpikir tentang cluster besar, multi-tujuan, dan persisten. Sebagai gantinya, pikirkan tentang cluster skala kecil yang berumur pendek yang didesain untuk menjalankan tugas tertentu. Anda menyimpan data di Cloud Storage untuk mendukung beberapa cluster pemrosesan sementara. Model ini sering disebut model sementara, karena cluster yang Anda gunakan untuk memproses tugas dialokasikan sesuai kebutuhan dan dirilis setelah tugas selesai.

Diagram berikut menunjukkan migrasi hipotesis dari sistem lokal ke model sementara di Google Cloud.

Diagram menggambarkan cara penyusunan ulang cluster lokal saat bermigrasi ke Google Cloud.

Contoh ini memindahkan empat tugas yang berjalan di dua cluster lokal ke Dataproc. Cluster sementara yang digunakan untuk menjalankan tugas di Google Cloud ditentukan untuk memaksimalkan efisiensi tugas individu. Dua tugas pertama menggunakan cluster yang sama, sedangkan tugas ketiga dan keempat masing-masing berjalan di clusternya sendiri. Saat memigrasikan tugas sendiri, Anda dapat menyesuaikan dan mengoptimalkan cluster untuk tugas individu atau grup tugas yang sesuai untuk pekerjaan spesifik Anda. Dataproc membantu Anda menentukan beberapa cluster dengan cepat, menjadikannya online, dan menskalakannya sesuai kebutuhan.

Data dalam contoh dipindahkan dari dua cluster HDFS lokal ke bucket Cloud Storage. Data di cluster pertama dibagi di antara beberapa bucket, dan cluster kedua dipindahkan ke satu bucket. Anda dapat menyesuaikan struktur data di Cloud Storage agar sesuai dengan kebutuhan aplikasi dan bisnis Anda.

Contoh migrasi ini merekam status awal dan akhir migrasi lengkap ke Google Cloud. Contoh ini menyiratkan satu langkah, tetapi Anda akan mendapatkan hasil terbaik jika tidak berpikir untuk beralih ke Google Cloud sebagai migrasi satu kali yang lengkap. Sebagai gantinya, anggaplah hal ini sebagai pemfaktoran ulang solusi Anda menggunakan serangkaian alat baru dengan cara yang tidak mungkin dilakukan secara lokal. Agar pemfaktoran ulang semacam ini berfungsi, sebaiknya lakukan migrasi secara bertahap.

Berikut langkah-langkah yang direkomendasikan untuk memigrasikan alur kerja Anda ke Google Cloud:

  1. Pindahkan data Anda terlebih dahulu

    • Pindahkan data Anda ke bucket Cloud Storage.
    • Mulai dari yang kecil. Gunakan data cadangan atau yang diarsipkan untuk meminimalkan dampak terhadap sistem Hadoop yang ada.
  2. Eksperimen

    • Gunakan subset data untuk pengujian dan eksperimen. Buat bukti konsep dalam skala kecil untuk setiap tugas Anda.
    • Cobalah pendekatan baru untuk bekerja dengan data Anda.
    • Sesuaikan dengan Google Cloud dan paradigma cloud computing.
  3. Pertimbangkan tentang cluster khusus dan sementara.

    • Gunakan cluster terkecil yang Anda dapat—memberi cakupannya ke satu tugas atau grup kecil tugas yang saling terkait erat.
    • Buat cluster setiap kali Anda membutuhkannya untuk tugas dan hapus cluster setelah Anda selesai.
  4. Gunakan alat Google Cloud jika perlu.

Beralih ke model sementara

Perubahan terbesar dalam pendekatan Anda antara menjalankan alur kerja Hadoop lokal dan menjalankan alur kerja yang sama di Google Cloud adalah perubahan dari cluster monolitik dan persisten ke cluster sementara yang khusus. Anda menjalankan cluster saat perlu menjalankan tugas, lalu menghapusnya saat tugas selesai. Resource yang diperlukan oleh tugas Anda hanya aktif saat digunakan, sehingga Anda hanya membayar sesuai penggunaan. Pendekatan ini memungkinkan Anda menyesuaikan konfigurasi cluster untuk tugas individu. Karena Anda tidak memelihara dan mengonfigurasi cluster persisten, Anda dapat mengurangi biaya penggunaan resource dan administrasi cluster.

Bagian ini menjelaskan cara memindahkan infrastruktur Hadoop yang ada ke model sementara.

Memisahkan data dari komputasi

Menggunakan Cloud Storage sebagai penyimpanan persisten untuk alur kerja Anda memiliki manfaat berikut:

  • Pengelolaan izin akses menjadi lebih mudah.
  • Platform ini adalah Sistem File yang Kompatibel dengan Hadoop (HCFS), sehingga mudah digunakan dengan tugas yang sudah ada.
  • HCFS lebih cepat daripada HDFS dalam banyak kasus.
  • HCFS membutuhkan lebih sedikit pemeliharaan daripada HDFS.
  • Migrasi data lebih mudah daripada HDFS.
  • Dengan layanan ini, Anda dapat secara mudah menggunakan data dengan berbagai produk Google Cloud.
  • Cara ini jauh lebih murah daripada menyimpan data Anda dalam HDFS di cluster Dataproc yang persisten.

Dengan data Anda yang disimpan secara persisten di Cloud Storage, Anda dapat menjalankan tugas di cluster Hadoop sementara yang dikelola oleh Dataproc.

Dalam beberapa kasus, mungkin lebih tepat untuk memindahkan data ke teknologi Google Cloud lainnya, seperti BigQuery atau Bigtable. Namun, sebagian besar data tujuan umum harus tetap ada di Cloud Storage. Detail lebih lanjut tentang opsi penyimpanan alternatif ini akan dijelaskan nanti dalam panduan ini.

Menjalankan tugas di cluster sementara

Dataproc memudahkan pembuatan dan penghapusan cluster sehingga Anda dapat beralih dari menggunakan satu cluster monolitik ke banyak cluster sementara. Pendekatan ini memiliki beberapa manfaat:

  • Anda dapat menghindari titik tunggal kegagalan dan meningkatkan keandalan pipeline data. Jika cluster bersama yang berjalan lama mengalami status error, seluruh pipeline data dapat diblokir. Memperbaiki cluster stateful yang berjalan lama dapat memerlukan waktu lama, sehingga menyebabkan pelanggaran tujuan tingkat layanan (SLO). Sebaliknya, cluster ephemeral stateless yang bermasalah dapat dihapus dengan mudah, lalu dibuat ulang dengan percobaan ulang tugas.
  • Anda dapat memiliki performa tugas yang lebih dapat diprediksi dan menghindari pelanggaran SLO dengan menghilangkan pertentangan resource di antara tugas.
  • Anda dapat mengoptimalkan konfigurasi cluster dan kebijakan penskalaan otomatis untuk setiap tugas.
  • Anda bisa mendapatkan patch keamanan, perbaikan bug, dan pengoptimalan terbaru saat membuat cluster sementara untuk tugas.
  • Anda dapat menghindari masalah umum pada cluster yang berjalan lama, seperti disk yang penuh dengan log dan file sementara, atau cluster yang gagal diskalakan karena kehabisan stok di zona.
  • Anda tidak perlu mempertahankan cluster dari waktu ke waktu karena cluster sementara dikonfigurasi setiap kali Anda menggunakannya. Tidak perlu mempertahankan cluster akan menghilangkan beban administratif pengelolaan alat di berbagai tugas.
  • Anda tidak perlu memelihara infrastruktur terpisah untuk pengembangan, pengujian, dan produksi. Anda dapat menggunakan definisi yang sama untuk membuat sebanyak mungkin versi cluster yang diperlukan.
  • Anda dapat memecahkan masalah dengan lebih cepat menggunakan cluster satu tugas terisolasi.
  • Anda hanya membayar resource yang digunakan oleh tugas.

Anda dapat menggunakan tindakan inisialisasi Dataproc untuk menentukan konfigurasi node dalam cluster. Hal ini memudahkan Anda mempertahankan berbagai konfigurasi cluster yang diperlukan untuk mendukung tugas individu dan grup tugas terkait dengan erat. Anda dapat menggunakan sampel tindakan inisialisasi yang tersedia untuk memulai. Sampel ini menunjukkan cara membuat tindakan inisialisasi Anda sendiri.

Meminimalkan masa aktif cluster sementara

Inti dari cluster sementara adalah menggunakannya hanya untuk masa aktif tugas. Jika tiba waktunya untuk menjalankan tugas, ikuti proses berikut:

  1. Buat cluster yang dikonfigurasi dengan benar.

  2. Jalankan tugas Anda, kirim output ke Cloud Storage atau lokasi persisten lainnya.

  3. Hapus cluster.

  4. Gunakan output tugas Anda sesuai kebutuhan.

  5. Lihat log di Cloud Logging atau Cloud Storage.

Proses ini ditampilkan dalam diagram berikut:

Diagram alur tugas sementara di cloud.

Gunakan cluster persisten kecil hanya jika benar-benar diperlukan

Jika Anda tidak dapat menyelesaikan pekerjaan tanpa cluster persisten, Anda dapat membuatnya. Opsi ini mungkin mahal dan tidak disarankan jika ada cara lain untuk menyelesaikan tugas Anda di cluster sementara.

Anda dapat meminimalkan biaya cluster persisten dengan:

  • Membuat cluster terkecil.
  • Menentukan cakupan pekerjaan Anda di cluster tersebut hingga jumlah tugas sekecil mungkin.
  • Menskalakan cluster ke jumlah node minimum yang dapat diterapkan, dan menambahkan secara lebih dinamis untuk memenuhi permintaan.

Memigrasikan secara bertahap

Ada banyak manfaat memigrasikan secara bertahap. Anda dapat:

  • Memisahkan tugas individu dalam infrastruktur Hadoop Anda yang sudah ada dari kompleksitas yang melekat di lingkungan yang matang.
  • Memeriksa setiap tugas secara terpisah untuk mengevaluasi kebutuhannya dan menentukan jalur terbaik untuk migrasi.
  • Menangani masalah tak terduga yang muncul tanpa menunda tugas dependen.
  • Membuat bukti konsep untuk setiap proses yang kompleks tanpa memengaruhi lingkungan produksi Anda.
  • Memindahkan workload Anda ke model sementara yang direkomendasikan dengan cermat dan hati-hati.

Migrasi Anda bersifat unik untuk lingkungan Hadoop Anda, sehingga tidak ada paket universal yang cocok untuk semua skenario migrasi. Buat rencana untuk migrasi yang memberi Anda kebebasan untuk mengubah setiap bagian ke paradigma cloud computing.

Berikut adalah urutan migrasi bertahap yang umum:

  1. Pindahkan sebagian data Anda ke Google Cloud.

  2. Bereksperimenlah dengan data tersebut:

    1. Replikasikan tugas Anda yang ada yang menggunakan data tersebut.

    2. Buat prototipe baru yang bekerja dengan data.

  3. Ulangi dengan data tambahan.

Mulailah dengan data yang paling tidak penting. Pada tahap awal, menggunakan data cadangan dan arsip merupakan pendekatan yang bagus.

Salah satu jenis tugas berisiko rendah yang memungkinkan pengujian awal yang baik adalah mengisi ulang dengan menjalankan pemrosesan burst pada data arsip. Anda dapat menyiapkan tugas yang mengisi kekurangan dalam pemrosesan data yang ada sebelum tugas Anda saat ini diterapkan. Memulai tugas burst sering kali memberikan pengalaman penskalaan di Google Cloud lebih awal dalam paket migrasi Anda. Layanan ini dapat membantu Anda saat mulai memigrasikan tugas yang lebih penting.

Diagram berikut menunjukkan contoh arsitektur hybrid pengisian ulang yang umum.

Diagram arsitektur yang umum untuk pengisian ulang di cloud.

Contoh ini memiliki dua komponen utama. Pertama, tugas terjadwal yang berjalan di cluster lokal mengirim data ke Cloud Storage melalui gateway internet. Kedua, tugas pengisian ulang berjalan di cluster Dataproc sementara. Selain mengisi ulang, Anda dapat menggunakan cluster sementara di Google Cloud untuk eksperimen dan membuat bukti konsep untuk pekerjaan mendatang.

Membuat perencanaan dengan mempertimbangkan migrasi yang telah selesai

Sejauh ini, panduan ini mengasumsikan bahwa tujuan Anda adalah memindahkan seluruh sistem Hadoop dari infrastruktur lokal ke Google Cloud. Sistem Hadoop yang berjalan sepenuhnya di Google Cloud lebih mudah dikelola daripada yang beroperasi di cloud dan infrastruktur lokal. Namun, pendekatan hybrid sering kali diperlukan untuk memenuhi kebutuhan bisnis atau teknologi Anda.

Mendesain solusi hybrid

Berikut beberapa alasan Anda mungkin memerlukan solusi hybrid:

  • Anda sedang dalam proses mengembangkan sistem berbasis cloud, sehingga sistem yang ada yang bergantung pada sistem tersebut harus terus berjalan di infrastruktur lokal hingga Anda selesai.
  • Anda memiliki persyaratan bisnis untuk menyimpan data Anda di infrastruktur lokal.
  • Anda harus berbagi data dengan sistem lain yang berjalan di infrastruktur lokal, dan sistem tersebut tidak dapat berinteraksi dengan Google Cloud karena adanya batasan teknis atau bisnis.

Solusi hybrid yang umum memiliki empat bagian utama:

  1. Cluster Hadoop lokal.

  2. Koneksi dari cluster lokal ke Google Cloud.

  3. Penyimpanan data yang terpusat di Google Cloud.

  4. Komponen berbasis cloud yang menangani data di Google Cloud.

Masalah yang harus Anda atasi dengan solusi hybrid cloud adalah cara menjaga sistem Anda tetap sinkron. Artinya, bagaimana Anda memastikan bahwa perubahan yang Anda buat pada data di satu tempat akan diterapkan di data yang lain? Anda dapat menyederhanakan sinkronisasi dengan membuat perbedaan jelas antara penggunaan data Anda di berbagai lingkungan.

Misalnya, Anda mungkin memiliki solusi hybrid sehingga hanya data yang diarsipkan yang disimpan di Google Cloud. Anda dapat menyiapkan tugas terjadwal untuk memindahkan data dari cluster lokal ke Google Cloud saat data mencapai usia yang ditentukan. Kemudian, Anda dapat menyiapkan semua tugas yang bekerja pada data yang diarsipkan di Google Cloud sehingga Anda tidak perlu menyinkronkan perubahan ke cluster lokal.

Cara lain untuk membagi sistem Anda adalah dengan memindahkan semua data dan pekerjaan untuk project atau grup kerja tertentu ke Google Cloud sambil menyimpan pekerjaan lain di infrastruktur lokal. Kemudian Anda dapat berfokus pada tugas Anda alih-alih membuat sistem sinkronisasi data yang kompleks.

Anda mungkin memiliki masalah keamanan atau logistik yang mempersulit cara menghubungkan cluster lokal ke Google Cloud. Salah satu solusinya adalah menggunakan Virtual Private Cloud yang terhubung ke jaringan lokal Anda menggunakan Cloud VPN.

Diagram berikut menunjukkan contoh penyiapan hybrid cloud:

Diagram arsitektur Hadoop hybrid cloud yang umum.

Contoh penyiapan ini menggunakan Cloud VPN untuk menghubungkan VPC Google Cloud ke cluster lokal. Sistem tersebut menggunakan Dataproc di dalam VPC untuk mengelola cluster persisten yang memproses data yang berasal dari sistem lokal. Penyiapan ini mungkin melibatkan sinkronisasi data antar sistem. Cluster Dataproc persisten juga mentransfer data yang berasal dari sistem lokal ke layanan penyimpanan yang sesuai di Google Cloud. Sebagai ilustrasi, contoh tersebut menggunakan Cloud Storage, BigQuery, dan Bigtable untuk penyimpanan—yang merupakan tujuan paling umum untuk data yang diproses oleh workload Hadoop di Google Cloud.

Setengah lainnya dari contoh solusi menunjukkan beberapa cluster sementara yang dibuat sesuai kebutuhan di cloud publik. Cluster tersebut dapat digunakan untuk banyak tugas, termasuk yang mengumpulkan dan mentransformasi data baru. Hasil dari tugas ini disimpan di layanan penyimpanan yang sama dengan yang digunakan oleh cluster yang berjalan di VPC.

Mendesain solusi berbasis cloud

Sebaliknya, solusi berbasis cloud sangatlah mudah. Karena Anda menjalankan semua tugas di Google Cloud menggunakan data yang disimpan di Cloud Storage, Anda dapat menghindari kompleksitas sinkronisasi data, meskipun Anda tetap harus berhati-hati tentang bagaimana tugas yang berbeda menggunakan data yang sama.

Diagram berikut menunjukkan contoh sistem berbasis cloud:

Diagram arsitektur Hadoop berbasis cloud yang umum.

Sistem contoh memiliki beberapa cluster persisten dan beberapa cluster sementara. Kedua jenis cluster ini berbagi alat dan resource cloud, termasuk penyimpanan dan pemantauan. Dataproc menggunakan image mesin standar untuk menentukan konfigurasi software pada VM dalam cluster. Anda dapat menggunakan image bawaan ini sebagai dasar untuk konfigurasi VM yang Anda perlukan. Contoh ini menunjukkan sebagian besar cluster persisten yang berjalan pada versi 1.1, dengan satu cluster yang berjalan di versi 1.2. Anda dapat membuat cluster baru dengan instance VM yang disesuaikan kapan pun Anda membutuhkannya. Dengan begitu, Anda dapat memisahkan lingkungan pengujian dan pengembangan dari tugas dan data produksi penting.

Cluster sementara dalam contoh ini menjalankan berbagai tugas. Contoh ini menunjukkan Apache Airflow yang berjalan di Compute Engine yang digunakan untuk menjadwalkan pekerjaan dengan cluster sementara.

Bekerja dengan layanan Google Cloud

Bagian ini membahas beberapa pertimbangan tambahan untuk memigrasikan Hadoop ke Google Cloud.

Mengganti alat open source dengan layanan Google Cloud

Google Cloud menawarkan banyak produk yang dapat Anda gunakan dengan sistem Hadoop Anda. Menggunakan produk Google Cloud sering kali menguntungkan dibandingkan menjalankan produk open source yang setara di Google Cloud. Pelajari produk dan layanan Google Cloud untuk mengetahui apa saja yang ditawarkan platform ini.

Menggunakan region dan zona

Anda harus memahami dampak geografi dan region sebelum mengonfigurasi data dan tugas Anda. Banyak layanan Google Cloud mengharuskan Anda menentukan region atau zona untuk mengalokasikan resource. Latensi permintaan dapat meningkat jika permintaan dibuat dari region yang berbeda dengan region tempat penyimpanan resource. Selain itu, jika resource layanan dan data persisten Anda berada di region berbeda, beberapa panggilan ke layanan Google Cloud mungkin menyalin semua data yang diperlukan dari satu zona ke zona lainnya sebelum diproses. Hal ini dapat berdampak buruk pada performa.

Mengonfigurasi autentikasi dan izin

Kontrol Anda atas izin di layanan Google Cloud kemungkinan tidak terlalu terperinci dibandingkan dengan yang biasa Anda lakukan di lingkungan Hadoop lokal. Pastikan Anda memahami cara kerja pengelolaan akses di Google Cloud sebelum memulai migrasi.

Identity and Access Management (IAM) mengelola akses ke resource cloud. Cara ini bekerja berdasarkan akun dan peran. Akun mengidentifikasi pengguna atau permintaan (autentikasi), dan peran yang diberikan ke akun yang menentukan tingkat akses (otorisasi). Sebagian besar layanan Google Cloud memberikan serangkaian perannya sendiri untuk membantu Anda menyesuaikan izin. Sebagai bagian dari proses perencanaan migrasi, Anda harus mempelajari cara IAM berinteraksi dengan Cloud Storage dan dengan Dataproc. Pelajari model izin setiap layanan Google Cloud tambahan saat Anda menambahkannya ke sistem, dan pertimbangkan cara menentukan peran yang bekerja di seluruh layanan yang Anda gunakan.

Memantau tugas dengan Cloud Logging

Tugas Google Cloud Anda mengirim log ke Cloud Logging, tempat log dapat diakses dengan mudah. Anda bisa mendapatkan log dengan cara berikut:

Mengelola node edge dengan Compute Engine

Anda dapat menggunakan Compute Engine untuk mengakses node edge di cluster Hadoop Dataproc. Seperti sebagian besar produk Google Cloud, Anda memiliki beberapa opsi untuk pengelolaan: melalui konsol berbasis web, dari command line, dan melalui API web.

Menggunakan layanan big data Google Cloud

Cloud Storage adalah cara utama untuk menyimpan data tidak terstruktur di Google Cloud, tetapi ini bukan satu-satunya opsi penyimpanan. Sebagian data Anda mungkin lebih cocok untuk penyimpanan dalam produk yang dirancang secara eksplisit untuk big data.

Anda dapat menggunakan Bigtable untuk menyimpan data sparse dalam jumlah besar. Bigtable adalah API yang sesuai dengan HBase, yang menawarkan latensi rendah dan skalabilitas tinggi untuk beradaptasi dengan tugas Anda.

Untuk data warehousing, Anda dapat menggunakan BigQuery.

Langkah berikutnya