Men-deploy proses transformasi data antara MongoDB Atlas dan Google Cloud

Last reviewed 2023-12-13 UTC

Dokumen ini menjelaskan cara Anda men-deploy Transformasi data antara MongoDB Atlas dan Google Cloud. Dalam dokumen ini, Anda men-deploy proses ekstrak, transformasi, dan pemuatan (ETL) antara data dari MongoDB Atlas ke BigQuery.

Petunjuk ini ditujukan bagi administrator data yang ingin menggunakan BigQuery untuk melakukan analisis kompleks pada data operasional yang tersimpan di MongoDB Atlas. Anda harus memahami MongoDB Atlas, BigQuery, dan Dataflow.

Arsitektur

Diagram berikut menunjukkan arsitektur referensi yang Anda gunakan saat men-deploy solusi ini.

Arsitektur untuk transformasi data antara MongoDB Atlas dan Google Cloud

Seperti yang ditunjukkan dalam diagram, ada tiga template Dataflow yang menangani proses integrasi. Template pertama, MongoDB ke BigQuery, adalah pipeline batch yang membaca dokumen dari MongoDB dan menulisnya ke BigQuery. Template kedua, BigQuery ke MongoDB, adalah template batch yang dapat digunakan untuk membaca data yang dianalisis dari BigQuery dan menulisnya ke MongoDB. Template ketiga, MongoDB ke BigQuery (CDC), adalah pipeline streaming yang berfungsi dengan aliran perubahan MongoDB untuk menangani perubahan data operasional. Untuk mengetahui detailnya, lihat Transformasi data antara MongoDB Atlas dan Google Cloud.

Tujuan

Langkah-langkah deployment berikut menunjukkan cara menggunakan template MongoDB ke BigQuery untuk melakukan proses ETL antardata dari MongoDB Atlas ke BigQuery. Untuk men-deploy proses ETL ini, Anda harus melakukan tugas-tugas berikut:

  • Sediakan cluster MongoDB Atlas di Google Cloud.
  • Muat data ke cluster MongoDB Anda.
  • Konfigurasi akses cluster.
  • Menyiapkan tabel BigQuery di Google Cloud.
  • Buat dan pantau tugas Dataflow yang mentransfer data MongoDB ke BigQuery.
  • Validasi tabel output di BigQuery.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.

Sebelum memulai

Selesaikan langkah-langkah berikut guna menyiapkan lingkungan untuk arsitektur MongoDB ke BigQuery.

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API BigQuery and Dataflow.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API BigQuery and Dataflow.

    Mengaktifkan API

Menginstal MongoDB Atlas

Di bagian ini, Anda akan menggunakan Cloud Marketplace untuk menginstal instance MongoDB Atlas. Petunjuk ini mengasumsikan bahwa Anda tidak memiliki akun MongoDB yang ada. Untuk detail selengkapnya tentang menyiapkan langganan dan menautkan akun penagihan Google ke akun MongoDB, lihat Google Cloud Mandiri Marketplace dalam dokumentasi MongoDB.

  1. Di Konsol Google Cloud, luaskan menu navigasi, lalu pilih Marketplace.
  2. Di kotak penelusuran Marketplace, masukkan MongoDB Atlas.
  3. Di hasil penelusuran, pilih MongoDB Atlas (Bayar Sesuai Penggunaan).
  4. Di halaman MongoDB Atlas (Pay as You Go), tinjau ringkasan untuk mengetahui persyaratan dan ketentuan, lalu klik Sign up with MongoDB.
  5. Di halaman langganan MongoDB, pilih akun penagihan Anda, setujui persyaratannya, lalu klik Subscribe.
  6. Klik tombol Register with MongoDB dan buat akun MongoDB.
  7. Pada halaman yang meminta Anda untuk memilih organisasi, pilih organisasi MongoDB yang akan ditautkan ke akun penagihan Google Cloud Anda.
  8. Tunggu hingga Google Cloud selesai menyinkronkan organisasi Anda.

Setelah akun disinkronkan, halaman MongoDB Atlas (Pay as You Go) di konsol Google Cloud akan diperbarui untuk menampilkan tombol Kelola di penyedia.

Membuat Cluster MongoDB Atlas

Di bagian ini, Anda akan membuat cluster MongoDB. Selama proses pembuatan, Anda memilih informasi berikut:

  • Jenis cluster Anda. Pilih Paket Cluster berdasarkan persyaratan infrastruktur Anda.
  • Region pilihan untuk cluster Anda. Sebaiknya pilih wilayah yang paling dekat dengan lokasi fisik Anda.

Untuk detail tentang cara membuat dan men-deploy cluster MongoDB gratis, lihat Men-deploy Cluster Gratis dalam dokumentasi MongoDB.

Untuk membuat dan menyiapkan cluster Anda, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, di halaman MongoDB Atlas (Pay as You Go), klik Manage on Provider.
  2. Di halaman login MongoDB, klik Google, lalu klik Akun Google yang Anda gunakan untuk menginstal MongoDB Atlas.

    Sebagai pengguna baru, UI MongoDB akan otomatis terbuka di halaman Database Deployments.

  3. Di UI Atlas, pada halaman Database Deployments, klik Create.

  4. Di halaman Buat Cluster, klik Dibagikan.

    Opsi Shared menyediakan cluster gratis yang dapat Anda gunakan untuk menguji arsitektur referensi ini.

  5. Pada halaman Create a Shared Cluster, di bagian Cloud Provider & Region, lakukan hal berikut:

    1. Pilih Google Cloud.
    2. Pilih region yang paling dekat dengan lokasi geografis Anda dan memiliki karakteristik yang diinginkan.
  6. Di bagian Cluster Tier, pilih opsi M0.

    Cluster M0 gratis dan cocok untuk aplikasi bukti konsep kecil.

  7. Di bagian Nama Cluster, masukkan nama cluster Anda.

  8. Klik Create Cluster untuk men-deploy cluster.

Menyiapkan cluster MongoDB

Di bagian ini, Anda akan menyelesaikan prosedur berikut:

  • Memuat data sampel ke dalam cluster Anda.
  • Mengonfigurasi akses ke cluster Anda.
  • Menghubungkan ke cluster Anda.

Memuat data sampel ke cluster MongoDB Anda

Setelah membuat cluster MongoDB, Anda perlu memuat data ke dalam cluster tersebut. MongoDB memuat berbagai set data sampel. Anda dapat menggunakan salah satu set data tersebut untuk menguji deployment ini. Namun, Anda mungkin ingin menggunakan set data yang serupa dengan data sebenarnya yang akan digunakan dalam deployment produksi.

Untuk mengetahui detail tentang cara memuat data sampel, lihat Memuat Data Sampel dalam dokumentasi MongoDB.

Untuk memuat data contoh, lakukan langkah-langkah berikut:

  1. Di UI Versa 3, pada halaman Database Deployments, temukan cluster yang baru saja Anda deploy.
  2. Klik tombol Ellipses (...), lalu klik Load Sample Dataset.

    Pemuatan data sampel memerlukan waktu sekitar 5 menit.

  3. Tinjau contoh set data dan catat koleksi mana yang ingin Anda gunakan saat menguji deployment ini.

Mengonfigurasi akses cluster

Untuk menghubungkan cluster, Anda harus membuat pengguna database dan menetapkan alamat IP untuk cluster tersebut:

  • Pengguna database terpisah dari pengguna MongoDB. Anda memerlukan pengguna database untuk terhubung ke MongoDB dari Google Cloud.
  • Untuk arsitektur referensi ini, gunakan blok CIDR 0.0.0.0/0 sebagai alamat IP Anda. Blok CIDR ini memungkinkan akses dari mana saja dan hanya cocok untuk deployment bukti konsep seperti ini. Namun, saat men-deploy versi produksi arsitektur ini, pastikan Anda memasukkan rentang alamat IP yang sesuai dan sesuai untuk aplikasi Anda.

Untuk mengetahui detail tentang cara menyiapkan pengguna database dan alamat IP untuk cluster, lihat Mengonfigurasi akses cluster dengan Wizard QuickStart dalam dokumentasi MongoDB.

Untuk mengonfigurasi akses cluster, lakukan langkah-langkah berikut:

  1. Di bagian Security pada panel navigasi sebelah kiri, klik Quickstart.
  2. Di halaman Username and Password, lakukan hal berikut untuk membuat pengguna database:
    1. Untuk Username, masukkan nama pengguna database.
    2. Untuk Password, masukkan sandi pengguna database.
    3. Klik Create User.
  3. Di halaman Nama Pengguna dan Sandi, lakukan hal berikut untuk menambahkan alamat IP untuk cluster Anda:

    1. Di Alamat IP, masukkan 0.0.0.0/0.

      Untuk lingkungan produksi Anda, pilih alamat IP yang sesuai untuk lingkungan tersebut.

    2. (Opsional) Untuk Deskripsi, masukkan deskripsi cluster Anda.

    3. Klik Add Entry.

  4. Klik Finish and Close.

Hubungkan ke cluster Anda

Dengan akses ke cluster yang telah dikonfigurasi, Anda kini harus terhubung ke cluster Anda. Untuk mengetahui detail tentang cara menghubungkan ke cluster Anda, lihat Menghubungkan ke Cluster Anda dalam dokumentasi MongoDB.

Ikuti langkah-langkah berikut untuk terhubung ke cluster Anda:

  1. Di UI Versa 3, pada halaman Database Deployments, temukan cluster yang baru saja Anda deploy.
  2. Pilih Hubungkan.
  3. Di halaman Hubungkan, klik opsi Kompas.
  4. Cari kolom Copy the connection string, lalu salin dan simpan string koneksi MongoDB. Anda menggunakan string koneksi ini saat menjalankan template Dataflow.

    String koneksi memiliki sintaksis berikut:

    mongodb+srv://<UserName>:<Password>@<HostName>
    

    String koneksi secara otomatis memiliki nama pengguna pengguna database yang Anda buat di langkah sebelumnya. Namun, Anda akan diminta untuk memasukkan sandi pengguna database saat menggunakan string ini untuk terhubung.

  5. Klik Close.

Membuat set data di BigQuery

Saat membuat set data di BigQuery, Anda hanya perlu memasukkan nama set data dan memilih lokasi geografis untuk set data tersebut. Namun, ada kolom opsional yang dapat Anda tetapkan di set data. Untuk mengetahui informasi selengkapnya tentang kolom opsional tersebut, lihat Membuat set data.

  1. Di Google Cloud Console, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih project tempat Anda ingin membuat set data.

  3. Luaskan opsi dan klik Create dataset.

  4. Di halaman Create dataset, lakukan hal berikut:

    1. Untuk Dataset ID, masukkan nama set data yang unik.
    2. Untuk Location type, pilih lokasi geografis untuk set data. Setelah set data dibuat, lokasi tidak dapat diubah.

      Jika Anda memilih EU atau wilayah yang berbasis di Uni Eropa untuk lokasi set data, Data Pelanggan BigQuery inti Anda berada di Uni Eropa. Untuk definisi Data Pelanggan BigQuery inti, lihat Persyaratan Khusus Layanan.

    3. Klik Buat set data.

Membuat, memantau, dan memvalidasi tugas batch Dataflow

Di Dataflow, gunakan petunjuk berikut untuk membuat tugas batch satu kali yang memuat data sampel dari MongoDB ke BigQuery. Setelah membuat tugas batch, Anda akan memantau progresnya di antarmuka pemantauan Dataflow. Untuk detail selengkapnya tentang penggunaan antarmuka pemantauan, lihat Menggunakan antarmuka pemantauan Dataflow.

  1. Di konsol Google Cloud, buka halaman Dataflow.

    Buka Dataflow

  2. Klik Create job from template.

  3. Di halaman Create job from template, lakukan langkah-langkah berikut:

    1. Untuk Nama tugas, masukkan nama tugas yang unik, seperti mongodb-to-bigquery-batch. Pastikan tidak ada tugas Dataflow lain dengan nama tersebut yang sedang berjalan di project tersebut.
    2. Untuk Regional endpoint, pilih lokasi yang sama dengan set data BigQuery yang baru saja Anda buat.
    3. Untuk Dataflow template, di daftar Process Data in Bulk (batch), pilih MongoDB to BigQuery.
    4. Di bagian Parameter yang Diperlukan, masukkan parameter berikut:

      1. Untuk MongoDB Connection URI, masukkan string koneksi Atlas MongoDB Anda.
      2. Untuk database Mongo, masukkan nama database yang Anda buat sebelumnya.
      3. Untuk koleksi Mongo, masukkan nama koleksi sampel yang Anda catat sebelumnya.
      4. Untuk tabel tujuan BigQuery, klik Browse, lalu pilih tabel BigQuery yang telah dibuat di langkah sebelumnya.
      5. Untuk User option, masukkan NONE atau FLATTEN.

        NONE akan memuat seluruh dokumen dalam format string JSON ke BigQuery. FLATTEN meratakan dokumen menjadi satu tingkat. Jika Anda tidak memberikan UDF, opsi FLATTEN hanya berfungsi untuk dokumen yang memiliki skema tetap.

      6. Untuk memulai tugas, klik Run Job.

  4. Gunakan langkah-langkah berikut untuk membuka antarmuka pemantauan Dataflow, tempat Anda dapat memeriksa progres tugas batch dan memvalidasi bahwa tugas tersebut diselesaikan tanpa error:

    1. Di konsol Google Cloud, pada project untuk deployment ini, buka menu navigasi.
    2. Di Analytics, klik Dataflow.
  5. Setelah pipeline berhasil berjalan, lakukan hal berikut untuk memvalidasi output tabel:

    1. Di BigQuery, buka panel Explorer.
    2. Luaskan project Anda, klik set data, lalu klik dua kali pada tabel.

      Sekarang Anda dapat melihat data MongoDB di tabel.

Pembersihan

Agar tidak menimbulkan biaya pada akun MongoDB dan Google Cloud, Anda harus menjeda atau menghentikan cluster MongoDB Atlas dan menghapus project Google Cloud yang Anda buat untuk arsitektur referensi ini.

Menjeda atau menghentikan cluster MongoDB Atlas

Prosedur berikut memberikan dasar-dasar untuk menjeda cluster Anda. Untuk detail selengkapnya, lihat Menjeda, Melanjutkan, atau Menghentikan Cluster dalam dokumentasi MongoDB.

  1. Di UI Atlas, buka halaman Database Deployments untuk project Atlas Anda.
  2. Untuk cluster yang ingin dijeda, klik .
  3. Klik Jeda Cluster.
  4. Klik Jeda Cluster untuk mengonfirmasi pilihan Anda.

Menghapus project

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya

Kontributor

Penulis:

Kontributor lainnya:

Untuk melihat profil LinkedIn nonpublik, login ke LinkedIn.