Men-deploy proses transformasi data antara MongoDB Atlas dan Google Cloud

Last reviewed 2023-12-13 UTC

Dokumen ini menjelaskan cara men-deploy Transformasi data antara MongoDB Atlas dan Google Cloud. Dalam dokumen ini, Anda akan men-deploy proses ekstrak, transformasi, dan pemuatan (ETL) antara data dari MongoDB Atlas ke BigQuery.

Petunjuk ini ditujukan untuk administrator data yang ingin menggunakan BigQuery untuk melakukan analisis kompleks pada data operasional yang disimpan di MongoDB Atlas. Anda harus memahami MongoDB Atlas, BigQuery, dan Dataflow.

Arsitektur

Diagram berikut menunjukkan arsitektur referensi yang Anda gunakan saat men-deploy solusi ini.

Arsitektur untuk transformasi data antara MongoDB Atlas dan Google Cloud

Seperti yang ditunjukkan pada diagram, ada tiga template Dataflow yang menangani proses integrasi. Template pertama, MongoDB ke BigQuery, adalah pipeline batch yang membaca dokumen dari MongoDB dan menulisnya ke BigQuery. Template kedua, BigQuery ke MongoDB, adalah template batch yang dapat digunakan untuk membaca data yang dianalisis dari BigQuery dan menulisnya ke MongoDB. Template ketiga, MongoDB ke BigQuery (CDC), adalah pipeline streaming yang berfungsi dengan aliran perubahan MongoDB untuk menangani perubahan dalam data operasional. Untuk mengetahui detailnya, lihat Transformasi data antara MongoDB Atlas dan Google Cloud.

Tujuan

Langkah-langkah deployment berikut menunjukkan cara menggunakan template MongoDB ke BigQuery untuk melakukan proses ETL antara data dari MongoDB Atlas ke BigQuery. Untuk men-deploy proses ETL ini, Anda harus melakukan tugas-tugas berikut:

  • Menyediakan cluster MongoDB Atlas di Google Cloud.
  • Muat data ke cluster MongoDB Anda.
  • Konfigurasi akses cluster.
  • Siapkan tabel BigQuery di Google Cloud.
  • Buat dan pantau tugas Dataflow yang mentransfer data MongoDB ke BigQuery.
  • Validasi tabel output di BigQuery.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.

Sebelum memulai

Selesaikan langkah-langkah berikut untuk menyiapkan lingkungan untuk arsitektur MongoDB ke BigQuery.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Aktifkan API BigQuery and Dataflow.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Aktifkan API BigQuery and Dataflow.

    Mengaktifkan API

Menginstal MongoDB Atlas

Di bagian ini, Anda menggunakan Cloud Marketplace untuk menginstal instance MongoDB Atlas. Petunjuk ini mengasumsikan bahwa Anda tidak memiliki akun MongoDB yang sudah ada. Untuk mengetahui detail lengkap tentang cara menyiapkan langganan dan menautkan akun penagihan Google ke akun MongoDB, lihat Google Cloud Self-Serve Marketplace dalam dokumentasi MongoDB.

  1. Di konsol Google Cloud, luaskan menu navigasi, lalu pilih Marketplace.
  2. Di kotak penelusuran Marketplace, masukkan MongoDB Atlas.
  3. Di hasil penelusuran, pilih MongoDB Atlas (Bayar Sesuai Penggunaan).
  4. Di halaman MongoDB Atlas (Bayar Sesuai Penggunaan), tinjau ringkasan untuk persyaratan dan ketentuan, lalu klik Daftar dengan MongoDB.
  5. Di halaman langganan MongoDB, pilih akun penagihan Anda, setujui persyaratan, lalu klik Berlangganan.
  6. Klik tombol Daftar dengan MongoDB dan buat akun MongoDB.
  7. Di halaman yang meminta Anda memilih organisasi, pilih organisasi MongoDB yang akan ditautkan ke akun penagihan Google Cloud Anda.
  8. Tunggu hingga Google Cloud selesai menyinkronkan organisasi Anda.

Saat akun disinkronkan, halaman MongoDB Atlas (Bayar Sesuai Penggunaan) di konsol Google Cloud akan diperbarui untuk menampilkan tombol Kelola di penyedia.

Membuat Cluster MongoDB Atlas

Di bagian ini, Anda akan membuat cluster MongoDB. Selama proses pembuatan, Anda akan memilih informasi berikut:

  • Jenis cluster Anda. Pilih Tingkat Cluster berdasarkan persyaratan infrastruktur Anda.
  • Wilayah yang diinginkan untuk cluster Anda. Sebaiknya pilih region yang paling dekat dengan lokasi fisik Anda.

Untuk mengetahui detail tentang cara membuat dan men-deploy cluster MongoDB gratis, lihat artikel Men-deploy Cluster Gratis dalam dokumentasi MongoDB.

Untuk membuat dan menyiapkan cluster, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, pada halaman MongoDB Atlas (Pay as You Go), klik Manage on Provider.
  2. Di halaman login MongoDB, klik Google, lalu klik Akun Google yang Anda gunakan untuk menginstal MongoDB Atlas.

    Sebagai pengguna baru, UI MongoDB akan otomatis terbuka ke halaman Deployment Database.

  3. Di UI Atlas, pada halaman Database Deployments, klik Create.

  4. Di halaman Buat Cluster, klik Bersama.

    Opsi Shared menyediakan cluster gratis yang dapat Anda gunakan untuk menguji arsitektur referensi ini.

  5. Di halaman Create a Shared Cluster, di bagian Cloud Provider & Region, lakukan hal berikut:

    1. Pilih Google Cloud.
    2. Pilih region yang paling dekat dengan Anda secara geografis dan memiliki karakteristik yang Anda inginkan.
  6. Di bagian Cluster Tier, pilih opsi M0.

    Cluster M0 gratis dan cocok untuk aplikasi bukti konsep kecil.

  7. Di Cluster Name, masukkan nama untuk cluster Anda.

  8. Klik Create Cluster untuk men-deploy cluster.

Menyiapkan cluster MongoDB

Di bagian ini, Anda akan menyelesaikan prosedur berikut:

  • Memuat data sampel ke cluster Anda.
  • Mengonfigurasi akses ke cluster Anda.
  • Menghubungkan ke cluster Anda.

Memuat data sampel ke cluster MongoDB

Setelah membuat cluster MongoDB, Anda perlu memuat data ke dalam cluster tersebut. MongoDB memuat berbagai set data sampel. Anda dapat menggunakan salah satu set data ini untuk menguji deployment ini. Namun, Anda mungkin ingin menggunakan set data yang mirip dengan data sebenarnya yang akan digunakan dalam deployment produksi.

Untuk mengetahui detail tentang cara memuat data sampel, lihat Memuat Data Sampel dalam dokumentasi MongoDB.

Untuk memuat data contoh, lakukan langkah-langkah berikut:

  1. Di UI Atlas, pada halaman Database Deployments, cari cluster yang baru saja Anda deploy.
  2. Klik tombol Elips (...), lalu klik Muat Set Data Contoh.

    Memuat data sampel memerlukan waktu sekitar 5 menit.

  3. Tinjau set data contoh dan catat koleksi yang ingin Anda gunakan saat menguji deployment ini.

Mengonfigurasi akses cluster

Untuk menghubungkan cluster, Anda perlu membuat pengguna database dan menetapkan alamat IP untuk cluster:

  • Pengguna database terpisah dari pengguna MongoDB. Anda memerlukan pengguna database untuk terhubung ke MongoDB dari Google Cloud.
  • Untuk arsitektur referensi ini, Anda menggunakan blok CIDR 0.0.0.0/0 sebagai alamat IP. Blok CIDR ini memungkinkan akses dari mana saja dan hanya cocok untuk deployment proof of concept seperti ini. Namun, saat Anda men-deploy versi produksi arsitektur ini, pastikan untuk memasukkan rentang alamat IP yang sesuai untuk aplikasi Anda.

Untuk mengetahui detail tentang cara menyiapkan pengguna database dan alamat IP untuk cluster, lihat Mengonfigurasi akses cluster dengan Wizard Mulai Cepat dalam dokumentasi MongoDB.

Untuk mengonfigurasi akses cluster, lakukan langkah-langkah berikut:

  1. Di bagian Keamanan pada panel navigasi kiri, klik Mulai Cepat.
  2. Di halaman Nama Pengguna dan Sandi, lakukan tindakan berikut untuk membuat pengguna database:
    1. Untuk Nama pengguna, masukkan nama untuk pengguna database.
    2. Untuk Sandi, masukkan sandi untuk pengguna database.
    3. Klik Create User.
  3. Di halaman Nama Pengguna dan Sandi, lakukan hal berikut untuk menambahkan alamat IP untuk cluster Anda:

    1. Di Alamat IP, masukkan 0.0.0.0/0.

      Untuk lingkungan produksi, pilih alamat IP yang sesuai untuk lingkungan tersebut.

    2. (Opsional) Untuk Deskripsi, masukkan deskripsi cluster Anda.

    3. Klik Tambahkan Entri.

  4. Klik Finish and Close.

Menghubungkan ke cluster

Setelah akses ke cluster dikonfigurasi, Anda kini perlu terhubung ke cluster. Untuk mengetahui detail tentang cara menghubungkan ke cluster, lihat Menghubungkan ke Cluster Anda dalam dokumentasi MongoDB.

Ikuti langkah-langkah berikut untuk terhubung ke cluster Anda:

  1. Di UI Atlas, pada halaman Database Deployments, cari cluster yang baru saja Anda deploy.
  2. Pilih Hubungkan.
  3. Di halaman Connect, klik opsi Compass.
  4. Cari kolom Salin string koneksi, lalu salin dan simpan string koneksi MongoDB. Anda menggunakan string koneksi ini saat menjalankan template Dataflow.

    String koneksi memiliki sintaksis berikut:

    mongodb+srv://<UserName>:<Password>@<HostName>
    

    String koneksi secara otomatis memiliki nama pengguna pengguna database yang Anda buat di langkah sebelumnya. Namun, Anda akan diminta untuk memasukkan sandi pengguna database saat menggunakan string ini untuk terhubung.

  5. Klik Close.

Membuat set data di BigQuery

Saat membuat set data di BigQuery, Anda hanya perlu memasukkan nama set data dan memilih lokasi geografis untuk set data tersebut. Namun, ada kolom opsional yang dapat Anda tetapkan di set data. Untuk informasi selengkapnya tentang kolom opsional tersebut, lihat Membuat set data.

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih project tempat Anda ingin membuat set data.

  3. Luaskan opsi , lalu klik Create dataset.

  4. Di halaman Create dataset, lakukan hal berikut:

    1. Untuk Dataset ID, masukkan nama set data yang unik.
    2. Untuk Location type, pilih lokasi geografis untuk set data. Setelah set data dibuat, lokasi tidak dapat diubah.

      Jika Anda memilih EU atau region yang berbasis di Uni Eropa untuk lokasi set data, Data Pelanggan BigQuery inti Anda akan berada di Uni Eropa. Untuk mengetahui definisi Data Pelanggan BigQuery inti, lihat Persyaratan Khusus Layanan.

    3. Klik Create dataset.

Membuat, memantau, dan memvalidasi tugas batch Dataflow

Di Dataflow, gunakan petunjuk berikut untuk membuat tugas batch satu kali yang memuat data contoh dari MongoDB ke BigQuery. Setelah membuat tugas batch, Anda dapat memantau progres tugas di antarmuka pemantauan Dataflow. Untuk mengetahui detail lengkap tentang penggunaan antarmuka pemantauan, lihat Menggunakan antarmuka pemantauan Dataflow.

  1. Di konsol Google Cloud, buka halaman Dataflow.

    Buka Dataflow

  2. Klik Buat tugas dari template.

  3. Di halaman Create job from template, lakukan langkah-langkah berikut:

    1. Untuk Nama tugas, masukkan nama tugas yang unik, seperti mongodb-to-bigquery-batch. Pastikan tidak ada tugas Dataflow lain dengan nama tersebut yang saat ini berjalan di project tersebut.
    2. Untuk Regional endpoint, pilih lokasi yang sama dengan set data BigQuery yang baru saja Anda buat.
    3. Untuk Template dataflow, di Daftar Proses Data dalam Jumlah Besar (batch), pilih MongoDB to BigQuery.
    4. Di bagian Required Parameters, masukkan parameter berikut:

      1. Untuk MongoDB Connection URI, masukkan string koneksi MongoDB Atlas Anda.
      2. Untuk Database Mongo, masukkan nama database yang Anda buat sebelumnya.
      3. Untuk Koleksi Mongo, masukkan nama koleksi contoh yang Anda catat sebelumnya.
      4. Untuk tabel tujuan BigQuery, klik Browse, lalu pilih tabel BigQuery yang Anda buat di langkah sebelumnya.
      5. Untuk Opsi pengguna, masukkan TIDAK ADA atau FLATTEN.

        NONE akan memuat seluruh dokumen dalam format string JSON ke BigQuery. FLATTEN meratakan dokumen ke satu level. Jika Anda tidak memberikan UDF, opsi FLATTEN hanya berfungsi dengan dokumen yang memiliki skema tetap.

      6. Untuk memulai tugas, klik Run Job.

  4. Gunakan langkah-langkah berikut untuk membuka antarmuka pemantauan Dataflow tempat Anda dapat memeriksa progres tugas batch dan memvalidasi bahwa tugas selesai tanpa error:

    1. Di konsol Google Cloud, di project untuk deployment ini, buka menu navigasi.
    2. Di Analytics, klik Dataflow.
  5. Setelah pipeline berhasil berjalan, lakukan hal berikut untuk memvalidasi output tabel:

    1. Di BigQuery, buka panel Explorer.
    2. Luaskan project Anda, klik set data, lalu klik dua kali tabel.

      Sekarang Anda dapat melihat data MongoDB di tabel.

Pembersihan

Agar tidak menimbulkan biaya pada akun MongoDB dan Google Cloud, Anda harus menjeda atau menghentikan cluster MongoDB Atlas dan menghapus project Google Cloud yang Anda buat untuk arsitektur referensi ini.

Menjeda atau menghentikan cluster MongoDB Atlas

Prosedur berikut memberikan dasar-dasar untuk menjeda cluster Anda. Untuk mengetahui detail lengkap, lihat Menjeda, Melanjutkan, atau Menghentikan Cluster dalam dokumentasi MongoDB.

  1. Di UI Atlas, buka halaman Database Deployments untuk project Atlas Anda.
  2. Untuk cluster yang ingin dijeda, klik .
  3. Klik Pause Cluster.
  4. Klik Pause Cluster untuk mengonfirmasi pilihan Anda.

Menghapus project

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya

Kontributor

Penulis:

Kontributor lainnya: