Ringkasan: Memigrasikan data warehouse ke BigQuery
Dokumen ini membahas konsep umum yang berlaku untuk semua teknologi data warehousing, dan menjelaskan framework yang dapat digunakan untuk mengatur dan menyusun migrasi Anda ke BigQuery.
Terminologi
Kami menggunakan terminologi berikut saat membahas migrasi data warehouse:
- Kasus penggunaan
-
Kasus penggunaan terdiri dari semua
set data, pemrosesan data, serta interaksi sistem dan pengguna yang diperlukan untuk
mencapai nilai bisnis, seperti melacak volume penjualan untuk suatu produk
dari waktu ke waktu. Dalam data warehousing, kasus penggunaan sering kali terdiri dari:
- Pipeline data yang menyerap data mentah dari berbagai sumber data, seperti database pengelolaan hubungan pelanggan (CRM).
- Data yang disimpan di data warehouse.
- Skrip dan prosedur untuk memanipulasi serta memproses dan menganalisis data lebih lanjut.
- Aplikasi bisnis yang membaca atau berinteraksi dengan data.
- Workload
-
Kumpulan kasus penggunaan yang terhubung dan memiliki dependensi bersama. Misalnya, kasus penggunaan mungkin memiliki hubungan dan dependensi berikut:
- Pelaporan pembelian dapat berdiri sendiri dan berguna untuk memahami pengeluaran dan meminta diskon.
- Pelaporan penjualan dapat berdiri sendiri dan berguna untuk merencanakan kampanye pemasaran.
- Namun, pelaporan laba dan kerugian bergantung pada pembelian dan penjualan, serta berguna untuk menentukan nilai perusahaan.
- Aplikasi bisnis
- Sistem yang berinteraksi dengan pengguna akhir—misalnya, laporan visual atau dasbor. Aplikasi bisnis juga dapat berbentuk pipeline data operasional atau feedback loop. Misalnya, setelah perubahan harga produk dihitung atau diprediksi, pipeline data operasional dapat memperbarui harga produk baru dalam database transaksi.
- Proses upstream
- Sistem sumber dan pipeline data yang memuat data ke dalam data warehouse.
- Proses downstream
- Skrip, prosedur, dan aplikasi bisnis yang digunakan untuk memproses, membuat kueri, dan memvisualisasikan data di data warehouse.
- Mengurangi beban migrasi
-
Strategi migrasi yang bertujuan agar kasus penggunaan berfungsi bagi
pengguna akhir di lingkungan baru secepat mungkin, atau untuk memanfaatkan
kapasitas ekstra yang tersedia di lingkungan baru singkat ini. Kasus penggunaan diturunkan bebannya
dengan melakukan hal berikut:
- Menyalin, lalu menyinkronkan skema dan data dari data warehouse lama.
- Memigrasikan skrip, prosedur, dan aplikasi bisnis downstream.
Pengurangan beban migrasi dapat meningkatkan kompleksitas dan pekerjaan yang diperlukan dalam memigrasikan pipeline data.
- Migrasi penuh
- Pendekatan migrasi yang mirip dengan pengurangan beban migrasi. Namun, alih-alih menyalin lalu menyinkronkan skema dan data, Anda dapat mengonfigurasi migrasi untuk menyerap data secara langsung ke cloud data warehouse (CDW) baru dari sistem sumber upstream. Dengan kata lain, pipeline data yang diperlukan untuk kasus penggunaan juga dimigrasikan.
- Data warehouse perusahaan (EDW)
- Data warehouse yang tidak hanya terdiri dari database analisis, tetapi juga beberapa komponen dan prosedur analisis penting. Data ini mencakup pipeline data, kueri, dan aplikasi bisnis yang diperlukan untuk memenuhi workload organisasi.
- Cloud data warehouse (CDW)
- Data warehouse yang memiliki karakteristik yang sama dengan EDW, tetapi berjalan pada layanan yang terkelola sepenuhnya di cloud—dalam hal ini, BigQuery.
- Pipeline data
- Proses yang menghubungkan sistem data melalui serangkaian fungsi dan tugas yang menjalankan berbagai jenis transformasi data. Untuk mengetahui detailnya, lihat Apa itu pipeline data? dalam rangkaian ini.
Mengapa migrasi ke BigQuery?
Selama beberapa dekade terakhir, organisasi telah menguasai ilmu data warehousing. Mereka semakin sering menerapkan analisis deskriptif pada data yang disimpan dalam jumlah besar, sehingga mendapatkan insight tentang operasi bisnis inti mereka. Business Intelligence Konvensional (BI), yang berfokus pada kueri, pelaporan, dan Pemrosesan Analisis Online , mungkin merupakan faktor pembeda di masa lalu, baik itu membuat atau memecah perusahaan, tetapi tidak lagi memadai.
Saat ini, organisasi tidak hanya perlu memahami peristiwa terdahulu menggunakan analisis deskriptif, tetapi juga memerlukan analisis prediktif, yang sering menggunakan machine learning (ML) untuk mengekstrak pola data dan membuat klaim probabilitas tentang masa depan. Tujuan utamanya adalah mengembangkan analisis preskriptif yang menggabungkan pelajaran dari masa lalu dengan prediksi tentang masa depan untuk memandu tindakan real-time secara otomatis.
Praktik data warehouse tradisional mengambil data mentah dari berbagai sumber, yang sering kali merupakan sistem Online Transactional Processing (OLTP). Kemudian, sebagian data diekstrak dalam batch, diubah berdasarkan skema yang ditentukan, dan dimuat ke dalam data warehouse. Karena data warehouse tradisional mengambil subset data dalam batch dan menyimpan data berdasarkan skema yang kaku, data warehouse tersebut tidak cocok untuk menangani analisis real-time atau merespons kueri spontan. Google merancang BigQuery sebagai respons atas keterbatasan bawaan ini.
Ide inovatif sering kali terhambat oleh ukuran dan kompleksitas organisasi IT yang menerapkan dan memelihara data warehouse tradisional ini. Diperlukan waktu bertahun-tahun dan investasi besar untuk membangun arsitektur data warehouse yang skalabel, sangat tersedia, dan aman. BigQuery menawarkan teknologi software as a service (SaaS) canggih yang dapat digunakan untuk operasi data warehouse serverless. Dengan demikian, Anda dapat berfokus pada pengembangan bisnis inti sambil mendelegasikan pemeliharaan infrastruktur dan pengembangan platform ke Google Cloud.
BigQuery menawarkan akses ke penyimpanan, pemrosesan, dan analisis data terstruktur yang skalabel, fleksibel, dan hemat biaya. Karakteristik-karakteristik ini sangat penting saat volume data Anda meningkat secara eksponensial—untuk membuat resource penyimpanan dan pemrosesan tersedia sesuai kebutuhan, serta untuk mendapatkan nilai dari data tersebut. Selain itu, untuk organisasi yang baru mulai menggunakan analisis big data dan machine learning, serta ingin menghindari potensi kompleksitas sistem big data lokal, BigQuery menawarkan model bayar sesuai penggunaan cara bereksperimen dengan layanan terkelola.
Dengan BigQuery, Anda dapat menemukan jawaban atas masalah yang sebelumnya dihadapi, menerapkan machine learning untuk menemukan pola data yang muncul, dan menguji hipotesis baru. Hasilnya, Anda memiliki insight yang tepat waktu tentang performa bisnis, sehingga Anda dapat mengubah proses untuk mendapatkan hasil yang lebih baik. Selain itu, pengalaman pengguna akhir sering kali diperkaya dengan insight relevan yang diperoleh dari analisis big data, seperti yang akan kami jelaskan nanti dalam rangkaian tutorial ini.
Apa dan bagaimana melakukan migrasi: Framework migrasi
Melakukan migrasi bisa menjadi pekerjaan yang rumit dan panjang. Oleh karena itu, sebaiknya ikuti framework untuk mengatur dan menyusun tugas migrasi dalam fase:
- Menyiapkan dan menemukan: Persiapkan migrasi Anda dengan penemuan workload dan kasus penggunaan.
- Merencanakan: Prioritaskan kasus penggunaan, tentukan ukuran keberhasilan, dan rencanakan migrasi Anda.
- Menjalankan: Lakukan iterasi melalui langkah-langkah untuk migrasi, mulai dari penilaian hingga validasi.
Menyiapkan dan menemukan
Pada fase awal, fokusnya adalah persiapan dan penemuan. Fase ini memberi diri Anda dan pemangku kepentingan kesempatan awal untuk menemukan kasus penggunaan yang ada dan mengajukan kekhawatiran awal. Yang penting, Anda juga melakukan analisis awal seputar manfaat yang diharapkan. Ini mencakup peningkatan performa (misalnya, konkurensi yang lebih baik) dan pengurangan total biaya kepemilikan (TCO). Fase ini sangat penting dalam membantu Anda menetapkan nilai migrasi.
Data warehouse biasanya mendukung berbagai kasus penggunaan dan memiliki banyak pemangku kepentingan, mulai dari analis data hingga pengambil keputusan bisnis. Sebaiknya libatkan perwakilan dari grup ini untuk mendapatkan pemahaman yang baik tentang kasus penggunaan mana yang ada, apakah kasus penggunaan tersebut berperforma baik, dan apakah pemangku kepentingan merencanakan kasus penggunaan baru.
Proses fase penemuan terdiri dari tugas-tugas berikut:
- Periksa proposisi nilai BigQuery dan bandingkan dengan proposisi nilai data warehouse lama Anda.
- Lakukan analisis TCO awal.
- Tetapkan kasus penggunaan yang terpengaruh oleh migrasi.
- Buat model karakteristik set data dan pipeline data pokok yang ingin Anda migrasikan untuk mengidentifikasi dependensi.
Untuk mendapatkan insight tentang kasus penggunaan, Anda dapat mengembangkan kuesioner yang mengumpulkan informasi dari pakar materi pokok (SME), pengguna akhir, dan pemangku kepentingan. Kuesioner harus mengumpulkan informasi berikut:
- Apa tujuan kasus penggunaan tersebut? Apa yang dimaksud dengan nilai bisnisnya?
- Apa saja persyaratan non-fungsional? Keaktualan data, penggunaan serentak, dan sebagainya.
- Apakah kasus penggunaan merupakan bagian dari workload yang lebih besar? Apakah hal itu bergantung pada kasus penggunaan lainnya?
- Dataset, tabel, dan skema mana yang mendukung kasus penggunaan?
- Apa yang Anda ketahui tentang aliran data yang dimasukkan ke dalam dataset tersebut?
- Alat, laporan, dan dasbor BI mana yang saat ini digunakan?
- Apa persyaratan teknis saat ini seputar kebutuhan operasional, performa, autentikasi, dan bandwidth jaringan?
Diagram berikut menunjukkan arsitektur lama tingkat tinggi sebelum migrasi. Diagram ini menggambarkan katalog sumber data yang tersedia, pipeline data lama, pipeline operasional lama, dan feedback loop lama, serta laporan dan dasbor BI lama yang diakses oleh pengguna akhir Anda.
Rencanakan
Fase perencanaan adalah mengambil input dari fase persiapan dan penemuan, menilai input tersebut, lalu menggunakannya untuk merencanakan migrasi. Fase ini dapat dipecah menjadi beberapa tugas berikut:
Membuat katalog dan memprioritaskan kasus penggunaan
Sebaiknya bagi proses migrasi menjadi beberapa iterasi. Anda membuat katalog kasus penggunaan yang sudah ada dan yang baru lalu menetapkan prioritasnya. Untuk mengetahui detailnya, lihat bagian Bermigrasi menggunakan pendekatan iteratif dan Memprioritaskan kasus penggunaan dalam dokumen ini.
Menentukan ukuran keberhasilan
Sebaiknya tentukan ukuran keberhasilan yang jelas seperti indikator performa utama (KPI), sebelum migrasi. Pengukuran ini akan memungkinkan Anda untuk menilai keberhasilan migrasi pada setiap iterasi. Dengan demikian, Anda dapat melakukan peningkatan pada proses migrasi di iterasi selanjutnya.
Membuat definisi "selesai"
Dengan migrasi yang kompleks, Anda belum tentu telah selesai memigrasikan kasus penggunaan tertentu. Oleh karena itu, Anda harus menguraikan definisi formal status akhir yang Anda inginkan. Definisi ini harus cukup umum sehingga dapat diterapkan pada semua kasus penggunaan yang ingin Anda migrasikan. Definisi tersebut harus berfungsi sebagai serangkaian kriteria minimum agar Anda dapat mempertimbangkan kasus penggunaan untuk dimigrasikan sepenuhnya. Definisi ini biasanya mencakup checkpoint untuk memastikan bahwa kasus penggunaan telah diintegrasikan, diuji, dan didokumentasikan.
Mendesain dan mengusulkan bukti konsep (POC), status jangka pendek, dan status akhir yang ideal
Setelah memprioritaskan kasus penggunaan, Anda dapat mulai memikirkannya selama seluruh periode migrasi. Pertimbangkan migrasi kasus penggunaan pertama sebagai bukti konsep (PoC) untuk memvalidasi pendekatan migrasi awal. Pertimbangkan apa yang dapat dicapai dalam beberapa minggu pertama hingga beberapa bulan sebagai kondisi jangka pendek. Bagaimana rencana migrasi akan memengaruhi pengguna Anda? Apakah mereka akan memiliki solusi campuran, atau dapatkah Anda memigrasikan seluruh workload untuk subset pengguna terlebih dahulu?
Membuat estimasi waktu dan biaya
Untuk memastikan project migrasi berhasil, penting untuk menghasilkan perkiraan waktu yang realistis. Untuk mencapai hal ini, libatkan semua pemangku kepentingan yang relevan untuk mendiskusikan ketersediaan mereka dan setujui tingkat interaksi mereka selama proyek berlangsung. Ini akan membantu Anda memperkirakan biaya tenaga kerja dengan lebih akurat. Untuk memperkirakan biaya terkait dengan proyeksi penggunaan resource cloud, lihat Memperkirakan biaya penyimpanan dan kueri dan Pengantar mengontrol biaya BigQuery dalam dokumentasi BigQuery.
Mengidentifikasi dan berinteraksi dengan partner migrasi
Dokumentasi BigQuery menjelaskan banyak alat dan resource yang dapat Anda gunakan untuk melakukan migrasi. Namun, mungkin akan sulit untuk melakukan migrasi sendiri yang besar dan kompleks jika Anda tidak memiliki pengalaman sebelumnya atau tidak memiliki semua keahlian teknis yang diperlukan di dalam organisasi Anda. Oleh karena itu, sejak awal, sebaiknya Anda mengidentifikasi dan berinteraksi dengan partner migrasi. Untuk mengetahui detail selengkapnya, lihat program partner global dan layanan konsultasi kami.
Bermigrasi menggunakan pendekatan iteratif
Saat memigrasikan operasi data warehousing yang besar ke cloud, sebaiknya lakukan pendekatan iteratif. Oleh karena itu, sebaiknya lakukan transisi ke BigQuery dalam iterasi. Membagi upaya migrasi menjadi iterasi akan mempermudah proses keseluruhan, mengurangi risiko, dan memberikan peluang untuk pembelajaran dan peningkatan kualitas setelah setiap iterasi.
Iterasi terdiri dari semua tugas yang diperlukan untuk memindahkan atau memigrasikan sepenuhnya satu atau beberapa kasus penggunaan terkait dalam jangka waktu tertentu. Anda dapat menganggap iterasi sebagai siklus sprint dalam metodologi yang fleksibel, yang terdiri dari satu atau beberapa cerita pengguna.
Untuk kenyamanan dan memudahkan pelacakan, Anda dapat mempertimbangkan untuk mengaitkan kasus penggunaan individu dengan satu atau beberapa cerita pengguna. Misalnya, pertimbangkan cerita pengguna berikut: "Sebagai analis harga, saya ingin menganalisis perubahan harga produk selama setahun terakhir agar saya dapat menghitung harga pada masa mendatang."
Kasus penggunaan yang sesuai mungkin adalah:
- Menyerap data dari database transaksional yang menyimpan produk dan harga.
- Mengubah data menjadi satu deret waktu untuk setiap produk dan memasukkan nilai-nilai yang hilang.
- Menyimpan hasilnya dalam satu atau beberapa tabel di data warehouse.
- Menyediakan hasilnya melalui notebook Python (aplikasi bisnis).
Nilai bisnis dari kasus penggunaan ini adalah untuk mendukung analisis harga.
Seperti kebanyakan kasus penggunaan, kasus penggunaan ini mungkin akan mendukung beberapa cerita pengguna.
Kasus penggunaan yang dialihkan kemungkinan akan diikuti oleh iterasi berikutnya untuk memigrasikan kasus penggunaan sepenuhnya. Jika tidak, Anda mungkin masih memiliki dependensi pada data warehouse lama yang sudah ada, karena data disalin dari sana. Migrasi penuh berikutnya adalah delta antara pengurangan beban dan migrasi penuh yang belum didahului oleh pengurangan beban—dengan kata lain, migrasi pipeline data untuk mengekstrak, mengubah, dan memuat data ke data warehouse.
Memprioritaskan kasus penggunaan
Tempat Anda memulai dan mengakhiri migrasi bergantung pada kebutuhan bisnis spesifik Anda. Menentukan urutan migrasi kasus penggunaan merupakan hal yang penting karena keberhasilan awal selama migrasi sangatlah penting agar Anda dapat melanjutkan jalur adopsi cloud. Mengalami kegagalan pada tahap awal dapat menjadi kemunduran serius bagi upaya migrasi secara keseluruhan. Anda mungkin setuju dengan manfaat Google Cloud dan BigQuery, tetapi memproses semua set data dan pipeline data yang telah dibuat atau dikelola di data warehouse lama untuk berbagai kasus penggunaan dapat menjadi rumit dan memakan waktu.
Meskipun tidak ada jawaban yang cocok untuk semua situasi, ada praktik terbaik yang dapat Anda gunakan saat mengevaluasi aplikasi bisnis dan kasus penggunaan lokal. Perencanaan awal semacam ini dapat membuat proses migrasi lebih mudah dan seluruh transisi ke BigQuery lebih lancar.
Bagian berikut mempelajari kemungkinan pendekatan untuk memprioritaskan kasus penggunaan.
Pendekatan: Memanfaatkan peluang saat ini
Lihat peluang saat ini yang dapat membantu Anda memaksimalkan laba atas investasi pada kasus penggunaan tertentu. Pendekatan ini sangat berguna jika Anda di bawah tekanan untuk mengonfirmasi nilai bisnis migrasi ke cloud. Tindakan ini juga memberikan peluang untuk mengumpulkan titik data tambahan guna membantu menilai total biaya migrasi.
Berikut beberapa contoh pertanyaan yang dapat diajukan untuk membantu Anda mengidentifikasi kasus penggunaan mana yang harus diprioritaskan:
- Apakah kasus penggunaan terdiri dari set data atau pipeline data yang saat ini dibatasi oleh data warehouse perusahaan lama?
- Apakah data warehouse perusahaan yang ada memerlukan pembaruan hardware, atau apakah Anda mengantisipasi kebutuhan untuk memperluas hardware? Jika demikian, akan lebih menarik untuk mengurangi beban kasus penggunaan ke BigQuery lebih cepat daripada nanti.
Mengidentifikasi peluang untuk bermigrasi dapat menciptakan beberapa keberhasilan instan yang memberikan manfaat langsung dan nyata bagi pengguna dan bisnis.
Pendekatan: Memigrasikan workload analisis terlebih dahulu
Migrasikan workload Pemrosesan Analisis Online (OLAP) sebelum workload Pemrosesan Transaksi Online (OLTP). Data warehouse sering kali menjadi satu-satunya tempat di organisasi tempat Anda memiliki semua data untuk membuat satu tampilan global operasi organisasi. Oleh karena itu, organisasi biasanya memiliki beberapa pipeline data yang mengirim kembali ke sistem transaksional untuk memperbarui status atau memicu proses—misalnya, untuk membeli lebih banyak stok saat inventaris produk rendah. Workload OLTP cenderung lebih kompleks dan memiliki persyaratan operasional serta perjanjian tingkat layanan (SLA) yang lebih ketat daripada workload OLAP, sehingga cenderung lebih mudah melakukan migrasi workload OLAP terlebih dahulu.
Pendekatan: Fokus pada pengalaman pengguna
Identifikasi peluang untuk meningkatkan pengalaman pengguna dengan memigrasikan set data tertentu dan mengaktifkan jenis analisis lanjutan yang baru. Misalnya, salah satu cara untuk meningkatkan pengalaman pengguna adalah dengan analisis real-time. Anda dapat mem-build pengalaman pengguna yang canggih berdasarkan aliran data real-time saat data tersebut digabungkan dengan data historis. Contoh:
- Seorang karyawan back-office yang diberi tahu di aplikasi selulernya tentang stok yang sedikit.
- Pelanggan online yang mungkin memperoleh manfaat dari mengetahui bahwa membelanjakan satu dolar lagi akan menempatkan mereka di tingkat reward berikutnya.
- Perawat yang diberi tahu tentang tanda-tanda vital pasien di smartwatch, yang memungkinkan mereka mengambil tindakan terbaik dengan melihat histori pengobatan pasien di tablet mereka.
Anda juga dapat meningkatkan pengalaman pengguna dengan analisis prediktif dan preskriptif. Untuk itu, Anda dapat menggunakan BigQuery ML, Vertex AI AutoML tabular, atau model terlatih Google untuk analisis gambar, analisis video, pengenalan ucapan, bahasa alami, dan terjemahan. Atau, Anda dapat menyalurkan model terlatih Anda secara kustom menggunakan Vertex AI untuk kasus penggunaan yang disesuaikan dengan kebutuhan bisnis Anda. Hal ini mungkin mencakup hal berikut:
- Merekomendasikan produk berdasarkan tren pasar dan perilaku pembelian pengguna.
- Memprediksi penundaan penerbangan.
- Mendeteksi aktivitas penipuan.
- Menandai konten tidak pantas.
- Ide-ide inovatif lain yang dapat membedakan aplikasi Anda dari kompetisi tersebut.
Pendekatan: Memprioritaskan kasus penggunaan yang paling berisiko
Ada sejumlah pertanyaan yang dapat diajukan TI untuk membantu mengevaluasi kasus penggunaan mana yang paling tidak berisiko untuk dimigrasikan, sehingga menjadikannya paling menarik untuk bermigrasi pada fase awal migrasi. Contoh:
- Apa kekritisan bisnis dari kasus penggunaan ini?
- Apakah sejumlah besar karyawan atau pelanggan bergantung pada kasus penggunaan?
- Apa lingkungan target (misalnya, pengembangan atau produksi) untuk kasus penggunaan?
- Bagaimana pemahaman tim TI kita tentang kasus penggunaan ini?
- Berapa banyak dependensi dan integrasi yang dimiliki kasus penggunaan?
- Apakah tim TI kami memiliki dokumentasi yang tepat, terbaru, dan menyeluruh untuk kasus penggunaan?
- Apa saja persyaratan operasional (SLA) untuk kasus penggunaan?
- Apa saja persyaratan kepatuhan hukum atau pemerintah untuk kasus penggunaan?
- Apa saja sensitivitas periode nonaktif dan latensi untuk mengakses set data pokok?
- Apakah ada pemilik lini bisnis yang ingin dan bersedia memigrasikan kasus penggunaan mereka lebih awal?
Daftar pertanyaan ini dapat membantu Anda menentukan peringkat set data dan pipeline data dari risiko terendah hingga tertinggi. Aset berisiko rendah harus dimigrasikan terlebih dahulu, dan aset berisiko tinggi harus dimigrasikan kemudian.
Jalankan
Setelah mengumpulkan informasi tentang sistem lama dan membuat backlog kasus penggunaan yang diprioritaskan, Anda dapat mengelompokkan kasus penggunaan ke dalam workload dan melanjutkan migrasi dalam iterasi.
Iterasi dapat terdiri dari satu kasus penggunaan, beberapa kasus penggunaan terpisah, atau sejumlah kasus penggunaan yang berkaitan dengan satu workload. Manakah dari opsi yang Anda pilih untuk iterasi ini bergantung pada interkonektivitas kasus penggunaan, dependensi bersama, dan resource yang Anda miliki untuk melakukan tugas tersebut.
Migrasi biasanya berisi langkah-langkah berikut:
Langkah-langkah ini dijelaskan secara lebih mendetail di bagian berikut. Anda mungkin tidak perlu melalui semua langkah ini di setiap iterasi. Misalnya, dalam satu iterasi, Anda mungkin memutuskan untuk menyalin beberapa data dari data warehouse lama ke BigQuery. Sebaliknya, pada iterasi berikutnya, Anda dapat berfokus untuk memodifikasi pipeline penyerapan dari sumber data asli langsung ke BigQuery.
1. Penyiapan dan tata kelola data
Penyiapan adalah tugas dasar yang diperlukan untuk memungkinkan kasus penggunaan berjalan di Google Cloud. Penyiapannya dapat mencakup konfigurasi project, jaringan, virtual private cloud (VPC), dan tata kelola data Google Cloud Anda. Pelatihan ini juga mencakup pengembangan pemahaman yang baik tentang posisi Anda saat ini—apa yang berhasil dan apa yang tidak. Hal ini membantu Anda memahami persyaratan upaya migrasi Anda. Anda dapat menggunakan fitur penilaian migrasi BigQuery untuk membantu Anda melakukan langkah ini.
Tata kelola data adalah pendekatan yang berprinsip untuk mengelola data selama siklus prosesnya, mulai dari akuisisi, penggunaan, hingga pembuangan. Program tata kelola data Anda menguraikan kebijakan, prosedur, tanggung jawab, dan kontrol terkait aktivitas data dengan jelas. Program ini membantu memastikan bahwa informasi dikumpulkan, dikelola, digunakan, dan disebarluaskan dengan cara yang memenuhi integritas data organisasi dan kebutuhan keamanannya. Program tata kelola data juga membantu memberdayakan karyawan Anda untuk menemukan dan menggunakan data secara maksimal.
Dokumenter tata kelola data membantu Anda memahami tata kelola data dan kontrol yang diperlukan saat memigrasikan data warehouse lokal ke BigQuery.
2. Memigrasikan skema dan data
Skema data warehouse menentukan cara data Anda disusun dan menentukan hubungan antara entity data Anda. Skema merupakan inti dari desain data Anda, dan memengaruhi banyak proses, baik upstream maupun downstream.
Dokumentasi skema dan transfer data memberikan informasi lengkap mengenai cara memindahkan data ke BigQuery dan rekomendasi untuk memperbarui skema guna memanfaatkan fitur BigQuery sepenuhnya.
3. Menerjemahkan kueri
Gunakan terjemahan SQL batch untuk memigrasikan kode SQL secara massal, atau terjemahan SQL interaktif untuk menerjemahkan kueri ad hoc.
Beberapa data warehouse lama menyertakan ekstensi ke standar SQL untuk mengaktifkan fungsi bagi produk mereka. BigQuery tidak mendukung ekstensi kepemilikan ini; sebagai gantinya, sesuai dengan standar ANSI/ISO SQL:2011. Artinya, beberapa kueri Anda mungkin masih memerlukan pemfaktoran ulang manual jika penerjemah SQL tidak dapat menafsirkannya.
4. Memigrasikan aplikasi bisnis
Aplikasi bisnis dapat berwujud aneka rupa, mulai dari dasbor, aplikasi kustom, hingga pipeline data operasional yang menyediakan feedback loop hingga sistem transaksi.
Untuk mempelajari opsi analisis lebih lanjut saat menggunakan BigQuery, baca Ringkasan analisis BigQuery. Topik ini memberikan ringkasan tentang alat pelaporan dan analisis yang dapat Anda gunakan untuk mendapatkan insight yang menarik dari data Anda.
Bagian tentang feedback loop dalam dokumentasi pipeline data menjelaskan cara menggunakan pipeline data untuk membuat feedback loop guna menyediakan sistem upstream.
5. Memigrasikan pipeline data
Dokumentasi pipeline data menampilkan prosedur, pola, dan teknologi untuk memigrasikan pipeline data lama Anda ke Google Cloud. Ini membantu Anda memahami apa yang dimaksud dengan pipeline data, prosedur dan pola yang dapat diterapkan, serta opsi dan teknologi migrasi yang tersedia terkait dengan migrasi data warehouse yang lebih besar.
6. Mengoptimalkan performa
BigQuery memproses data secara efisien untuk set data berukuran kecil dan berskala petabyte. Dengan bantuan BigQuery, tugas analisis data Anda akan berperforma baik tanpa modifikasi di data warehouse yang baru saja dimigrasikan. Jika Anda mendapati bahwa dalam keadaan tertentu performa kueri tidak cocok dengan harapan Anda, lihat Pengantar pengoptimalan performa kueri untuk mendapatkan panduan.
7. Memverifikasi dan memvalidasi
Pada akhir setiap iterasi, validasi bahwa migrasi kasus penggunaan berhasil dengan memverifikasi bahwa:
- Data dan skema telah dimigrasikan sepenuhnya.
- Masalah tata kelola data telah sepenuhnya terpenuhi dan diuji.
- Prosedur pemeliharaan dan pemantauan serta otomatisasi telah ditetapkan.
- Kueri telah diterjemahkan dengan benar.
- Pipeline data yang dimigrasikan berfungsi seperti yang diharapkan.
- Aplikasi bisnis dikonfigurasi dengan benar untuk mengakses data dan kueri yang dimigrasikan.
Anda dapat memulai dengan Alat validasi data, yakni alat Python CLI open source yang membandingkan data dari lingkungan sumber dan target untuk memastikan kecocokannya. Alat ini mendukung beberapa jenis koneksi beserta fungsi validasi multilevel.
Sebaiknya Anda mengukur dampak migrasi kasus penggunaan—misalnya, dalam hal meningkatkan performa, mengurangi biaya, atau membuka peluang teknis atau bisnis yang baru. Kemudian, Anda dapat mengukur nilai laba atas investasi secara lebih akurat dan membandingkan nilainya dengan kriteria keberhasilan untuk iterasi.
Setelah iterasi divalidasi, Anda dapat merilis kasus penggunaan yang dimigrasikan ke produksi dan memberi pengguna akses ke set data dan aplikasi bisnis yang dimigrasikan.
Terakhir, buat catatan dan dokumentasikan pelajaran yang diperoleh dari iterasi ini, sehingga Anda dapat menerapkan pelajaran ini pada iterasi berikutnya dan mempercepat migrasi.
Merangkum upaya migrasi
Selama migrasi, Anda akan menjalankan data warehouse lama dan BigQuery, seperti yang dijelaskan dalam dokumen ini. Arsitektur referensi dalam diagram berikut menunjukkan bahwa data warehouse menawarkan fungsi dan jalur yang serupa—keduanya dapat menyerap dari sistem sumber, mengintegrasikannya dengan aplikasi bisnis, dan memberikan akses pengguna yang diperlukan. Yang penting, diagram ini juga menyoroti bahwa data disinkronkan dari data warehouse Anda ke BigQuery. Hal ini memungkinkan kasus penggunaan diganti selama durasi upaya migrasi.
Dengan asumsi bahwa intent Anda adalah untuk bermigrasi sepenuhnya dari data warehouse ke BigQuery, status akhir migrasi akan terlihat seperti berikut:
Langkah berikutnya
Pelajari lebih lanjut langkah-langkah berikut dalam migrasi data warehouse:
- Penilaian migrasi
- Ringkasan skema dan transfer data
- Data pipelines
- Terjemahan batch SQL
- Terjemahan SQL interaktif
- Tata kelola dan keamanan data
- Alat validasi data
Anda juga dapat mempelajari cara beralih dari teknologi data warehouse tertentu ke BigQuery:
- Bermigrasi dari Netezza
- Bermigrasi dari Oracle
- Bermigrasi dari Amazon Redshift
- Bermigrasi dari Teradata
- Bermigrasi dari Snowflake