Migrasi Teradata ke BigQuery - pengantar
Dokumen ini menguraikan alasan Anda mungkin bermigrasi dari Teradata ke BigQuery, membandingkan fitur antara Teradata dan BigQuery, serta memberikan ringkasan langkah-langkah untuk memulai migrasi BigQuery Anda.
Mengapa bermigrasi dari Teradata ke BigQuery?
Teradata adalah inovator awal dalam mengelola dan menganalisis volume data yang besar. Namun, seiring berkembangnya kebutuhan cloud computing, Anda mungkin memerlukan solusi yang lebih modern untuk analisis data.
Jika sebelumnya Anda telah menggunakan Teradata, pertimbangkan untuk bermigrasi ke BigQuery karena alasan berikut:
- Mengatasi batasan platform lama
- Arsitektur konvensional Teradata sering kali kesulitan memenuhi tuntutan analisis modern, terutama kebutuhan akan konkurensi tanpa batas dan performa tinggi yang konsisten untuk beragam workload. Arsitektur tanpa server di BigQuery dirancang untuk menangani permintaan ini dengan upaya minimal.
- Mengadopsi strategi berbasis cloud
- Banyak organisasi secara strategis beralih dari infrastruktur lokal ke cloud. Perubahan ini memerlukan peralihan dari solusi konvensional yang terikat hardware seperti Teradata ke layanan terkelola sepenuhnya, skalabel, dan sesuai permintaan seperti BigQuery untuk mengurangi overhead operasional.
- Integrasi dengan sumber data dan analisis modern
- Data perusahaan utama semakin banyak berada di sumber berbasis cloud. BigQuery terintegrasi secara native dengan ekosistem Google Cloud , sehingga memberikan akses yang lancar ke sumber ini dan memungkinkan analisis lanjutan, machine learning, dan pemrosesan data real-time tanpa batasan infrastruktur Teradata.
- Mengoptimalkan biaya dan skalabilitas
- Teradata sering kali melibatkan proses penskalaan yang kompleks dan mahal. BigQuery menawarkan penskalaan penyimpanan dan komputasi yang transparan dan otomatis secara terpisah, sehingga tidak perlu konfigurasi ulang manual dan memberikan total biaya kepemilikan yang lebih dapat diprediksi dan sering kali lebih rendah.
Perbandingan fitur
Tabel berikut membandingkan fitur dan konsep di Teradata dengan fitur yang setara di BigQuery:
Konsep Teradata | Setara dengan BigQuery | Deskripsi |
---|---|---|
Teradata (Lokal, Cloud, Hybrid) | BigQuery (Platform Data AI Terpadu). BigQuery menyediakan serangkaian besar kemampuan tambahan dibandingkan dengan data warehouse konvensional. | BigQuery adalah data warehouse cloud-native yang terkelola sepenuhnya di Google Cloud. Teradata menawarkan opsi lokal, cloud, dan hybrid. BigQuery bersifat serverless dan tersedia di semua cloud sebagai BQ Omni. |
Alat Teradata (Teradata Studio, BTEQ) | Google Cloud konsol, BigQuery Studio, alat command line bq | Keduanya menawarkan antarmuka untuk mengelola dan berinteraksi dengan data warehouse. BigQuery Studio berbasis web dan terintegrasi dengan Google Cloud serta memberikan kemampuan untuk menulis SQL, Python, dan Apache Spark. |
Database/Skema | Set data | Di Teradata, database dan skema digunakan untuk mengatur tabel dan tampilan, mirip dengan set data BigQuery. Namun, cara pengelolaannya dan penggunaannya dapat berbeda. |
Tabel | Tabel | Kedua platform menggunakan tabel untuk menyimpan data dalam baris dan kolom. |
Lihat | Lihat | Tampilan berfungsi serupa di kedua platform, sehingga memberikan cara untuk membuat tabel virtual berdasarkan kueri. |
Kunci Utama | Kunci Utama (tidak diterapkan di GoogleSQL) | BigQuery mendukung kunci primer yang tidak diterapkan di GoogleSQL. Hal ini terutama untuk membantu pengoptimalan kueri. |
Kunci Asing | Kunci Asing (tidak diterapkan di GoogleSQL) | BigQuery mendukung kunci asing yang tidak diterapkan di GoogleSQL. Hal ini terutama untuk membantu pengoptimalan kueri. |
Indeks | Pengelompokan, Indeks Penelusuran, Indeks Vektor (otomatis atau terkelola) | Teradata memungkinkan pembuatan indeks eksplisit. Sebaiknya gunakan pengelompokan di BigQuery. Meskipun tidak setara dengan Indeks database, pengelompokan membantu menyimpan data yang diurutkan di disk dan hal ini membantu mengoptimalkan pengambilan data saat kolom yang dikelompokkan digunakan sebagai predikat. BigQuery mendukung Indeks Penelusuran dan Indeks Vektor. |
Membuat partisi | Membuat partisi | Kedua platform mendukung partisi tabel untuk meningkatkan performa kueri pada tabel besar. BigQuery hanya mendukung partisi menurut tanggal dan bilangan bulat. Untuk string, gunakan pengelompokan sebagai gantinya. |
Alokasi resource (berdasarkan hardware dan pemberian lisensi) | Reservasi (Berdasarkan Kapasitas), Harga on-demand (Harga Analisis) | BigQuery menawarkan model harga yang fleksibel. Reservasi memberikan biaya yang dapat diprediksi untuk workload yang konsisten maupun ad hoc menggunakan penskalaan otomatis, sementara harga on-demand berfokus pada biaya pemindaian byte per kueri. |
BTEQ, SQL Assistant, alat klien lainnya | BigQuery Studio, alat command line bq, API | BigQuery menyediakan berbagai antarmuka untuk menjalankan kueri, termasuk editor berbasis web, alat command line, dan API untuk akses terprogram. |
Logging/histori kueri | Histori kueri, INFORMATION_SCHEMA.JOBS |
BigQuery menyimpan histori kueri yang dijalankan, sehingga Anda dapat meninjau kueri sebelumnya, menganalisis performa, dan memecahkan masalah. INFORMATION_SCHEMA.JOBS menyimpan histori semua tugas yang dikirimkan dalam 6 bulan terakhir. |
Fitur keamanan (Kontrol akses, Enkripsi) | Fitur keamanan (IAM, ACL, enkripsi) | Keduanya menawarkan keamanan yang kuat. BigQuery menggunakan Google Cloud IAM untuk kontrol akses terperinci. |
Kontrol jaringan (Firewall, VPN) | Kontrol Layanan VPC, Akses Google Pribadi | BigQuery terintegrasi dengan Kontrol Layanan VPC untuk membatasi akses ke resource BigQuery Anda dari jaringan tertentu. Private Google Access memungkinkan Anda mengakses BigQuery tanpa menggunakan IP publik. |
Pengelolaan Pengguna dan Peran | Identity and Access Management (IAM) | BigQuery menggunakan IAM untuk kontrol akses terperinci. Anda dapat memberikan izin tertentu kepada pengguna dan akun layanan di tingkat project, set data, dan tabel. |
Pemberian dan Peran pada Objek | Daftar Kontrol Akses (ACL) pada set data dan tabel | BigQuery memungkinkan Anda menentukan ACL pada set data dan tabel untuk mengontrol akses pada tingkat perincian. |
Enkripsi data dalam penyimpanan dan saat transit | Enkripsi dalam penyimpanan dan dalam pengiriman, Kunci Enkripsi yang Dikelola Pelanggan (CMEK), kunci dapat dihosting dalam sistem EKM eksternal. | BigQuery akan mengenkripsi data secara default. Anda juga dapat mengelola kunci enkripsi Anda sendiri untuk kontrol tambahan. |
Fitur tata kelola dan kepatuhan data | Kebijakan tata kelola data, DLP (Pencegahan Kebocoran Data) | BigQuery mendukung kebijakan tata kelola data dan DLP untuk membantu Anda menerapkan persyaratan keamanan dan kepatuhan data. |
Utilitas Pemuatan Teradata (misalnya, FastLoad, MultiLoad), bteq | BigQuery Data Transfer Service, alat command line bq, API | BigQuery menyediakan berbagai metode pemuatan data. Teradata memiliki utilitas pemuatan khusus. BigQuery menekankan skalabilitas dan kecepatan untuk penyerapan data. |
Utilitas Ekspor Teradata, bteq | Alat command line bq, API, Ekspor ke Cloud Storage | BigQuery menawarkan ekspor data ke berbagai tujuan. Teradata memiliki alat ekspornya sendiri. Integrasi BigQuery dengan Cloud Storage adalah keunggulan utama. BigQuery Storage Read API memberikan kemampuan komputasi eksternal untuk membaca data secara massal. |
Tabel Eksternal | Tabel Eksternal | Keduanya mendukung pembuatan kueri data di penyimpanan eksternal. BigQuery terintegrasi dengan baik dengan Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage, Google Drive. |
Tampilan terwujud | Tampilan terwujud | Keduanya menawarkan tampilan terwujud untuk performa kueri. BigQuery menyediakan tampilan terwujud Smart Tuning yang selalu menampilkan data saat ini dan juga menyediakan penulisan ulang kueri otomatis ke tampilan terwujud meskipun kueri merujuk ke tabel dasar. |
Fungsi yang Ditentukan Pengguna (UDF) | Fungsi yang Ditentukan Pengguna (UDF) (SQL, JavaScript) | BigQuery mendukung UDF dalam SQL dan JavaScript. |
Teradata Scheduler, alat penjadwalan lainnya | Kueri Terjadwal, Cloud Composer, Cloud Functions, pipeline BigQuery | BigQuery terintegrasi dengan Google Cloud layanan penjadwalan dan alat penjadwalan eksternal lainnya. |
Sudut Pandang | Administrasi BigQuery untuk pemantauan, pemeriksaan kondisi, penjelajahan tugas, dan pengelolaan kapasitas. | BigQuery menawarkan toolbox administrasi komprehensif berbasis UI yang berisi beberapa panel untuk memantau kondisi operasional dan penggunaan resource. |
Backup dan Pemulihan | Pengkloningan set data, perjalanan waktu dan fail safe, snapshot dan pengkloningan tabel, penyimpanan regional dan multi-regional, pencadangan dan pemulihan lintas-regional. | BigQuery menawarkan snapshot dan perjalanan waktu untuk memulihkan data. Perjalanan waktu adalah fitur yang memungkinkan Anda mengakses data historis dalam jangka waktu tertentu. BigQuery juga menawarkan opsi cloning set data, penyimpanan regional dan multi-regional, serta pencadangan dan pemulihan lintas-regional. |
Fungsi Geospasial | Fungsi Geospasial | Kedua platform ini mendukung data dan fungsi geospasial. |
Mulai
Bagian berikut merangkum proses migrasi dari Teradata ke BigQuery:
Menjalankan penilaian migrasi
Dalam migrasi Teradata ke BigQuery, sebaiknya Anda mulai dengan menjalankan alat penilaian migrasi BigQuery untuk menilai kelayakan dan potensi manfaat memindahkan data warehouse dari Teradata ke BigQuery. Alat ini memberikan pendekatan terstruktur untuk memahami lingkungan Teradata Anda saat ini dan memperkirakan upaya yang diperlukan untuk migrasi yang berhasil.
Menjalankan alat penilaian migrasi BigQuery akan menghasilkan laporan penilaian yang berisi bagian berikut:
- Laporan sistem yang ada: snapshot sistem dan penggunaan Teradata yang ada, termasuk jumlah database, skema, tabel, dan ukuran total dalam TB. Bagian ini juga mencantumkan skema berdasarkan ukuran dan mengarah ke potensi pemanfaatan resource yang kurang optimal, seperti tabel tanpa penulisan atau beberapa pembacaan.
- Saran transformasi status stabil BigQuery: menunjukkan tampilan sistem di BigQuery setelah migrasi. Bagian ini mencakup saran untuk mengoptimalkan workload di BigQuery dan menghindari pemborosan.
- Rencana migrasi: memberikan informasi tentang upaya migrasi itu sendiri. Misalnya, beralih dari sistem yang ada ke status stabil BigQuery. Bagian ini berisi jumlah kueri yang diterjemahkan secara otomatis dan perkiraan waktu untuk memindahkan setiap tabel ke BigQuery.
Untuk mengetahui informasi selengkapnya tentang hasil penilaian migrasi, lihat Meninjau laporan Looker Studio.
Memigrasikan skema dan data dari Teradata
Setelah meninjau hasil penilaian migrasi, Anda dapat memulai migrasi Teradata dengan menyiapkan BigQuery untuk migrasi, lalu menyiapkan tugas transfer data.
Untuk mengetahui informasi selengkapnya tentang proses migrasi Teradata, lihat Memigrasikan skema dan data dari Teradata.
Memvalidasi migrasi Anda
Setelah memigrasikan data Teradata ke BigQuery, jalankan Alat Validasi Data (DVT) untuk melakukan validasi data pada data BigQuery yang baru dimigrasikan. DVT memvalidasi berbagai fungsi, dari tingkat tabel hingga tingkat baris, untuk memverifikasi bahwa data yang dimigrasikan berfungsi sebagaimana mestinya. Untuk mengetahui informasi selengkapnya tentang DVT, lihat Memperkenalkan Alat Validasi Data untuk migrasi EDW.
Anda dapat mengakses DVT di repositori GitHub publik DVT.
Langkah berikutnya
- Coba migrasi uji coba Teradata ke BigQuery.