Pengantar jaringan Cloud Data Fusion

Halaman ini memberikan informasi latar belakang tentang cara menghubungkan ke sumber data Anda dari instance Cloud Data Fusion publik atau pribadi dari lingkungan desain dan eksekusi.

Sebelum memulai

Jaringan di Cloud Data Fusion memerlukan pemahaman dasar mengenai hal-hal berikut:

Project penyewa

Cloud Data Fusion membuat project tenant yang menyimpan resource dan layanan yang diperlukan untuk mengelola pipeline atas nama Anda, seperti saat menjalankan pipeline di cluster Dataproc yang berada dalam project pelanggan Anda.

Project tenant tidak ditampilkan secara langsung kepada Anda, tetapi saat membuat instance pribadi, Anda menggunakan nama project tersebut untuk menyiapkan peering VPC. Setiap instance pribadi dalam project tenant memiliki jaringan VPC dan subnetnya sendiri.

Project dapat memiliki beberapa instance Cloud Data Fusion. Anda dapat mengelola resource dan layanan yang disimpannya saat mengakses sebuah instance di UI Cloud Data Fusion atau Google Cloud CLI.
Untuk mengetahui informasi selengkapnya, lihat dokumentasi Infrastruktur Layanan tentang project tenant.

Project pelanggan

Pelanggan membuat dan memiliki project ini. Secara default, Cloud Data Fusion membuat cluster Dataproc efemeral di project ini untuk menjalankan pipeline Anda.

Instance Cloud Data Fusion

Instance Cloud Data Fusion adalah deployment unik Cloud Data Fusion, tempat Anda mendesain dan menjalankan pipeline. Anda dapat membuat beberapa instance dalam satu project dan menentukan region Google Cloud untuk membuat instance Cloud Data Fusion. Berdasarkan persyaratan dan batasan biaya, Anda dapat membuat instance yang menggunakan Cloud Data Fusion edisi Developer, Basic, atau Enterprise. Setiap instance berisi deployment Cloud Data Fusion yang unik dan independen yang berisi serangkaian layanan yang menangani pengelolaan siklus proses pipeline, orkestrasi, koordinasi, dan pengelolaan metadata. Layanan ini berjalan menggunakan resource yang berjalan lama dalam sebuah project tenant.

Diagram jaringan

Diagram berikut menunjukkan koneksi saat Anda mem-build pipeline data yang mengekstrak, mentransformasi, menggabungkan, menggabungkan, dan memuat data dari berbagai sumber data lokal dan cloud.

Pada Cloud Data Fusion versi 6.4 dan yang lebih baru, lihat diagram untuk mengontrol traffic keluar di instance pribadi dan menghubungkan ke sumber publik.

Untuk versi sebelum 6.4, diagram arsitektur sistem berikut menunjukkan cara Cloud Data Fusion terhubung dengan sumber data dari layanan seperti Pratinjau atau Wrangler dalam project tenant dan Dataproc di project pelanggan.

Diagram jaringan Cloud Data Fusion

Desain dan eksekusi pipeline

Cloud Data Fusion menyediakan pemisahan lingkungan desain dan eksekusi, yang memungkinkan Anda mendesain pipeline satu kali, lalu menjalankannya di beberapa lingkungan. Lingkungan desain berada di project tenant, sedangkan lingkungan eksekusi berada di satu atau beberapa project pelanggan.

Contoh: Anda mendesain pipeline menggunakan layanan Cloud Data Fusion, seperti Wrangler dan Pratinjau. Layanan tersebut berjalan dalam project tenant, dan akses ke data dikontrol oleh peran Agen Layanan Cloud Data Fusion yang dikelola Google. Kemudian, jalankan pipeline di project pelanggan Anda agar menggunakan cluster Dataproc Anda. Dalam project pelanggan, akun layanan Compute Engine default mengontrol akses ke data. Anda dapat mengonfigurasi project untuk menggunakan akun layanan kustom.

Untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi akun layanan, lihat Akun layanan Cloud Data Fusion.

Lingkungan desain

Saat Anda membuat instance Cloud Data Fusion di project pelanggan, Cloud Data Fusion secara otomatis membuat project tenant terpisah yang dikelola Google untuk menjalankan layanan yang diperlukan guna mengelola siklus proses pipeline dan metadata, UI Cloud Data Fusion, serta alat waktu desain seperti Pratinjau dan Wrangler.

Resolusi DNS di Cloud Data Fusion

Untuk me-resolve nama domain di lingkungan waktu desain saat Anda menyusun dan melihat pratinjau data yang Anda transfer ke Google Cloud, gunakan Peering DNS (tersedia mulai di Cloud Data Fusion 6.7.0). Dengan DNS, Anda dapat menggunakan domain atau nama host untuk sumber dan sink, yang tidak perlu dikonfigurasi ulang sesering alamat IP.

Resolusi DNS direkomendasikan di lingkungan waktu desain Anda di Cloud Data Fusion, saat Anda menguji koneksi dan pipeline pratinjau yang menggunakan nama domain lokal atau server lain (seperti database atau server FTP), dalam jaringan VPC pribadi.

Untuk mengetahui informasi selengkapnya, lihat Peering DNS dan Penerusan Cloud DNS.

Lingkungan eksekusi

Setelah memverifikasi dan men-deploy pipeline di instance, Anda dapat menjalankan pipeline secara manual, atau dijalankan pada jadwal waktu atau pemicu status pipeline.

Entah lingkungan eksekusi disediakan dan dikelola oleh Cloud Data Fusion atau pelanggan, lingkungan tersebut ada di project pelanggan Anda.

Instance publik (default)

Cara termudah untuk menyediakan instance Cloud Data Fusion adalah dengan membuat instance publik. Hal ini berfungsi sebagai titik awal dan memberikan akses ke endpoint eksternal di internet publik.

Instance publik di Cloud Data Fusion menggunakan jaringan VPC default di project Anda.

Jaringan VPC default memiliki hal berikut:

  • Subnet yang dihasilkan secara otomatis untuk setiap region
  • Tabel perutean
  • Aturan {i>firewall<i} untuk memastikan komunikasi antara resource komputasi Anda

Membangun jaringan di berbagai region

Saat Anda membuat project baru, jaringan VPC default akan mengisi satu subnet per region secara otomatis menggunakan rentang alamat IP yang telah ditetapkan, yang dinyatakan sebagai blok CIDR. Rentang alamat IP dimulai dengan 10.128.0.0/20, 10.132.0.0/20, di seluruh region global Google Cloud.

Untuk memastikan bahwa resource komputasi Anda saling terhubung di seluruh region, jaringan VPC default menetapkan rute lokal default ke setiap subnet. Dengan menyiapkan rute default ke internet (0.0.0.0/0), Anda mendapatkan akses ke internet dan merekam traffic jaringan yang tidak dirutekan.

Aturan firewall

Jaringan VPC default menyediakan sekumpulan aturan firewall:

Default Deskripsi
Default mengizinkan icmp Mengaktifkan protokol icmp untuk sumber 0.0.0.0/0
Izinkan default internal Aktifkan tcp:0-65535; udp:0-65535; icmp untuk 10.128.0.0/9 sumber, yang mencakup minimal 10.128.0.1 hingga maksimal 10.255.255.254 alamat IP
Default mengizinkan rdp Aktifkan tcp:3389 untuk sumber 0.0.0.0/0
Default mengizinkan ssh Aktifkan tcp:22 untuk sumber 0.0.0.0/0

Setelan jaringan VPC default ini meminimalkan prasyarat untuk menyiapkan layanan cloud, termasuk Cloud Data Fusion. Karena kekhawatiran tentang keamanan jaringan, organisasi sering kali tidak mengizinkan Anda menggunakan jaringan VPC default untuk operasi bisnis. Tanpa jaringan VPC default, Anda tidak dapat membuat instance publik Cloud Data Fusion. Sebagai gantinya, buat instance pribadi.

Jaringan VPC default tidak memberikan akses terbuka ke resource. Sebagai gantinya, Identity and Access Management (IAM) mengontrol akses:

  • Identitas yang divalidasi diperlukan untuk login ke Google Cloud.
  • Setelah login, Anda memerlukan izin eksplisit (misalnya, peran Pelihat) untuk melihat layanan Google Cloud.

Instance pribadi

Beberapa organisasi mengharuskan semua sistem produksi mereka diisolasi dari alamat IP publik. Instance pribadi Cloud Data Fusion memenuhi persyaratan tersebut di semua jenis setelan jaringan VPC.

Instance pribadi dalam versi 6.4 dan yang lebih lama

Di Cloud Data Fusion versi sebelum 6.4, lingkungan desain dan eksekusi hanya menggunakan alamat IP internal. IP ini tidak menggunakan alamat IP internet publik yang terpasang pada Cloud Data Fusion Compute Engine apa pun. Sebagai alat waktu desain, instance pribadi Cloud Data Fusion tidak dapat mengakses sumber data di internet publik.

Sebagai gantinya, desain pipeline di instance publik. Kemudian, untuk dieksekusi, pindahkan ke instance pribadi dalam project pelanggan, tempat Anda mengontrol kebijakan VPC project. Anda harus terhubung ke data dari kedua project.

Akses ke data di lingkungan desain dan eksekusi

Dalam instance publik, komunikasi jaringan terjadi melalui internet terbuka. Hal ini tidak direkomendasikan untuk lingkungan penting. Untuk mengakses sumber data dengan aman, selalu jalankan pipeline dari instance pribadi di lingkungan eksekusi Anda.

Di Cloud Data Fusion versi 6.4, saat mendesain pipeline, Anda tidak dapat mengakses sumber data di internet terbuka dari instance pribadi. Sebagai gantinya, Anda mendesain pipeline dalam project tenant menggunakan instance publik untuk terhubung ke sumber data di internet. Setelah mem-build pipeline, pindahkan ke project pelanggan dan jalankan dalam instance pribadi, sehingga Anda dapat mengontrol kebijakan VPC. Anda harus terhubung ke data dari kedua project.

Akses ke sumber

Jika lingkungan eksekusi Anda berjalan di versi Cloud Data Fusion yang lebih lama dari 6.4, Anda hanya dapat mengakses resource dalam jaringan VPC. Siapkan Cloud VPN atau Cloud Interconnect untuk mengakses sumber data lokal. Cloud Data Fusion versi sebelum 6.4 hanya dapat mengakses sumber di internet publik jika Anda menyiapkan gateway Cloud NAT.

Saat mengakses sumber data, instance publik dan pribadi:

  • melakukan panggilan keluar ke Google Cloud API menggunakan Akses Google Pribadi
  • berkomunikasi dengan lingkungan eksekusi (Dataproc) melalui peering VPC

Tabel berikut membandingkan instance publik dan pribadi selama desain dan eksekusi untuk berbagai sumber data:

Sumber data Instance Cloud Data Fusion Publik
(waktu desain)
Public Cloud Data Fusion Dataproc
(eksekusi)
Instance Cloud Data Fusion Pribadi
(waktu desain)
Private Cloud Data Fusion Dataproc
(eksekusi)
Sumber Google Cloud
(setelah Anda memberikan izin dan menetapkan aturan firewall)
Sumber lokal
(setelah Anda menyiapkan VPN/Interconnect, memberikan izin, dan menetapkan aturan firewall)
Sumber internet publik
(setelah Anda memberikan izin dan menetapkan aturan firewall)
versi ≥ 6.4 versi < 6.4

Langkah selanjutnya