Umum
Apa yang dimaksud dengan Dataproc?
Dataproc adalah layanan yang cepat, mudah digunakan, murah, dan terkelola sepenuhnya yang memungkinkan Anda menjalankan ekosistem Apache Spark dan Apache Hadoop di Google Cloud Platform. Dataproc menyediakan cluster besar atau kecil dengan cepat, mendukung banyak jenis tugas populer, dan terintegrasi dengan layanan Google Cloud Platform lainnya, seperti Cloud Storage dan Cloud Logging, sehingga membantu Anda mengurangi TCO.
Apa perbedaan Dataproc dengan cluster Hadoop tradisional?
Dataproc adalah layanan Spark/Hadoop terkelola yang dimaksudkan untuk membuat Spark dan Hadoop mudah, cepat, dan canggih. Dalam deployment Hadoop tradisional, bahkan deployment yang berbasis cloud, Anda harus menginstal, mengonfigurasi, mengelola, dan mengatur pekerjaan di cluster. Sebaliknya, Dataproc menangani pembuatan, pengelolaan, pemantauan, dan orkestrasi tugas cluster untuk Anda.
Bagaimana cara menggunakan Dataproc?
Ada beberapa cara untuk menggunakan cluster Dataproc, bergantung pada kebutuhan dan kemampuan Anda. Anda dapat menggunakan Konsol Google Cloud berbasis browser untuk berinteraksi dengan Dataproc. Atau, karena Dataproc terintegrasi dengan Google Cloud CLI, Anda dapat menggunakan Google Cloud CLI. Untuk akses terprogram ke cluster, gunakan Dataproc REST API. Anda juga dapat membuat koneksi SSH ke node master atau pekerja di cluster.
Bagaimana cara kerja Dataproc?
Dataproc adalah framework terkelola yang berjalan di Google Cloud Platform dan menghubungkan beberapa alat populer untuk memproses data, termasuk Apache Hadoop, Spark, Hive, dan Pig. Dataproc memiliki serangkaian mekanisme kontrol dan integrasi yang mengoordinasikan siklus proses, pengelolaan, dan koordinasi cluster. Dataproc terintegrasi dengan pengelola aplikasi YARN untuk memudahkan pengelolaan dan penggunaan cluster Anda.
Jenis tugas apa yang dapat saya jalankan?
Dataproc menyediakan dukungan siap pakai dan menyeluruh untuk banyak jenis tugas yang paling populer, termasuk tugas Spark, Spark SQL, PySpark, MapReduce, Hive, dan Pig.
Pengelola Cluster apa yang digunakan Dataproc dengan Spark?
Dataproc menjalankan Spark di YARN.
Seberapa sering komponen di Dataproc diperbarui?
Dataproc diupdate saat rilis utama terjadi di komponen pokok (Hadoop, Spark, Hive, Pig). Setiap rilis utama Dataproc mendukung versi tertentu dari setiap komponen (lihat Versi Dataproc yang didukung).
Apakah Dataproc terintegrasi dengan produk Google Cloud Platform lainnya?
Ya, Dataproc memiliki integrasi native dan otomatis dengan Compute Engine, Cloud Storage, Bigtable, BigQuery, Logging, dan Cloud Monitoring. Selain itu, Dataproc terintegrasi ke dalam alat yang berinteraksi dengan Cloud Platform, termasuk gcloud CLI dan konsol Google Cloud.
Dapatkah saya menjalankan cluster persisten?
Setelah dimulai, cluster Dataproc akan terus berjalan hingga dimatikan. Anda dapat menjalankan cluster Dataproc selama yang diperlukan.
Pengelolaan cluster
Dapatkah saya menjalankan lebih dari satu cluster sekaligus?
Ya, Anda dapat menjalankan lebih dari satu cluster Dataproc per project secara bersamaan. Secara default, semua project tunduk pada kuota resource Google Cloud. Anda dapat dengan mudah memeriksa penggunaan kuota dan meminta penambahan kuota. Untuk informasi selengkapnya, lihat Kuota resource Dataproc.
Bagaimana cara membuat atau menghancurkan cluster?
Anda dapat membuat dan menghancurkan cluster dengan beberapa cara. Bagian Dataproc di konsol Google Cloud memudahkan pengelolaan cluster dari browser Anda. Cluster juga dapat dikelola melalui command line melalui gcloud CLI. Untuk kasus penggunaan yang lebih kompleks atau lanjutan, Cloud Dataproc REST API dapat digunakan untuk mengelola cluster secara terprogram.
Dapatkah saya menerapkan setelan yang disesuaikan saat membuat cluster?
Dataproc mendukung tindakan inisialisasi yang dijalankan saat cluster dibuat. Tindakan inisialisasi ini dapat berupa skrip atau file yang dapat dieksekusi yang akan dijalankan Dataproc saat menyediakan cluster untuk menyesuaikan setelan, menginstal aplikasi, atau membuat modifikasi lainnya pada cluster Anda.
Bagaimana cara menentukan ukuran cluster sesuai kebutuhan saya?
Keputusan ukuran cluster dipengaruhi oleh beberapa faktor, termasuk jenis pekerjaan yang akan dilakukan, batasan biaya, persyaratan kecepatan, dan kuota resource Anda. Karena Dataproc dapat di-deploy di berbagai jenis mesin, Anda memiliki fleksibilitas untuk memilih resource yang diperlukan, kapan pun Anda membutuhkannya.
Dapatkah saya mengubah ukuran cluster?
Ya, Anda dapat dengan mudah mengubah ukuran cluster, bahkan selama pemrosesan tugas. Anda dapat mengubah ukuran cluster melalui konsol Google Cloud atau melalui command line. Mengubah ukuran dapat meningkatkan atau mengurangi jumlah pekerja dalam cluster. Worker yang ditambahkan ke cluster akan memiliki jenis dan ukuran yang sama dengan worker yang ada. Ukuran cluster dapat diubah dan didukung, kecuali dalam kasus khusus, seperti mengurangi jumlah pekerja menjadi satu atau mengurangi kapasitas HDFS di bawah jumlah yang diperlukan untuk penyelesaian tugas.
Pengelolaan tugas dan alur kerja
Bagaimana cara mengirimkan tugas di cluster saya?
Ada beberapa cara untuk mengirimkan tugas di cluster Dataproc. Cara termudah adalah menggunakan halaman Kirim tugas Dataproc di konsol Google Cloud atau perintah gcloud CLI gcloud dataproc jobs submit. Untuk pengiriman tugas terprogram, lihat referensi Dataproc API.
Dapatkah saya menjalankan lebih dari satu tugas sekaligus?
Ya, Anda dapat menjalankan lebih dari satu tugas sekaligus di cluster Dataproc. Cloud Dataproc menggunakan pengelola resource (YARN) dan konfigurasi khusus aplikasi, seperti penskalaan dengan Spark, untuk mengoptimalkan penggunaan resource di cluster. Performa tugas akan diskalakan dengan ukuran cluster dan jumlah tugas aktif.
Dapatkah saya membatalkan tugas di cluster saya?
Tentu saja. Tugas dapat dibatalkan melalui antarmuka web Konsol Google Cloud atau command line. Dataproc menggunakan pembatalan aplikasi YARN untuk menghentikan tugas berdasarkan permintaan.
Dapatkah saya mengotomatiskan tugas di cluster?
Tugas dapat diotomatiskan untuk berjalan di cluster melalui beberapa mekanisme. Anda dapat menggunakan Google Cloud CLI gcloud CLI atau Dataproc REST API untuk mengotomatiskan pengelolaan dan alur kerja cluster dan tugas.
Pengembangan
Bahasa pengembangan apa yang didukung?
Anda dapat menggunakan bahasa yang didukung oleh ekosistem Spark/Hadoop, termasuk Java, Scala, Python, dan R.
Apakah Dataproc memiliki API?
Ya, Dataproc memiliki serangkaian RESTful API yang memungkinkan Anda berinteraksi secara terprogram dengan cluster dan tugas.
Dapatkah saya melakukan SSH ke cluster?
Ya, Anda dapat melakukan SSH ke setiap mesin (node master atau pekerja) dalam cluster. Anda dapat menggunakan SSH dari browser atau dari command line.
Dapatkah saya mengakses UI Web Spark/Hadoop?
Ya, UI Hadoop dan Spark (UI Spark, Hadoop, YARN) dapat diakses dalam kluster. Daripada membuka port untuk UI, sebaiknya gunakan tunnel SSH, yang akan meneruskan traffic dari cluster dengan aman melalui koneksi SSH.
Dapatkah saya menginstal atau mengelola software di cluster?
Ya, seperti pada cluster atau server Hadoop, Anda dapat menginstal dan mengelola software di cluster Dataproc.
Apa faktor replikasi default?
Karena pertimbangan performa serta keandalan penyimpanan yang tinggi yang dilampirkan ke cluster Dataproc, faktor replikasi default ditetapkan ke 2.
Sistem operasi (OS) apa yang digunakan untuk Dataproc?
Dataproc didasarkan pada Debian dan Ubuntu. Image terbaru didasarkan pada Debian 10 Buster dan Ubuntu 18.04 LTS.
Di mana saya dapat mempelajari streaming Hadoop?
Anda dapat meninjau dokumentasi project Apache.
Bagaimana cara menginstal perintah gcloud dataproc?
Saat Anda menginstal gcloud CLI, alat command line gcloud
standar akan diinstal, termasuk perintah gcloud dataproc
.
Akses & ketersediaan data
Bagaimana cara memasukkan dan mengeluarkan data dari cluster?
Dataproc menggunakan Hadoop Distributed File System (HDFS) untuk penyimpanan. Selain itu, Dataproc akan otomatis menginstal konektor Google Cloud Storage yang kompatibel dengan HDFS, yang memungkinkan penggunaan Cloud Storage secara paralel dengan HDFS. Data dapat dipindahkan masuk dan keluar dari cluster melalui upload/download ke HDFS atau Cloud Storage.
Dapatkah saya menggunakan Cloud Storage dengan Dataproc?
Ya, cluster Dataproc otomatis menginstal konektor Cloud Storage. Ada sejumlah manfaat memilih Cloud Storage daripada HDFS tradisional, termasuk persistensi, keandalan, dan performa data.
Dapatkah saya mendapatkan dukungan Konektor Cloud Storage?
Ya, saat digunakan dengan Dataproc, konektor Cloud Storage
didukung pada tingkat yang sama dengan Dataproc (lihat
Mendapatkan dukungan). Semua pengguna konektor
dapat menggunakan tag google-cloud-dataproc
di
Stack Overflow
untuk pertanyaan dan jawaban konektor.
Berapa ukuran file yang ideal untuk set data di HDFS dan Cloud Storage?
Untuk meningkatkan performa, simpan data dalam ukuran file yang lebih besar, misalnya, ukuran file dalam rentang 256 MB–512 MB.
Seberapa andal Dataproc?
Karena Dataproc dibuat berdasarkan teknologi Google Cloud Platform yang andal dan terbukti, termasuk Compute Engine, Cloud Storage, dan Monitoring, Dataproc dirancang untuk ketersediaan dan keandalan yang tinggi. Sebagai produk yang tersedia secara umum, Anda dapat meninjau SLA Dataproc.
Apa yang terjadi pada data saya saat cluster dinonaktifkan?
Semua data di Cloud Storage akan tetap ada setelah cluster Anda dinonaktifkan. Hal ini adalah salah satu alasan untuk memilih Cloud Storage daripada HDFS karena data HDFS dihapus saat cluster dimatikan (kecuali jika ditransfer ke lokasi persisten sebelum dimatikan).
Logging, pemantauan, & proses debug
Apa saja jenis logging dan pemantauan yang tersedia?
Secara default, cluster Dataproc terintegrasi dengan Monitoring dan Logging. Pemantauan dan Logging memudahkan Anda mendapatkan informasi mendetail tentang kondisi, performa, dan status cluster Dataproc. Log aplikasi (YARN, Spark, dll.) dan sistem diteruskan ke Logging.
Bagaimana cara melihat log dari Dataproc?
Anda dapat melihat log dari Dataproc dengan beberapa cara. Anda dapat membuka Logging untuk melihat log cluster gabungan di browser web. Selain itu, Anda dapat menggunakan command line (SSH) untuk melihat log secara manual atau memantau output aplikasi. Terakhir, detail juga tersedia melalui UI web aplikasi Hadoop, seperti antarmuka web YARN.
Bagaimana cara memantau cluster?
Cluster dapat dipantau dengan mudah melalui Monitoring atau bagian Cloud Dataproc di konsol Google Cloud. Anda juga dapat memantau cluster melalui akses command line (SSH) atau antarmuka web aplikasi (Spark, YARN, dll.).
Keamanan & akses
Bagaimana cara data saya diamankan?
Google Cloud Platform menggunakan model keamanan yang lengkap, yang juga berlaku untuk Cloud Dataproc. Dataproc menyediakan mekanisme autentikasi, otorisasi, dan enkripsi, seperti SSL, untuk mengamankan data. Data dapat dienkripsi pengguna saat dalam pengiriman ke dan dari cluster, setelah pembuatan cluster atau pengiriman tugas.
Bagaimana cara mengontrol akses ke cluster Dataproc saya?
Google Cloud Platform menawarkan mekanisme autentikasi, yang dapat digunakan dengan Dataproc. Akses ke cluster dan tugas Dataproc dapat diberikan kepada pengguna di level project.
Penagihan
Bagaimana cara penagihan Dataproc?
Dataproc ditagih per detik, dan didasarkan pada ukuran cluster dan durasi cluster beroperasi. Dalam menghitung komponen biaya kluster, Dataproc mengenakan biaya tetap berdasarkan jumlah CPU virtual (vCPU) dalam cluster. Biaya tetap ini sama, terlepas dari jenis mesin atau ukuran resource Compute Engine yang digunakan.
Apakah saya dikenai biaya untuk resource Google Cloud lainnya?
Ya, menjalankan cluster Dataproc akan dikenai biaya untuk resource Google Cloud lainnya yang digunakan di cluster, seperti Compute Engine dan Cloud Storage. Setiap item dinyatakan secara terpisah dalam tagihan, sehingga Anda tahu persis cara biaya dihitung dan dialokasikan.
Apakah ada waktu minimum atau maksimum untuk penagihan?
Biaya Google Cloud dihitung per detik, bukan per jam. Saat ini, Compute Engine memiliki penambahan tagihan minimum 1 menit. Oleh karena itu, Dataproc juga memiliki penambahan penagihan minimum 1 menit.
Ketersediaan
Siapa yang dapat membuat cluster Dataproc?
Dataproc tersedia secara umum, yang berarti semua pelanggan Google Cloud Platform dapat menggunakannya.
Di wilayah mana Dataproc tersedia?
Dataproc tersedia di semua region dan zona platform Google Cloud.