Halaman ini diterjemahkan oleh Cloud Translation API.

Membuat pipeline Dataflow menggunakan Java

Dokumen ini menunjukkan cara menyiapkan project Google Cloud , membuat contoh pipeline yang dibuat dengan Apache Beam SDK untuk Java, dan menjalankan contoh pipeline di layanan Dataflow. Pipeline membaca file teks dari Cloud Storage, menghitung jumlah kata unik dalam file, lalu menulis jumlah kata kembali ke Cloud Storage. Untuk pengantar pipeline WordCount, lihat video Cara menggunakan WordCount di Apache Beam.

Tutorial ini memerlukan Maven, tetapi Anda juga dapat mengonversi project contoh dari Maven ke Gradle. Untuk mempelajari lebih lanjut, lihat Opsional: Mengonversi dari Maven ke Gradle.

Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya

Sebelum memulai

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore, and Cloud Resource Manager APIs:

gcloud services enable dataflow compute_component logging storage_component storage_api bigquery pubsub datastore.googleapis.com cloudresourcemanager.googleapis.com

Create local authentication credentials for your user account:

gcloud auth application-default login

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/iam.serviceAccountUser

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

Replace PROJECT_ID with your project ID.
Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
Replace ROLE with each individual role.

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore, and Cloud Resource Manager APIs:

gcloud services enable dataflow compute_component logging storage_component storage_api bigquery pubsub datastore.googleapis.com cloudresourcemanager.googleapis.com

Create local authentication credentials for your user account:

gcloud auth application-default login

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/iam.serviceAccountUser

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

Replace PROJECT_ID with your project ID.
Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
Replace ROLE with each individual role.

Berikan peran ke akun layanan default Compute Engine Anda. Jalankan perintah berikut satu kali untuk setiap peran IAM berikut:
- roles/dataflow.admin
- roles/dataflow.worker
- roles/storage.objectAdmin
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com" --role=SERVICE_ACCOUNT_ROLE
```
- Ganti PROJECT_ID dengan project ID Anda.
- Ganti PROJECT_NUMBER dengan nomor project Anda. Untuk menemukan nomor project Anda, lihat Mengidentifikasi project atau gunakan perintah gcloud projects describe.
- Ganti SERVICE_ACCOUNT_ROLE dengan setiap peran individual.
Create a Cloud Storage bucket and configure it as follows:
- Set the storage class to S (Standar).
- Tetapkan lokasi penyimpanan sebagai berikut: US (Amerika Serikat).
- Ganti BUCKET_NAME dengan nama bucket yang unik. Jangan sertakan informasi sensitif pada nama bucket karena namespace bucket bersifat global dan dapat dilihat publik.
- Salin kode berikut, karena Anda memerlukannya di bagian selanjutnya:
  - Nama bucket Cloud Storage Anda.
  - ID Project Google Cloud Anda. Untuk menemukan ID ini, lihat Mengidentifikasi project.
- Download dan instal Java Development Kit (JDK) versi 11. (Dataflow terus mendukung versi 8.) Pastikan variabel lingkungan JAVA_HOME ditetapkan dan mengarah ke penginstalan JDK Anda.
- Download dan instal Apache Maven, dengan mengikuti panduan penginstalan Maven untuk sistem operasi tertentu Anda.

Mendapatkan kode pipeline

Apache Beam SDK adalah model pemrograman open source untuk pipeline pemrosesan data. Anda menentukan pipeline ini dengan program Apache Beam dan dapat memilih runner, seperti Dataflow, untuk menjalankan pipeline Anda.

Di shell atau terminal, gunakan Plugin Archetype Maven untuk membuat project Maven di komputer yang berisi contoh WordCount Apache Beam SDK:
```
mvn archetype:generate \
    -DarchetypeGroupId=org.apache.beam \
    -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples \
    -DarchetypeVersion=2.62.0 \
    -DgroupId=org.example \
    -DartifactId=word-count-beam \
    -Dversion="0.1" \
    -Dpackage=org.apache.beam.examples \
    -DinteractiveMode=false
```
Perintah ini akan membuat direktori baru bernama word-count-beam di direktori saat ini. Direktori word-count-beam berisi file pom.xml sederhana dan serangkaian contoh pipeline yang menghitung kata dalam file teks.
Verifikasi bahwa direktori word-count-beam Anda berisi file pom.xml:
Linux atau macOS
```
cd word-count-beam/
ls
```
Outputnya adalah sebagai berikut:
```
pom.xml   src
```
Windows
```
cd word-count-beam/
dir
```
Outputnya adalah sebagai berikut:
```
pom.xml   src
```

Pastikan project Maven Anda berisi contoh pipeline:

Linux atau macOS

ls src/main/java/org/apache/beam/examples/

Outputnya adalah sebagai berikut:

DebuggingWordCount.java   WindowedWordCount.java   common
MinimalWordCount.java   WordCount.java

Windows

dir src/main/java/org/apache/beam/examples/

Outputnya adalah sebagai berikut:

DebuggingWordCount.java   WindowedWordCount.java   common
MinimalWordCount.java   WordCount.java

Untuk pengenalan mendetail tentang konsep Apache Beam yang digunakan dalam contoh ini, lihat Contoh WordCount Apache Beam. Petunjuk di bagian berikutnya menggunakan WordCount.java.

Menjalankan pipeline secara lokal

Di shell atau terminal, jalankan pipeline WordCount secara lokal dari direktori word-count-beam:
```
mvn compile exec:java \
    -Dexec.mainClass=org.apache.beam.examples.WordCount \
    -Dexec.args="--output=counts"
```
File output memiliki awalan counts dan ditulis ke direktori word-count-beam. Kolom ini berisi kata unik dari teks input dan jumlah kemunculan setiap kata.

Menjalankan pipeline di layanan Dataflow

Di shell atau terminal, build dan jalankan pipeline WordCount di layanan Dataflow dari direktori word-count-beam Anda:
```
mvn -Pdataflow-runner compile exec:java \
    -Dexec.mainClass=org.apache.beam.examples.WordCount \
    -Dexec.args="--project=PROJECT_ID \
    --gcpTempLocation=gs://BUCKET_NAME/temp/ \
    --output=gs://BUCKET_NAME/output \
    --runner=DataflowRunner \
    --region=REGION"
```
Ganti kode berikut:
- PROJECT_ID: project ID Google Cloud Anda
- BUCKET_NAME: nama bucket Cloud Storage Anda
- REGION: Region Dataflow, seperti us-central1
Catatan:
- Untuk menentukan akun layanan pekerja yang dikelola pengguna, sertakan opsi pipeline --serviceAccount. Akun layanan pekerja yang dikelola pengguna direkomendasikan untuk beban kerja produksi. Jika Anda tidak menentukan akun layanan pekerja saat membuat tugas, Dataflow akan menggunakan akun layanan default Compute Engine.
- Kecuali jika ditentukan melalui opsi network, runner Dataflow akan menjalankan tugas di jaringan Virtual Private Cloud default.

Melihat hasil

Di konsol Google Cloud, buka halaman Jobs Dataflow.
Buka Tugas
Halaman Tugas menampilkan detail semua tugas yang tersedia, termasuk statusnya. Status tugas wordcount adalah Running pada awalnya, lalu diperbarui menjadi Succeeded.
Di konsol Google Cloud, buka halaman Bucket Cloud Storage.
Buka Buckets
Halaman Buckets menampilkan daftar semua bucket penyimpanan di project Anda.
Klik bucket penyimpanan yang Anda buat.

Halaman Detail bucket menampilkan file output dan file staging yang dibuat oleh tugas Dataflow Anda.

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan di halaman ini, hapus project Google Cloud yang berisi resource tersebut.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus Google Cloud project yang Anda buat untuk panduan memulai.

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Menghapus resource satu per satu

Jika Anda ingin menyimpan project Google Cloud yang digunakan dalam panduan memulai ini, hapus setiap resource:

In the Google Cloud console, go to the Cloud Storage Buckets page.
Go to Buckets
Click the checkbox for the bucket that you want to delete.
To delete the bucket, click Delete, and then follow the instructions.
Cabut peran yang Anda berikan ke akun layanan default Compute Engine. Jalankan perintah berikut satu kali untuk setiap peran IAM berikut:
- roles/dataflow.admin
- roles/dataflow.worker
- roles/storage.objectAdmin
```
gcloud projects remove-iam-policy-binding PROJECT_ID \
    --member=serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com \
    --role=SERVICE_ACCOUNT_ROLE
```
Optional: Revoke the authentication credentials that you created, and delete the local credential file.
```
gcloud auth application-default revoke
```
Optional: Revoke credentials from the gcloud CLI.
```
gcloud auth revoke
```

Langkah berikutnya

Pelajari model pemrograman Apache Beam.
Pelajari cara menggunakan Apache Beam untuk membuat pipeline.
Pelajari contoh WordCount dan Game Seluler.