Halaman ini diterjemahkan oleh Cloud Translation API.

Mengekstrak data dari kolom

Halaman ini menjelaskan cara mengekstrak dan mengubah data dari suatu {i>field<i} (sel) saat Anda menyiapkan data di ruang kerja Wrangler Cloud Data Fusion Studio.

Untuk melakukan transformasi pada data ini, Anda harus membaginya menjadi seperti baris dan kolom. Di Wrangler, Anda bisa mengekstrak data dari kolom dan membuat kolom untuk data yang diekstrak. Anda dapat mengekstrak nilai berdasarkan pola, pembatas, atau posisi.

Mengekstrak data menggunakan pola

Anda bisa mengekstrak data dari {i>field<i} dalam kolom tipe data {i>string<i} dengan pola berikut ini:

Kartu kredit
Tanggal
Tanggal waktu
Email
URL dari anchor HTML
Alamat IPv4
Kode ISBN
Alamat Mac
Nomor N digit
SSN
Pola Mulai dan Akhir
Waktu

Untuk mengekstrak data berdasarkan pola, ikuti langkah-langkah berikut:

Buka ruang kerja Wrangler di Cloud Data Fusion.
Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
Pilih Ekstrak kolom > Menggunakan pola dan pilih —misalnya, URL.
Opsional: klik Tampilkan pola untuk melihat ekspresi reguler untuk pola.
Klik Ekstrak.

Wrangler mengekstrak {i>field<i} berdasarkan pola yang dipilih dan menambahkan atribut Perintah extract-regex-groups ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion menerapkan transformasi ke semua baris dalam kolom.

Pada contoh berikut, kolom berisi angka, diikuti dengan alamat email:

Email
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Untuk mengekstrak alamat email, pilih pola Email. Saat Anda mengklik Ekstrak, Wrangler akan mempertahankan kolom asli dan membuat kolom baru hanya berisi alamat email:

Email	Emails_1
1 222larabrown@gmail.com	222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com	cloudysanfrancisco@gmail.com

Mengekstrak data dengan pembatas

Anda dapat mengekstrak data ke dalam dua kolom atau lebih berdasarkan hal berikut {i>delimiters<i}:

Koma
Tab
Pipe
Spasi Putih
Pemisah kustom

Jika nilai tidak memiliki pembatas, tidak ada nilai yang ditambahkan ke kolom yang sesuai di kolom baru.

Untuk mengekstrak nilai berdasarkan pembatas:

Buka ruang kerja Wrangler di Cloud Data Fusion.
Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
Pilih Ekstrak kolom > Menggunakan pembatas, lalu pilih —misalnya, Comma.
Klik Ekstrak.

Wrangler mengekstrak {i>field<i} berdasarkan {i>delimiter<i} yang dipilih dan menambahkan Perintah split-to-columns ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion mentransformasi semua nilai dalam kolom.

Pada contoh berikut, kolom berisi beberapa nama yang dipisahkan oleh koma:

ID	Nama
1	Lee,Lusia,Luka
2	Mahan,Noam,Nur

Dalam contoh ini, menggunakan pola pembatas koma mengekstrak nilai kolom Name asli menjadi tiga kolom baru:

ID	Nama	Name_1	Name_2	Name_3
1	Lee,Lusia,Luka	Lee	Lusia	Luka
2	Mahan,Noam,Nur	Mahan	Noam	Nur

Mengekstrak data berdasarkan posisi

Anda dapat mengekstrak bagian string berdasarkan posisinya dalam string.

Untuk mengekstrak data berdasarkan posisinya:

Buka ruang kerja Wrangler di Cloud Data Fusion.
Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
Pilih Ekstrak kolom > Menggunakan posisi. Nilai kolom yang dapat Anda ekstrak muncul dengan latar belakang biru.
Di sel kolom mana pun, pilih karakter yang akan diekstrak.
Di kolom Nama kolom tujuan, masukkan nama.
Klik Terapkan.

Bagian nilai yang dipilih diekstrak dari setiap baris dalam kolom.

Wrangler mengekstrak {i>field<i} berdasarkan pola yang dipilih dan menambahkan atribut Perintah cut-character ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion menerapkan transformasi ke semua nilai di kolom.

Langkah selanjutnya

Pelajari perintah Wrangler lebih lanjut.