Halaman ini menjelaskan cara mengekstrak dan mengubah data dari suatu {i>field<i} (sel) saat Anda menyiapkan data di ruang kerja Wrangler Cloud Data Fusion Studio.
Untuk melakukan transformasi pada data ini, Anda harus membaginya menjadi seperti baris dan kolom. Di Wrangler, Anda bisa mengekstrak data dari kolom dan membuat kolom untuk data yang diekstrak. Anda dapat mengekstrak nilai berdasarkan pola, pembatas, atau posisi.
Mengekstrak data menggunakan pola
Anda bisa mengekstrak data dari {i>field<i} dalam kolom tipe data {i>string<i} dengan pola berikut ini:
- Kartu kredit
- Tanggal
- Tanggal waktu
- URL dari anchor HTML
- Alamat IPv4
- Kode ISBN
- Alamat Mac
- Nomor N digit
- SSN
- Pola Mulai dan Akhir
- Waktu
Untuk mengekstrak data berdasarkan pola, ikuti langkah-langkah berikut:
- Buka ruang kerja Wrangler di Cloud Data Fusion.
- Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
- Pilih Ekstrak kolom > Menggunakan pola dan pilih —misalnya, URL.
- Opsional: klik Tampilkan pola untuk melihat ekspresi reguler untuk pola.
- Klik Ekstrak.
Wrangler mengekstrak {i>field<i} berdasarkan pola yang dipilih dan menambahkan atribut
Perintah extract-regex-groups
ke resep. Saat Anda menjalankan
pipeline data,
Cloud Data Fusion menerapkan transformasi ke semua baris dalam kolom.
Pada contoh berikut, kolom berisi angka, diikuti dengan alamat email:
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
Untuk mengekstrak alamat email, pilih pola Email. Saat Anda mengklik Ekstrak, Wrangler akan mempertahankan kolom asli dan membuat kolom baru hanya berisi alamat email:
Emails_1 | |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
Mengekstrak data dengan pembatas
Anda dapat mengekstrak data ke dalam dua kolom atau lebih berdasarkan hal berikut {i>delimiters<i}:
- Koma
- Tab
- Pipe
- Spasi Putih
- Pemisah kustom
Jika nilai tidak memiliki pembatas, tidak ada nilai yang ditambahkan ke kolom yang sesuai di kolom baru.
Untuk mengekstrak nilai berdasarkan pembatas:
- Buka ruang kerja Wrangler di Cloud Data Fusion.
- Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
- Pilih Ekstrak kolom > Menggunakan pembatas, lalu pilih —misalnya, Comma.
- Klik Ekstrak.
Wrangler mengekstrak {i>field<i} berdasarkan {i>delimiter<i} yang dipilih dan menambahkan
Perintah split-to-columns
ke resep. Saat Anda menjalankan
pipeline data,
Cloud Data Fusion mentransformasi semua nilai dalam kolom.
Pada contoh berikut, kolom berisi beberapa nama yang dipisahkan oleh koma:
ID | Nama |
---|---|
1 | Lee,Lusia,Luka |
2 | Mahan,Noam,Nur |
Dalam contoh ini, menggunakan pola pembatas koma mengekstrak nilai
kolom Name
asli menjadi tiga kolom baru:
ID | Nama | Name_1 | Name_2 | Name_3 |
---|---|---|---|---|
1 | Lee,Lusia,Luka | Lee | Lusia | Luka |
2 | Mahan,Noam,Nur | Mahan | Noam | Nur |
Mengekstrak data berdasarkan posisi
Anda dapat mengekstrak bagian string berdasarkan posisinya dalam string.
Untuk mengekstrak data berdasarkan posisinya:
- Buka ruang kerja Wrangler di Cloud Data Fusion.
- Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
- Pilih Ekstrak kolom > Menggunakan posisi. Nilai kolom yang dapat Anda ekstrak muncul dengan latar belakang biru.
- Di sel kolom mana pun, pilih karakter yang akan diekstrak.
- Di kolom Nama kolom tujuan, masukkan nama.
- Klik Terapkan.
Bagian nilai yang dipilih diekstrak dari setiap baris dalam kolom.
Wrangler mengekstrak {i>field<i} berdasarkan pola yang dipilih dan menambahkan atribut
Perintah cut-character
ke resep. Saat Anda menjalankan
pipeline data,
Cloud Data Fusion menerapkan transformasi ke semua nilai di kolom.
Langkah selanjutnya
- Pelajari perintah Wrangler lebih lanjut.