Mentransformasi dan menyelaraskan data layanan kesehatan untuk BigQuery

Dokumen ini menjelaskan proses dan pertimbangan yang terlibat dalam penyelarasan data layanan kesehatan di Google Cloud bagi peneliti, data scientist, dan tim IT yang ingin membuat data lake analisis di BigQuery.

Dengan menyelaraskan data, Anda menyatukan data dari berbagai format dan standar file, lalu mengubah data menjadi satu set data standar yang kohesif yang siap untuk analisis mendalam. Untuk menyelaraskan data, Anda harus memvalidasi sumber data, lalu mem-build serangkaian pipeline untuk mengubah data tersebut melalui transformasi struktural, konversi, resolusi identitas, dan de-identifikasi.

Memvalidasi data sumber

Data klinis bisa saja tidak akurat dan tidak lengkap dalam bentuknya, sehingga Anda perlu menilai kualitas data yang masuk sebelum transformasi data. Suatu pemeriksaan validasi mencakup proses berikut:

  • Memastikan bahwa elemen data yang diperlukan ada.
  • Mengonfirmasi jumlah data sehingga sistem sumber dan data lake penyerapan memiliki jumlah data yang sama.
  • Mengonfirmasi bahwa rentang nilai tersebut wajar sebelum menginvestasikan resource komputasi.

Google Cloud menyediakan cara berikut untuk memvalidasi data sumber:

  • Cloud Data Fusion menyiapkan data sehingga Anda dapat melihat dan menjelajahi sebagian kecil data (1.000 baris atau kurang).
  • BigQuery memungkinkan Anda melakukan banyak validasi dengan SQL. Jika ada perbedaan dalam data, Anda dapat membuat tampilan guna memberikan akses kepada pengguna yang diidentifikasi untuk divalidasi atau mengekspor baris yang dipilih ke Google Spreadsheet untuk anotasi dan kolaborasi dengan tim.
  • Untuk pemeriksaan kualitas data otomatis, Anda dapat membuat perintah yang ditentukan pengguna (UDD) menggunakan Cloud Data Fusion. Dengan UDD, Anda dapat menentukan pemrosesan kustom, pemeriksaan data, dan fungsi dalam Cloud Data Fusion. Membuat UDD juga memungkinkan laporan pencilan secara otomatis.

Mentransformasi data dan membangun pipeline

Transformasi struktural adalah langkah penting dalam membangun pipeline transformasi data dan mencakup pemetaan kolom, penguraian, dan pemformatan data.

Jika menggunakan Cloud Healthcare API sebagai metode penyerapan, Anda tidak perlu mengurai atau mengindeks data. Cloud Healthcare API menawarkan fleksibilitas dengan format data yang masuk, menerima resource dan paket dalam format JSON multibaris dan format JSON yang dibatasi baris baru. Misalnya, jika menggunakan jenis data Fast Healthcare Interoperability Resources (FHIR), Anda tidak perlu mengembangkan parser JSON kustom. Sebagai gantinya, Anda dapat menggunakan fungsi bawaan Cloud Healthcare API untuk menyerap data.

Anda juga dapat melakukan transformasi struktural untuk konversi, seperti mengonversi jenis data HL7v2 ke jenis data FHIR, atau mengonversi jenis data FHIR menjadi SQL pada skema FHIR.

Cloud Data Fusion memiliki berbagai plugin bawaan untuk mengurai, memformat, mengompresi, dan mengonversi data. Cloud Data Fusion juga mencakup Wrangler, alat visualisasi yang secara interaktif memfilter, membersihkan, memformat, dan memproyeksikan data, berdasarkan sampel kecil (1.000 baris) of set data. Setelah Anda menentukan transformasi, Wrangler otomatis menghasilkan pipeline Dataproc yang menerapkan perubahan ke set data lengkap.

Untuk transformasi yang lebih canggih, Anda dapat menggunakan bahasa pemetaan berbasis konfigurasi untuk definisi, pengelolaan, dan portabilitas pemetaan struktural.

Menangani identitas pasien

Langkah penting dalam transformasi data adalah mencocokkan catatan dengan ID pasien (UPI) yang sesuai. Dengan mencocokkan data, Anda dapat membuat catatan longitudinal yang membantu mengidentifikasi inkonsistensi dan duplikasi dalam data, serta dapat membantu memastikan transformasi data yang konsisten di setiap catatan pasien. Anda dapat mencocokkan catatan pasien dengan memanggil indeks pasien master (MPI) dengan pipeline atau model kustom Jika Anda menggabungkan data melalui FHIR, ada juga parameter penelusuran ID pasien yang dapat digunakan untuk menggabungkan kumpulan data.

Mengonversi terminologi

Lingkungan terminologi klinis sering berubah karena sistem coding, lembaga yang mengatur, dan kebutuhan organisasi. Saat Anda menggabungkan data historis dengan resource yang baru dibuat, inkonsistensi dapat muncul antara terminologi sebelumnya dan saat ini. Mengonversi dan menyelaraskan istilah klinis membantu memastikan konsistensi dan kelangsungan antara standar terminologi lama dan baru.

Mengonversi satuan ukuran

Satuan ukuran dapat sangat bervariasi, berdasarkan sumber penyerapan, organisasi yang melakukan pengukuran, dan wilayah geografis. Di AS, misalnya, berat bayi sering diukur dalam gram, sedangkan berat orang dewasa biasanya diukur dalam pound. Mengonversi dan menyelaraskan satuan pengukuran akan membantu memastikan bahwa analisis merekam semua satuan ukuran dan mencakup semua populasi pasien.

Melakukan de-identifikasi data

De-identifikasi adalah langkah terakhir dalam proses transformasi karena dapat mengganggu kemampuan untuk menyelaraskan data, terutama dalam resolusi identitas dan ekstraksi entity klinis. Misalnya, jika melakukan de-identifikasi terlalu awal dalam pipeline, Anda mungkin tidak dapat melakukan penyelesaian identitas akurat yang diperlukan untuk penyelarasan. Google Cloud menawarkan banyak opsi, termasuk penyesuaian, untuk membantu Anda melakukan de-identifikasi dan melakukan penyamaran data layanan kesehatan.

Untuk data teks tidak terstruktur atau data terstruktur tradisional seperti CSV, Anda dapat menggunakan Perlindungan Data Sensitif untuk mengklasifikasikan dan menyamarkan elemen data sensitif. Dengan Perlindungan Data Sensitif juga, Anda dapat menyesuaikan de-identifikasi untuk kebutuhan keamanan dan kasus penggunaan Anda dengan menggunakan teknik seperti masking, hashing aman, tokenisasi, bucketing, dan enkripsi yang mempertahankan format.

Cloud Healthcare API juga memiliki fungsi de-identifikasi yang terintegrasi ke dalam API, yang tersedia untuk Digital Imaging and Communications in Medicine (DICOM) dan set data FHIR. Opsi ini berguna ketika Anda ingin mempertahankan model data awal.

Jika menangani data deret waktu dalam format FHIR, Anda dapat mempertahankan urutan resource berdasarkan UPI. Ini berarti bahwa saat menggunakan fungsi tanggal perubahan, Anda dapat memastikan bahwa urutan resource dipertahankan.

Menggunakan penyimpanan perantara

Sebagai praktik terbaik, simpan hasil dari setiap transformasi di penyimpanan perantara—penyimpanan efemeral—sehingga Anda dapat memecahkan masalah atau kembali ke keadaan transformasi data sebelumnya dalam kasus pemulihan dari bencana (disaster recovery). Anda dapat menulis ulang penyimpanan perantara setiap kali pipeline dijalankan, dalam bentuk ekspor mentah ke Cloud Storage di BigQuery.

Memahami arsitektur pipeline

Diagram berikut menunjukkan pipeline untuk transformasi dan penyelarasan data.

Pipeline untuk transformasi dan penyelarasan data.

Diagram sebelumnya menunjukkan proses lengkap pemindahan data melalui pipeline, termasuk semua langkah yang terlibat dalam transformasi dan penyelarasan. Data ini mula-mula diserap sebagai data mentah, lalu dilanjutkan melalui pipeline transformasi struktural dan pipeline resolusi identitas. Data kemudian mengalami transformasi tambahan—misalnya, konversi terminologi dan de-identifikasi—lalu keluar melalui pipeline output ke BigQuery, tempat data tersebut disimpan sebagai data yang diselaraskan dan siap untuk analisis. Selain itu, metadata dalam penyimpanan perantara secara otomatis ditulis pada saat runtime dan disimpan di BigQuery sebagai data provenance dan silsilah data.

Diagram ini juga menunjukkan dua langkah penyimpanan perantara. Sebagai praktik terbaik, Anda dapat menyimpan setiap set data di antara tahap pipeline.

Langkah selanjutnya