Menyerap data klinis dan operasional dengan Cloud Data Fusion

Dokumen ini menjelaskan kepada peneliti, data scientist, dan cara tim IT Cloud Data Fusion dapat membuka kunci data dengan menyerap, mengubah, dan menyimpan data dalamBigQuery, data warehouse yang dikumpulkan di Google Cloud.

Organisasi layanan kesehatan mengandalkan data untuk mendorong penggunaan kasus data analisis kesehatan,tetapi sebagian besar data terkunci dalam sistem yang terpisah. Dokumen ini menunjukkan cara Anda dapat mengakses data ini dengan Cloud Data Fusion.

Menggunakan Cloud Data Fusion sebagai layanan integrasi data

Cloud Data Fusion adalah layanan integrasi data berbasis cloud yang terkelola sepenuhnya, dengan library transformasi open source yang luas dan lebih dari 100 plugin yang tersedia menyediakan beragam sistem dan format data.

Dengan Cloud Data Fusion, Anda dapat menyerap dan mengintegrasikan data mentah dari berbagai sumber dan mengubah data tersebut. Misalnya, Anda dapat menggunakan Cloud Data Fusion untuk menggabungkan atau menggabungkan sumber data sebelum menulis di BigQuery untuk menganalisis data.

Data mentah diambil dari sumber data, yang dapat berupa database relasional, sistem file, mainframe dan sistem lama lainnya, sistem cloud publik, dan Google Cloud. Tujuan Cloud Data Fusion, yang juga disebut sebagaisink, adalah lokasi dimana data telah ditulis—misalnya, Cloud Storage dan BigQuery.

Menggunakan Cloud Storage sebagai data lake

Anda dapat menggunakan Cloud Storage sebagai lokasi pengumpulan data yang direncanakan untuk dipindahkan ke cloud, dan Anda juga dapat menggunakannya sebagai data lake. Dengan banyak konektornya, Cloud Data Fusion mengisi data lake dari sistem lokal.

Menyerap jenis data klinis dengan menggunakan Cloud Healthcare API

Cloud Healthcare API menyediakan solusi terkelola untuk menyerap, menyimpan, dan mengakses data layanan kesehatan di Google Cloud dengan menciptakan jembatan penting antara sistem perawatan dan aplikasi yang dihosting di cloud. Di Cloud Healthcare API, setiap penyimpanan data khusus modalitas dan API terkaitnya sesuai dengan standar saat ini. Cloud Healthcare API mendukung Fast Healthcare Interoperability Resources (FHIR), HL7v2, dan Digital Imaging dan Communications in Medicine (DICOM). Untuk mengetahui informasi selengkapnya, lihat Mengenal Cloud Healthcare API.

Baru-baru ini, organisasi layanan kesehatan menggunakan jenis data FHIR untuk catatan kesehatan elektronik (EHR) dan sistem layanan kesehatan guna memperluas kemampuan mereka untuk membuat kueri data klinis di seluruh organisasi. Jika organisasi Anda memiliki akses ke FHIR, Anda dapat menggunakan Cloud Healthcare API untuk menyerap data FHIR guna mengupload banyak data klinis.

Cloud Healthcare API mendukung beberapa versi FHIR. Untuk mengetahui informasi selengkapnya tentang versi dan fungsi yang didukung, lihat Pernyataan kesesuaian FHIR.

Menyerap data terstruktur lainnya

Untuk kapasitas integrasi data yang diperluas, produk Google Cloud yang dibahas dalam dokumen ini dapat menangani format data terstruktur umum seperti CSV, JSON, Avro, ORC, dan Parquet. Selain itu, Cloud Storage dapat menyerap format data apa pun sebagai penyimpanan blob. Untuk mengetahui informasi selengkapnya, lihat cara memuat data dari Cloud Storage ke BigQuery.

Pengimpor data mentah open source untuk BigQuery dapat mengimpor data mentah ke BigQuery dan memiliki fitur berikut:

  • Dekompresi file input secara otomatis, dengan dukungan untuk berbagai format, termasuk format file gzip, LZ4, tar, dan zip
  • Deteksi skema set data lengkap
  • Paralelisasi yang tepat yang dibuat berdasarkan Dataflow

Alat pengimpor data tidak terbatas pada data layanan kesehatan. Anda dapat menggunakan alat ini untuk mengimpor segala jenis set data dalam format yang didukung ke BigQuery untuk dianalisis lebih lanjut. Saat ini, alat ini mendukung jenis data CSV.

Memuat data

Ada dua bentuk pemuatan data—penuh dan inkremental. Beban penuh awal terdiri dari data pemuatan batch yang berada di data warehouse lokal ke dalam cloud data warehouse, BigQuery. Pemuatan penuh ini hanya dilakukan sekali.

Proses pemuatan inkremental sering kali mengikuti penyerapan penuh awal, dengan tujuan untuk menjaga data di cloud tetap sinkron dengan penyimpanan data utama. Pemuatan inkremental dapat berupa dump database berkala atau streaming real-time. Untuk pembaruan berkala, Anda dapat memuat sekumpulan update database ke Cloud Storage, lalu menggabungkan pembaruan tersebut ke dalam cloud data warehouse. Untuk update real-time, Anda dapat menyiapkan replikasi database real-time menggunakan database pemrosesan transaksi online (OLTP) atau protokol pesan, seperti streaming HL7v2. Untuk mengetahui informasi selengkapnya, lihat opsi untuk transfer data cloud.

Mentransfer dataset berukuran besar

Untuk mentransfer set data besar ke Google Cloud, Anda perlu mempertimbangkan durasi, biaya, dan kompleksitas transfer. Untuk mengetahui informasi selengkapnya, lihat strategi untuk mentransfer set data besar.

Siklus proses data

Penyerapan data hanyalah langkah pertama dalam siklus proses data. Google Cloud menyediakan teknologi di seluruh siklus proses data, termasuk penyerapan, penyimpanan, analisis, dan visualisasi.

Langkah selanjutnya