Kuliah Umum Dealing With Sensitive Data
Dealing
With Sensitive Data
Kerrie
Mengersen
Distinguished
Professor, Statistics
“should be carefully to using data, cause We need to know use the data for information”
Case Study 1:
Private health data
Dalam
hal ini data kesehatan kanker di Australia (Australian Cancer)
Dengan metode, yaitu:
· Mendapatkan
data untuk 20 jenis kanker dari berbagai jenis kanker yang telah diidentifikasi
di setiap negara bagian dan teritori di Australia
·
Menggunakan
metode estimasi wilayah kecil untuk memperkirakan kejadian (incidence)
dan kelangsungan hidup relatif (relative survival) untuk masing-masing
wilayah SA2 tahun 2000
·
Ditampilkan
sebagai peta interaktif
· Menggunakan model spasial untuk menunjukkan penyebaran cancer yang dialami perempuan
Adapun hasil dari kurva kelangsungan hidup relatif kanker
kolorektal (colorectal cancer relatif survival curves by SLA (maximum
difference)) persentase kelangsungan hidup relatif (relative survival)
penderita kanker kolarektal berangsur-angsur turun seiring pertambahan tahun. Dimana persen untuk daerah yang
sangat terpencil (very remote, orange color) lebih rendah dibanding kota
besar (major city, blue color).
Kemudian
jumlah kematian dalam waktu 5 tahun sejak diagnosis disebabkan oleh kesenjangan
spasial non-diagnostik (1998 – 2007): Untuk kanker kolorektal bernilai 470
dalan interval kepercyaan (CI) 80% yang berkisar antara 321 dan 637. Dan
untuk kanker payudara bernilai 170 dalam interval kepercayaan (CI) 80% dengan
kisaran 86 – 307.
Case study 2: Commercially sensitive data/ data sensitif secara komersil
Dalam
hal ini jaringan streaming (stream network) menggunakan model
ruang-waktu bayesian. (bayesian space-time model), yaitu:
·
Meningkatnya
jumlah lokasi spasial
·
Pengamatan
mempunyai korelasi yang tinggi
· Ketergantungan
spasial ditentukan oleh konektivitas aliran (flow connectivity), jarak
aliran (stream distance), dan lain-lain
· Secara umum, model geostatistik tradisional tidak mempunyai kinerja yang baik
Adapun hasil
yang diperoleh menunjukkan:
Ø Pentingnya
prediktor
Ø Pentingnya
ruang dan waktu
Ø Prediksi
pada jaringan lainnya
Ø Wawasan
lainnya (deteksi anomali, dll)
Case study 3:
Many sources of data/
banyak sumber data
Dalam hal ini lyngbya di pantai, apa yang menyebabkan
pembentukan lyngbya? Tindakan apa yang harus diambil? Dengan menggunakan model
jaringan bayesian (bayesian network model), diperoleh faktor yang paling
berpengaruh yaitu sebagai berikut:
1. Kolom
nutrisi (nutrient pool) yang tersedia
2. Iklim
di bawah laut (bottom climate) saat ini
3. Nutrisi
sedimen (sediment nutrients)
4. Besi
terlarut (dissolved iron)
5. Fosfor
terlarut (dissolved phosphorus)
6. Cahaya
(light)
7. Suhu (temperature)
Terdapat dua
pendekatan dalam mengatasi tantangan sensitivitas data
1. Federated
learning (pembelajaran federasi)
Analisis data tanpa data meninggalkan sumbernya akan
dibagikan sesuai etika, hukum, politik dan administrasi dalam mengumpulkan data
2. Synthetic
data (data sintetis)
Membuat data
tertutup menjadi terbuka
Kumpulan data sintesis = kumpulan data replika yang dihasilkan:
ü Data sintesis
dapat dibagikan
ü Dapat
digunakan untuk membuat model
ü Dapat
melakukan validasi & evaluasi yang lebih komprehensif
ü Dapat
memungkinkan sumber data terbuka ke khalayak yang lebih luas untuk eksplorasi
membangun aplikasi, pengemban teknologi
Dengan demikian, dapat diketahui bahwa ada banyak sumber
data sensitif dan kita harus menghormati batasan dari data sensitif tersebut.
Adapun dua pendekatan yang dapat digunakan untuk mengatasi tantangan ini yaitu federated
learning dan synthetic data.
Comments
Post a Comment