Kuliah Umum Dealing With Sensitive Data

Dealing With Sensitive Data

Kerrie Mengersen

Distinguished Professor, Statistics

 

“should be carefully to using data, cause We need to know use the data for information”

Case Study 1: Private health data

Dalam hal ini data kesehatan kanker di Australia (Australian Cancer)

Dengan metode, yaitu:

·       Mendapatkan data untuk 20 jenis kanker dari berbagai jenis kanker yang telah diidentifikasi di setiap negara bagian dan teritori di Australia

·       Menggunakan metode estimasi wilayah kecil untuk memperkirakan kejadian (incidence) dan kelangsungan hidup relatif (relative survival) untuk masing-masing wilayah SA2 tahun 2000

·       Ditampilkan sebagai peta interaktif

·       Menggunakan model spasial untuk menunjukkan penyebaran cancer yang dialami perempuan

Adapun hasil dari kurva kelangsungan hidup relatif kanker kolorektal (colorectal cancer relatif survival curves by SLA (maximum difference)) persentase kelangsungan hidup relatif (relative survival) penderita kanker kolarektal berangsur-angsur turun seiring pertambahan tahun. Dimana persen untuk daerah yang sangat terpencil (very remote, orange color) lebih rendah dibanding kota besar (major city, blue color).

Kemudian jumlah kematian dalam waktu 5 tahun sejak diagnosis disebabkan oleh kesenjangan spasial non-diagnostik (1998 – 2007): Untuk kanker kolorektal bernilai 470 dalan interval kepercyaan (CI) 80% yang berkisar antara 321 dan 637. Dan untuk kanker payudara bernilai 170 dalam interval kepercayaan (CI) 80% dengan kisaran 86 – 307.

 

Case study 2: Commercially sensitive data/ data sensitif secara komersil

Dalam hal ini jaringan streaming (stream network) menggunakan model ruang-waktu bayesian. (bayesian space-time model), yaitu:

·       Meningkatnya jumlah lokasi spasial

·       Pengamatan mempunyai korelasi yang tinggi

·       Ketergantungan spasial ditentukan oleh konektivitas aliran (flow connectivity), jarak aliran (stream distance), dan lain-lain

·       Secara umum, model geostatistik tradisional tidak mempunyai kinerja yang baik

Adapun hasil yang diperoleh menunjukkan:

Ø  Pentingnya prediktor

Ø  Pentingnya ruang dan waktu

Ø  Prediksi pada jaringan lainnya

Ø  Wawasan lainnya (deteksi anomali, dll)

 

Case study 3: Many sources of data/ banyak sumber data

Dalam hal ini lyngbya di pantai, apa yang menyebabkan pembentukan lyngbya? Tindakan apa yang harus diambil? Dengan menggunakan model jaringan bayesian (bayesian network model), diperoleh faktor yang paling berpengaruh yaitu sebagai berikut:

1.     Kolom nutrisi (nutrient pool) yang tersedia

2.     Iklim di bawah laut (bottom climate) saat ini

3.     Nutrisi sedimen (sediment nutrients)

4.     Besi terlarut (dissolved iron)

5.     Fosfor terlarut (dissolved phosphorus)

6.     Cahaya (light)

7.     Suhu (temperature)

Terdapat dua pendekatan dalam mengatasi tantangan sensitivitas data

1.     Federated learning (pembelajaran federasi)

Analisis data tanpa data meninggalkan sumbernya akan dibagikan sesuai etika, hukum, politik dan administrasi dalam mengumpulkan data

2.     Synthetic data (data sintetis)

Membuat data tertutup menjadi terbuka

Kumpulan data sintesis = kumpulan data replika yang dihasilkan:

ü  Data sintesis dapat dibagikan

ü  Dapat digunakan untuk membuat model

ü  Dapat melakukan validasi & evaluasi yang lebih komprehensif

ü  Dapat memungkinkan sumber data terbuka ke khalayak yang lebih luas untuk eksplorasi membangun aplikasi, pengemban teknologi

Dengan demikian, dapat diketahui bahwa ada banyak sumber data sensitif dan kita harus menghormati batasan dari data sensitif tersebut. Adapun dua pendekatan yang dapat digunakan untuk mengatasi tantangan ini yaitu federated learning dan synthetic data.

Comments

Popular Posts