Analisis Implementasi Seleksi Fitur Pada Klasifikasi Diabetes dengan Metode Corellation Matrix dan Algoritma Logistic Regression

Penulis

  • Fitri Kurniawati UPN Veteran Jakarta
  • Dede Brahma Arianto

DOI:

https://doi.org/10.52958/iftk.v19i3.6019

Kata Kunci:

Logistic Regression, Seleksi Fitur, Correlation Matrix, Heatmap

Abstrak

Diabetes merupakan penyakit kronis yang ditandai dengan tingginya kadar gula darah. Diabetes merupakan salah satu penyakit penyumbang kenaikan angka peluang kematian dari tahun ketahun terhitung sejak 2000 - 2019. Penting untuk dilakukan deteksi dini dan pola hidup sehat sebagai langkah pencegahan diabetes. Tujuan penelitian ini untuk membandingkan performance dari algoritma Logistic Regression untuk prediksi diabetes dengan seleksi fitur dan tanpa seleksi fitur untuk mengetahui apakah seleksi fitur dapat meningkatkan performance model untuk prediksi diabetes. Metode yang digunakan Logistic Regression yang diuji dengan 3 skenario, 1 skenario tanpa seleksi fitur dan 2 skenario lainnya menggunakan seleksi fitur dengan tools corellation matrix dengan visualisasi heatmap. Dari penelitian ini didapatkan skenario 1 yang menggunakan algoritma Logistic Regression tanpa seleksi fitur menghasilkan performance terbaik dengan presisi 77%, akurasi 79,1%, recall 74% dan f1-score 75%. Sehingga dapat disimpulkan bahwa prediksi menggunakan model Logistic Regression tanpa seleksi fitur memiliki performance yang lebih unggul untuk prediksi diabetes.

Referensi

World Health Organization: WHO. (2023). Diabetes. www.who.int. https://www.who.int/news-room/fact-sheets/detail/diabetes

R.M.M. Khan, Z.J.Y. Chua, J.C. Tan, Y. Yang, Z. Liao, Y. Zhao, From pre-diabetes to diabetes: diagnosis, treatments and translational research, Medicina (B Aires) 55 (9) (2019) 546.

Noviandi, N. (2018). Implementasi Algoritma Decision Tree C4.5 Untuk Prediksi Penyakit Diabetes. Jurnal INOHIM, Volume 6 Nomor 1, Juni 2018, 6(01), 1–5. https://doi.org/10.47007/inohim.v6i1.142

Daghistani, T., & Alshammari, R. (2020). Comparison of Statistical Logistic Regression and RandomForest Machine Learning Techniques in Predicting Diabetes. Journal of Advances in Information Technology, 78–83. https://doi.org/10.12720/jait.11.2.78-83

Khakim, E. N. R., Hermawan, A., & Avianto, D. (2023). Implementasi Correlation Matrix Pada Klasifikasi Dataset Wine. JIKO (Jurnal Informatika Dan Komputer), 7(1), 158. https://doi.org/10.26798/jiko.v7i1.771

Bruce, P., Bruce, A., & Gedeck, P. (2020). Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python. O’Reilly Media.

Ardiansyah, M., Sunyoto, A., & Luthfi, E. T. (2021). Analisis Perbandingan Akurasi Algoritma Naïve Bayes Dan C4.5 untuk Klasifikasi Diabetes. Edumatic : Jurnal Pendidikan Informatika, 5(2), 147–156. https://doi.org/10.29408/edumatic.v5i2.3424

Diagnosis and Classification of Diabetes Mellitus. (2013). Diabetes Care, 37(Supplement_1), S81–S90. https://doi.org/10.2337/dc14-s081

Argina, A. W. (2020). Penerapan Metode Klasifikasi K-Nearest Neigbor pada Dataset Penderita Penyakit Diabetes. Indonesian Journal of Data and Science, 1(2), 29–33. https://doi.org/10.33096/ijodas.v1i2.11

Fadhillah, R. P., Rahma, R., Sepharni, A., Mufidah, R., Sari, B. N., & Pangestu, A. (2022). Klasifikasi Penyakit Diabetes Mellitus Berdasarkan Faktor-Faktor Penyebab Diabetes menggunakan Algoritma C4.5. JIPI (Jurnal Ilmiah Penelitian Dan Pembelajaran Informatika), 7(4), 1265–1270. https://doi.org/10.29100/jipi.v7i4.3248

Handayani, F. (2021). Komparasi Support Vector Machine, Logistic Regression Dan Artificial Neural Network Dalam Prediksi Penyakit Jantung. JEPIN (Jurnal Edukasi Dan Penelitian Informatika), Vol. 7, No. 3, Desember 2021, 7(3), 329. https://doi.org/10.26418/jp.v7i3.48053

Unduhan

Diterbitkan

2023-12-29

Terbitan

Bagian

Article