Perbandingan Kinerja Algoritma Ensemble dan Boosting untuk Prediksi Diabetes pada Data Tidak Seimbang Menggunakan SMOTE
DOI:
https://doi.org/10.23960/komputasi.v14i1.348Keywords:
prediksi diabetes, pembelajaran mesin, SMOTE, LightGBMAbstract
Sebagai salah satu penyakit kronis yang terus meningkat secara global, diagnosis dini diabetes sangat penting untuk mencegah komplikasi yang lebih serius. Untuk memprediksi risiko diabetes, metode pembelajaran mesin telah banyak digunakan. Namun, masalah utama yang sering muncul adalah ketidakseimbangan distribusi kelas pada dataset medis, yang dapat menghambat model klasifikasi. Penelitian ini bertujuan untuk melakukan analisis komparatif terhadap beberapa algoritma machine learning dalam memprediksi risiko diabetes pada dataset yang tidak seimbang serta mengevaluasi dampak penerapan teknik oversampling Synthetic Minority Oversampling Technique (SMOTE). Dataset yang digunakan berasal dari Diabetes Prediction Dataset yang tersedia di Kaggle dengan jumlah sekitar 100.000 data dan distribusi kelas positif sekitar 8,5%. Penelitian ini membandingkan lima algoritma klasifikasi, yaitu Logistic Regression, Random Forest, XGBoost, LightGBM, dan CatBoost. Evaluasi model dilakukan menggunakan metode Stratified 5-fold Cross Validation dengan metrik evaluasi Precision, Recall, F1-score, ROC-AUC, dan PR-AUC. Hasil penelitian menunjukkan bahwa model berbasis boosting memiliki performa yang lebih unggul dibandingkan model lainnya. LightGBM memperoleh nilai PR-AUC tertinggi sebesar sekitar 0,89 dengan ROC-AUC sebesar 0,9785, diikuti oleh CatBoost dan XGBoost dengan performa yang sangat mendekati. Menurut analisis confusion matrix, model terbaik mampu mendeteksi kasus diabetes dengan akurasi sekitar 97%, ketepatan sekitar 93,6%, dan recall sekitar 70%. Hasil penelitian ini menunjukkan bahwa algoritma boosting, khususnya LightGBM, dapat memprediksi diabetes dengan baik pada dataset medis yang tidak seimbang
Downloads
References
“Indonesia - International Diabetes Federation,” International Diabetes Federation, 2024. https://idf.org/our-network/regions-and-members/western-pacific/members/indonesia/ (accessed Mar. 15, 2026).
N. A. Pratama and D. W. Utomo, “Deteksi Diabetes Mellitus dengan Menggunakan Teknik Ensemble XGBoost dan LightGBM,” JISKA (Jurnal Inform. Sunan Kalijaga), vol. 11, no. 1, pp. 1–12, Jan. 2026, doi: 10.14421/jiska.4908.
C. Hardiyanti P, “Optimizing breast cancer classification using SMOTE, Boruta, and XGBoost,” Sci. Inf. Technol. Lett., vol. 6, no. 1, pp. 16–33, May 2025, doi: 10.31763/sitech.v6i1.2109.
F. S. Pratiwi, M. A. Barata, and A. D. Ardianti, “Implementasi Metode Smote Dan Random Over-Sampling Pada Algoritma Machine Learning Untuk Prediksi Customer Churn Di Sektor Perbankan,” J. Sist. Inf. dan Inform., vol. 8, no. 1, pp. 87–98, Jan. 2025, doi: 10.47080/simika.v8i1.3678.
Amanda Prawita Ningrum, Sri Winarno, and Vincentius Praskatama, “Klasifikasi Kualitas Biji Kedelai Menggunakan Transfer Learning Convolutional Neural Network Dan SMOTE,” J. Appl. Comput. Sci. Technol., vol. 5, no. 2, pp. 155–164, Dec. 2024, doi: 10.52158/jacost.v5i2.1002.
M. S. Latuconsina and M. Rahardi, “Comparison of LightGBM and CatBoost Algorithms for Diabetes Prediction Based on Clinical Data,” J. Appl. Informatics Comput., vol. 10, no. 1, pp. 1058–1065, 2026.
H. Ali, A. Rahim, A. Ahmed, U. Tanveer, W. S. Khan, and S. Bibi, “Machine Learning for Diabetes Prediction Using Random Forest : A Comprehensive Analysis with Class Balancing Techniques,” Spectr. Eng. Sci., vol. 3138, pp. 1129–1142, 2025, [Online]. Available: https://zenodo.org/records/18030488.
S. Sidiq, P. Korespondensi, and N. Shobi Mabrur, “Pengembangan model prediksi risiko diabetes menggunakan pendekatan AdaBoost dan Teknik Oversampling SMOTE,” J. Ilm. Inform. Dan Ilmu Komput., vol. 4, pp. 13–23, 2025, [Online]. Available: https://doi.org/10.58602/jima-ilkom.v4i1.41.
A. Salam, L. Azhari, R. S. Septarini, and N. Heriyani, “Pendekatan Hybrid K-Means SMOTE dan Logistic Regression Untuk Deteksi Dini Diabetes Mellitus Pada Imbalanced Data,” Bull. Comput. Sci. Res., vol. 5, no. 3, pp. 219–227, Apr. 2025, doi: 10.47065/bulletincsr.v5i3.502.
N. H. Setyawan and N. Wakhidah, “Analisis Perbandingan Metode Logistic Regression, Random Forest, Gradient Boosting Untuk Prediksi Diabetes,” JIPI (Jurnal Ilm. Penelit. dan Pembelajaran Inform., vol. 10, no. 1, pp. 150–162, Jan. 2025, doi: 10.29100/jipi.v10i1.5743.
S. Ernawati and I. Maulana, “Meningkatkan Klasifikasi Penyakit Diabetes Menggunakan Metode Ensemble Softvoting Dengan SMOTE-ENN dan Optimasi Bayesian,” Evolusi J. Sains dan Manaj., vol. 13, no. 1, pp. 71–86, 2025, doi: 10.31294/evolusi.v13i1.8267.
R. Asif, D. Upadhyay, M. Zaman, and S. Sampalli, “Enhancing diabetes risk prediction: A comparative evaluation of bagging, boosting, and ensemble classifiers with SMOTE oversampling,” Informatics Med. Unlocked, vol. 57, no. February, p. 101661, 2025, doi: 10.1016/j.imu.2025.101661.
Adefemi Ayodele, “A comparative study of ensemble learning techniques for imbalanced classification problems,” World J. Adv. Res. Rev., vol. 19, no. 2, pp. 1633–1643, Aug. 2023, doi: 10.30574/wjarr.2023.19.1.1202.
M. Kavitha, “Comparative Analysis of SMOTE Techniques and Machine Learning Models for Imbalanced Medical Datasets,” IEEE Conf. Proc., no. June, pp. 1–9, 2024, [Online]. Available: https://www.researchgate.net/publication/381805587.
Downloads
Published
Issue
Section
License
Copyright (c) 2026 Jurnal Komputasi

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.






