Implementasi Seleksi Fitur Klasifikasi Waktu Kelulusan Mahasiswa Menggunakan Correlation Matrix with Heatmap
Klasifikasi waktu kelulusan Mahasiswa biasanya menggunakan lebih dari 10 atribut input, namun tidak semua atribut tersebut memiliki relevansi dengan atribut output, sehingga sebelum dilakukan klasifikasi perlu dilakukan pemilihan atribut yang relevan melalui seleksi fitur terlebih dahulu. Seleksi fitur merupakan bagian dalam tahapan data preparation pada siklus hidup data science, seleksi Fitur merupakan salah satu konsep inti dalam pembelajaran mesin yang sangat mempengaruhi kinerja model data mining. Dimana pada tahapan ini dilakukan seleksi fitur yang berkontribusi paling besar pada variabel prediksi atau output, memilih fitur yang tidak relevan dalam dataset dapat mengurangi keakuratan model dan membuat model belajar berdasarkan fitur yang tidak relevan. Dengan demikian melakukan seleksi fitur sebelum memodelkan data akan didapatkan manfaat seperti : mengurangi Overfitting, meningkatkan akurasi dan mengurangi waktu pelatihan. Teknik yang digunakan dalam seleksi fitur pada penilitian ini adalah Correlation Matrix with Heatmap karena teknik ini mudah digunakan dan juga memberikan hasil yang baik. Setelah dilakukan implementasi seleksi fitur pada klasifikasi waktu kelulusan Mahasiswa dengan menggunakan 13 variabel/atribut awal didapatkan hasil akhir sebanyak 9 atribut terseleksi yang memiliki relevansi atau kontribusi terhadap variabel output (waktu kelulusan) yaitu : jenis kelamin, kelas, umur, SKS1, IPS1, SKS2, SKS3, SKS4 dan SKS5, sedangkan atribut input yang kurang relevan terdapat 4 atribut yaitu : IPS2, IPS3, IPS4 dan IPS5, sehingga untuk melakukan klasifikasi waktu kelulusan Mahasiswa cukup menggunakan 9 atribut yang terseleksi agar bisa mendapatkan hasil akurasi yang maksimal, proses klasifikasi akan dilakukan pada penelitian selanjutnya.
Classification of graduation time Students usually use more than 10 input attributes, but not all of these attributes have relevance to output attributes, so before classification is carried out, it is necessary to select relevant attributes through feature selection first. Feature selection is part of the data preparation stages in the data science lifecycle, Feature selection is one of the core concepts in machine learning that greatly affects the performance of data mining models. Where at this stage a selection of features that contribute the most to the prediction or output variables is carried out, choosing irrelevant features in the dataset can reduce the accuracy of the model and make the model learn based on irrelevant features. Thus, selecting features before modeling data will get benefits such as: reducing Overfitting, increasing accuracy and reducing training time. The technique used in the feature selection in this study is correlation matrix with heatmap because this technique is easy to use and also gives good results. After the implementation of feature selection in the classification of student graduation time using 13 variables / initial attributes, the final results of 9 selected attributes were obtained that had relevance or contribution to the output variables (graduation time) namely: gender, class, age, SKS1, IPS1, SKS2, SKS3, SKS4 and SKS5, while the less relevant input attributes were 4 attributes, namely: IPS2, IPS3, IPS4 and IPS5, so that to classify the graduation time Students only need to use the 9 attributes selected in order to get maximum accuracy results, the classification process will be carried out in the next study.
Full Text:
K. Walch, "Data Preparation for Machine Learning Still Requires Humans" 2019. (accessed May 21, 2022).
R. Shaikh, "Feature Selection Techniques in Machine Learning with Python" 2018. (accessed May 21, 2022).
Jupriyadi, "Implementasi Seleksi Fitur Menggunakan Algoritma FVBRM Untuk Klasifikasi Serangan Pada Intrusion Detection System (IDS)" Semnastek, pp. 1-6, 2018.
Z. Y. Lamasigi, "DCT Untuk Ekstraksi Fitur Berbasis GLCM Pada Identifikasi Batik Menggunakan K-NN" JJEEE, vol. 3, pp. 1-6, 2021.
Suyanto, Data Mining untuk Klasifikasi dan Klasterisasi Data. Bandung: Informatika, 2019.
Suyanto, Machine Learning Tingkat Dasar dan Lanjut. Bandung: :Informatika, 2018.
P. Pedamkar, "Machine Learning Feature Selection" 2019. (accessed May 20, 2022).
E. P. Rohmawan, "Prediksi Kelulusan Mahasiswa Tepat Waktu Menggunakan Metode Decision Tree Dan Artificial Neural Network" MATRIK, vol. 20, no. 1, pp. 21-30, 2018.
A. Budiyantara and Irwansyah, "Prediksi Mahasiswa Lulus Tepat Waktu Menggunakan Algoritma Decision Tree (C4.5) Pada STMIK Widuri Jakarta" Infotech, vol. 5, no. 2, pp. 7-13, 2019.
BAAK UNISAN, "Data Aktivitas Mahasiswa" Gorontalo, 2022. [Online]. Available:
P. Pedamkar, "Data Science Lifecycle" EDUCBA. All Rights Reserved. (accessed May 15, 2022).
CrowdFlower, "Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says" 2016. (accessed May 15, 2022).
Educba, "Seaborn heatmap." (accessed May 20, 2022).
T. Wahyono, Fundamental of Python for Machine Learning. Yogyakarta: Gava Media, 2018.
Y. Heryadi and T. Wahyono, Machine Learning Konsep dan Implementasi. Yogyakarta: Gava Media, 2020.
- There are currently no refbacks.

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Published by:
Electrical Engineering Department
Faculty of Engineering
State University of Gorontalo
Jenderal Sudirman Street No.6, Gorontalo City, Gorontalo Province, Indonesia
Telp. 0435-821175; 081340032063
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.