Jurnal TEKNOINFO, Vol. 16, No. 1, 2022, 113-118, ISSN: 2615-224X 113 KOMBINASI METODE K-MEANS DAN DECISION TREE DENGAN PERBANDINGAN KRITERIA DAN SPLIT DATA Elly Muningsih Sistem Informasi, Universitas Bina Sarana Informatika Jl. Kramat Raya No. 98 Kwitang, Senen, Jakarta Pusat Email : elly.emh@bsi.ac.id Abstract Data mining is a process of looking for patterns or pulling large and selected data information using certain techniques or methods. The K-Means and Decision Tree methods are part of the Data Mining technique. This study will combine the K-Means method to cluster data into three clusters then the results of the clustering will be classified using the Decision Tree Method with a comparison of the Gain Ratio, Information Gain and Gini Index criteria. The data is processed into two, namely training data and testing data with a percentage of 70:30, 80:20 and 90:10. The results of the research are to find out which criteria produce the best decision tree and performance based on the highest accuracy value from each data group. The data is taken from the UCI Repository with a total of 811 records and 52 attributes. From the data processing carried out, it is known that for the 70:30 data split, the accuracy value with the Gain Ratio, Information Gain and Gini Index criteria gets the same value, namely 97.53. The Gain Ratio and Gini Index criteria produce the highest accuracy value, which is 98.15% for 80:20 split data. While Information Gain got the highest accuracy value of 98.77% for 90:10 data split. Keyword : data mining, clustering, k-means, classification, decision tree Abstrak Data mining merupakan suatu proses mencari pola atau menarik informasi data besar dan terpilih menggunakan teknik atau metode tertentu. Metode K-Means dan Decision Tree merupakan bagian dari teknik Data Mining. Penelitian ini akan mengkombinasikan metode K-Means untuk melakukan clustering data menjadi tiga cluster kemudian hasil dari clustering akan di klasifikasi menggunakan Metode Decision Tree dengan perbandingan kriteria Gain Ratio, Information Gain dan Gini Index. Data yang diolah di bagi (split) menjadi dua yaitu data training dan data testing dengan prosentase 70:30, 80:20 dan 90:10. Hasil dari penelitian untuk menemukan kriteria mana yang menghasilkan pohon keputusan dan performa terbaik berdasarkan nilai akurasi tertinggi dari masing-masing kelompok data. Data diambil dari Repository UCI dengan jumlah 811 record dan 52 atribut. Dari pengolahan data yang dilakukan diketahui untuk split data 70:30, nilai akurasi dengan kriteria Gain Ratio, Information Gain dan Gini Index mendapatkan nilai sama yaitu 97,53. Kriteria Gain Ratio dan Gini Index menghasilkan nilai akurasi tertinggi yaitu 98,15% untuk split data 80:20. Sedangkan Information Gain mendapat nilai akurasi tertinggi 98,77% untuk split data 90:10. Kata kunci : data mining, clustering, k-means, klasifikasi, decision tree 1. Pendahuluan Data mining adalah suatu proses untuk meng- ekstraksi informasi yang spesifik dari data kemudian disajikan dalam bentuk informasi yang relevan dan berguna agar dapat dimanfaatkan untuk menyelesaikan berbagai masalah [1]. Data mining juga dapat diartikan sebagai suatu proses mencari pola atau menarik informasi data besar dan terpilih menggunakan teknik atau metode tertentu agar ditemukan suatu pola yang sebelumnya tidak diketahui [2]. Menurut [3] dan [4] ada 6 (enam) teknik data mining yaitu Deskripsi, Estimasi, Prediksi, Klastering, Klasifikasi dan Asosiasi. Dalam penelitian ini teknik data mining yang digunakan adalah klastering (clustering) dan klasifikasi (Clasiffication). Clustering merupakan suatu metode yang digunakan untuk membagi dataset menjadi beberapa kelompok yang memiliki kemiripan atau karakteristik yang sama [5]. Salah satu metode dalam clustering adalah metode K-Means. Metode K-Means merupakan salah satu dari metode pengelompokan data non-hierarki yang mempartisi data kedalam bentuk dua kelompok atau lebih dimana data yang berkarakteristik sama akan dimasukkan kedalam satu kelompok yang sama, sedangkan data yang memiliki karakteristik berbeda akan dikelompokan kedalam kelompok lainnya [6]. Metode K- Means disebutkan juga merupakan salah satu metode dalam fungsi clustering atau pengelompokan yang mengacu pada pengelompokkan data, observasi atau kasus berdasar kemiripan objek yang diteliti [7]. Klasifikasi sendiri merupakan suatu proses untuk menemukan model yang menjelaskan konsep atau kelas data yang bertujuan untuk memperkirakan kelas dari suatu objek yang label-nya tidak diketahui dimana model itu sendiri dapat berupa aturan “jika-maka”, berupa pohon keputusan (decision tree), formula matematika atau neural network [8]. Proses klasifikasi didasarkan pada empat komponen [9] yaitu kelas (suatu variabel