J.Oto.Ktrl.Inst (J.Auto.Ctrl.Inst) Vol 9 (2), 2017 ISSN : 2085-2517 119 Penghitungan k-NN pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan 1,2,3 Departemen Teknik Elektro dan Teknologi Informasi Fakultas Teknik, Universitas Gadjah Mada Jl. Grafika no.2 Yogyakarta-55281, Indonesia 1 ayu.ti14@mail.ugm.ac.id 2 adji@ugm.ac.id 3 noorwewe@ugm.ac.id Abstrak Pada penelitian ini disajikan tentang contoh proses penghitungan k-NN pada teknik oversampling Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk mengatasi masalah ketidakseimbangan (imbalanced) kelas pada dataset dengan fitur nominal-multi categories. Percobaan penghitungan k-NN menggunakan contoh dataset yang memiliki 10 instances dengan 4 fitur, yang mana masing-masing fiturnya memiliki 3 kategori (multi-categories). Contoh dataset untuk percobaan penghitungan tersebut terdistribusi ke dalam 2 kelas, yaitu kelas A terdapat 3 instances dan kelas B dengan 7 instances. Selanjutnya hasil penghitungan k-NN tersebut diujikan pada sebuah dataset dengan fitur nominal-multi categories yang memiliki distribusi kelas yang tidak seimbang. Kemudian dataset di-oversampling dengan metode ADASYN-N dan ADASYN-kNN, kemudian dilakukan uji klasifikasi menggunakan metode Random Forests. Hasil klasifikasi dibandingkan akurasinya antara dataset asli dan dataset dengan teknik oversampling ADASYN-N serta ADASYN-kNN dan menunjukkan bahwa teknik oversampling ADASYN-N dapat meningkatkan akurasi klasifikasi sebanyak 9,05% dari dataset asli, sedangkan ADASYN-kNN meningkatkan akurasi klasifikasi sebanyak 7,84% dari dataset asli. Keywords: penghitungan k-NN; ADASYN; imbalanced data; nominal; k-NN; multi categories 1 Pendahuluan Banyak permasalahan data mining melibatkan imbalanced data (ketidakseimbangan data). Dataset dengan ketidakseimbangan kelas ini terjadi karena rasio yang tidak seimbang antara kasus yang satu dengan kasus yang lainnya. Ketidakseimbangan kelas ini akan merugikan pada penelitian bidang data mining karena machine learning pada data mining memiliki kesulitan dalam mengklasifikasikan kelas minoritas (jumlah instance yang kecil) dengan benar. Beberapa algoritme mengasumsikan bahwa distribusi kelas yang diuji adalah seimbang sehingga dalam beberapa kasus menjadikan kesalahan dalam mengklasifikasikan hasil pada tiap kelas. Terdapat beberapa pendekatan untuk penanganan ketidakseimbangan, salah satunya dengan menggunakan metode sampling data asli baik pada kelas mayoritas ( under- sampling) maupun kelas minoritas (over-sampling). Under-sampling merupakan metode untuk menyeimbangkan kelas dengan cara mengurangi instance pada kelas mayoritas secara acak. Namun, pada metode under-sampling memiliki resiko hilangnya informasi dan data yang dianggap penting untuk proses pengambilan keputusan oleh machine learning.