JURNAL MEDIA INFORMATIKA BUDIDARMA Volume 6, Nomor 2, April 2022, Page 1174-1182 ISSN 2614-5278 (media cetak), ISSN 2548-8368 (media online) Available Online at https://ejurnal.stmik-budidarma.ac.id/index.php/mib DOI: 10.30865/mib.v6i2.3967 Ichwanul Muslim Karo Karo, Copyright © 2022, MIB, Page 1174 Submitted: 29/03/2022; Accepted: 19/04/2022; Published: 25/04/2022 Pengaruh Metode Pengukuran Jarak pada Algoritma k-NN untuk Klasifikasi Kebakaran Hutan dan Lahan Ichwanul Muslim Karo Karo 1,* , Ananda Khosuri 2 , Juan Steiven Imanuel Septory 2 , Dimas Pebrian Supandi 2 1 Fakultas Informatika, Universitas Telkom, Bandung, Indonesia 2 Fakultas Informatika, Universitas Surya, Tangerang, Indonesia Email: 1,* ichwanulkarokaro@telkomuniversity.ac.id, 2 anandakhosuri@gmail.com, 3 juansteiven17@gmail.com, 4 dimaspebrian26@gmail.com Email Penulis Korespondensi: ichwanulkarokaro@telkomuniversity.ac.id AbstrakKebakaran hutan dan lahan merupakan salah satu masalah serius dan berulang terjadi di Indonesia. Intensitas tingginya kebakaran hutan disebabkan oleh persebaran titik panas di wilayah rawan kebakaran. Salah satu upaya pencegahan dan meminimalkan risiko kebakaran hutan adalah dengan cara mengidentifikasi jenis titik panas dengan menggunakan pendekatan klasifikasi. Salah satu algoritma klasifikasi terpopuler adalah k Nearest Neighbor (k-NN). Algoritma tersebut menggunakan pendekatan perhitungan jarak dalam mengklasifikasikan objek. Tujuan penelitian ini adalah mengklasifikasikan tipe titik panas yang tersebar di Indonesia menggunakan algoritma k-NN serta menganalisis pengaruh metode perhitungan jarak pada algoritma k-NN. Jenis metode pengukuran jarak yang dianalisis meliputi Euclidean, Canberra, Chebyshev, dan Manhattan Adapun dataset yang digunakan adalah sebaran titik panas di Indonesia yang diperoleh dari Global Forest Watch (GFW). Penelitian merancang dataset dengan dua kondisi, melalui tahap pre-processing dan tidak. Secara umum, akurasi model dari kombinasi k-NN dengan ragam metode pengukuran jarak diatas 90%. Tahap pre-processing mampu meningkatkan performansi model 1-8 kali lipat. Kombinasi k-NN dengan Manhattan merupakan pilihan terbaik untuk mengidentifikasi jenis titik api dengan akurasi 92,6%. Kata Kunci: K-NN; Euclidean; Canberra; Chebyshev; Manhattan AbstractForest and land fires are a serious and recurring problem in Indonesia. The high intensity of forest fires is caused by the distribution of hotspots in fire-prone areas. One of the efforts to prevent and minimize the risk of forest fires is to identify the types of hotspots using a classification approach. One of the most popular classification algorithms is k Nearest Neighbor (k-NN). The algorithm uses a distance calculation approach in classifying objects. The purpose of this study is to classify the types of hotspots scattered in Indonesia using the k-NN algorithm and to analyze the effect of the distance calculation method on the k-NN algorithm. The types of distance measurement methods analyzed include Euclidean, Canberra, Chebyshev, and Manhattan. The dataset used is the distribution of hotspots in Indonesia obtained from Global Forest Watch (GFW). The study designed a dataset with two conditions, through the pre-processing stage and not. In general, the model accuracy of the k-NN combination with various distance measurement methods is above 90%. The pre-processing stage can increase the model's performance 1-8 times. The combination of k-NN with Manhattan is the best choice to identify the types of hotspots with an accuracy of 92.6%. Keywords: k-NN; Euclidean; Canberra; Chebyshev; Manhattan 1. PENDAHULUAN Kebakaran hutan dan lahan merupakan salah satu masalah serius dan berulang terjadi di Indonesia. Kebakaran hutan terjadi hampir di seluruh wilayah Indonesia, dan intensitas akan meningkat saat musim kemarau [1]. Dampak dan Luasnya wilayah kebakaran hutan dan lahan di pengaruhi oleh banyaknya titik panas yang menyebar didaerah tersebut [2]. Menurut data Kementerian Lingkungan Hidup dan Kehutanan, luas kebakaran hutan dan lahan di Indonesia mencapai 328.722 hektar. Adapun wilayah terluas mencakup Kalimantan Tengah seluas 44.769 hektar, Kalimantan Barat 25.900 hektar, Kalimantan Selatan 19.490 hektar, Sumatera Selatan 11.826 hektar, Jambi 11.022 hektar dan Riau 49.266 hektar [2] . Berdasarkan akumulasi data tersebut, jumlah kebakaran terparah terjadi di pulau Sumatera. Salah satu upaya pencegahan dan meminimalkan risiko kebakaran hutan adalah dengan cara mengidentifikasi jenis titik panas di lahan [3, 4]. Salah satu pendekatan yang umum dilakukan untuk mengklasifikasikan data adalah dengan menggunakan pendekatan penambangan data (data mining). Penambangan data adalah suatu proses penambangan informasi penting dari suatu data yang tidak dapat dilakukan oleh metode tradisional [5]. Salah satu fungsi penambangan data yang dapat digunakan untuk mengidentifikasi jenis titik panas adalah klasifikasi [1, 6] Satu dari sepuluh algoritma klasifikasi terpopuler adalah k-nearest neighbor (k-NN) [6, 7]. Ide algoritma k- NN adalah menggunakan fungsi jarak dalam menghitung kemiripan antar data sedemikian hingga dikelompokkan berdasarkan kemiripan antar data. Fungsi jarak Euclidean merupakan fungsi jarak fundamental dalam pengembangan algoritma ini. Walaupun demikian, bukan berarti fungsi jarak Euclidean fungsi jarak terbaik pada k-NN untuk mengklasifikasikan sebuah permasalahan[7]. Sehingga kita perlu menginvestigasi fungsi jarak terbaik untuk setiap kasus klasifikasi kebakaran hutan dan lahan demi memperolah hasi terbaik. Penelitian[7] menginvestigasi fungsi jarak terbaik pada k-NN untuk mengklasifikasikan penerima Kartu Indonesia Pintar. Alhasil, kombinasi fungsi jarak Mahalanobis dan k-NN menghasilkan performance terbaik untuk dimensi data yang besar sedangkan untuk dimensi data yang lebih kecil, kombinasi fungsi Manhattan dan k-NN