JURNAL MEDIA INFORMATIKA BUDIDARMA
Volume 6, Nomor 2, April 2022, Page 1174-1182
ISSN 2614-5278 (media cetak), ISSN 2548-8368 (media online)
Available Online at https://ejurnal.stmik-budidarma.ac.id/index.php/mib
DOI: 10.30865/mib.v6i2.3967
Ichwanul Muslim Karo Karo, Copyright © 2022, MIB, Page 1174
Submitted: 29/03/2022; Accepted: 19/04/2022; Published: 25/04/2022
Pengaruh Metode Pengukuran Jarak pada Algoritma k-NN untuk
Klasifikasi Kebakaran Hutan dan Lahan
Ichwanul Muslim Karo Karo
1,*
, Ananda Khosuri
2
, Juan Steiven Imanuel Septory
2
, Dimas Pebrian
Supandi
2
1
Fakultas Informatika, Universitas Telkom, Bandung, Indonesia
2
Fakultas Informatika, Universitas Surya, Tangerang, Indonesia
Email:
1,*
ichwanulkarokaro@telkomuniversity.ac.id,
2
anandakhosuri@gmail.com,
3
juansteiven17@gmail.com,
4
dimaspebrian26@gmail.com
Email Penulis Korespondensi: ichwanulkarokaro@telkomuniversity.ac.id
Abstrak−Kebakaran hutan dan lahan merupakan salah satu masalah serius dan berulang terjadi di Indonesia. Intensitas
tingginya kebakaran hutan disebabkan oleh persebaran titik panas di wilayah rawan kebakaran. Salah satu upaya pencegahan
dan meminimalkan risiko kebakaran hutan adalah dengan cara mengidentifikasi jenis titik panas dengan menggunakan
pendekatan klasifikasi. Salah satu algoritma klasifikasi terpopuler adalah k Nearest Neighbor (k-NN). Algoritma tersebut
menggunakan pendekatan perhitungan jarak dalam mengklasifikasikan objek. Tujuan penelitian ini adalah mengklasifikasikan
tipe titik panas yang tersebar di Indonesia menggunakan algoritma k-NN serta menganalisis pengaruh metode perhitungan jarak
pada algoritma k-NN. Jenis metode pengukuran jarak yang dianalisis meliputi Euclidean, Canberra, Chebyshev, dan Manhattan
Adapun dataset yang digunakan adalah sebaran titik panas di Indonesia yang diperoleh dari Global Forest Watch (GFW).
Penelitian merancang dataset dengan dua kondisi, melalui tahap pre-processing dan tidak. Secara umum, akurasi model dari
kombinasi k-NN dengan ragam metode pengukuran jarak diatas 90%. Tahap pre-processing mampu meningkatkan performansi
model 1-8 kali lipat. Kombinasi k-NN dengan Manhattan merupakan pilihan terbaik untuk mengidentifikasi jenis titik api
dengan akurasi 92,6%.
Kata Kunci: K-NN; Euclidean; Canberra; Chebyshev; Manhattan
Abstract−Forest and land fires are a serious and recurring problem in Indonesia. The high intensity of forest fires is caused by
the distribution of hotspots in fire-prone areas. One of the efforts to prevent and minimize the risk of forest fires is to identify
the types of hotspots using a classification approach. One of the most popular classification algorithms is k Nearest Neighbor
(k-NN). The algorithm uses a distance calculation approach in classifying objects. The purpose of this study is to classify the
types of hotspots scattered in Indonesia using the k-NN algorithm and to analyze the effect of the distance calculation method
on the k-NN algorithm. The types of distance measurement methods analyzed include Euclidean, Canberra, Chebyshev, and
Manhattan. The dataset used is the distribution of hotspots in Indonesia obtained from Global Forest Watch (GFW). The study
designed a dataset with two conditions, through the pre-processing stage and not. In general, the model accuracy of the k-NN
combination with various distance measurement methods is above 90%. The pre-processing stage can increase the model's
performance 1-8 times. The combination of k-NN with Manhattan is the best choice to identify the types of hotspots with an
accuracy of 92.6%.
Keywords: k-NN; Euclidean; Canberra; Chebyshev; Manhattan
1. PENDAHULUAN
Kebakaran hutan dan lahan merupakan salah satu masalah serius dan berulang terjadi di Indonesia. Kebakaran
hutan terjadi hampir di seluruh wilayah Indonesia, dan intensitas akan meningkat saat musim kemarau [1]. Dampak
dan Luasnya wilayah kebakaran hutan dan lahan di pengaruhi oleh banyaknya titik panas yang menyebar didaerah
tersebut [2]. Menurut data Kementerian Lingkungan Hidup dan Kehutanan, luas kebakaran hutan dan lahan di
Indonesia mencapai 328.722 hektar. Adapun wilayah terluas mencakup Kalimantan Tengah seluas 44.769 hektar,
Kalimantan Barat 25.900 hektar, Kalimantan Selatan 19.490 hektar, Sumatera Selatan 11.826 hektar, Jambi 11.022
hektar dan Riau 49.266 hektar [2] . Berdasarkan akumulasi data tersebut, jumlah kebakaran terparah terjadi di
pulau Sumatera.
Salah satu upaya pencegahan dan meminimalkan risiko kebakaran hutan adalah dengan cara
mengidentifikasi jenis titik panas di lahan [3, 4]. Salah satu pendekatan yang umum dilakukan untuk
mengklasifikasikan data adalah dengan menggunakan pendekatan penambangan data (data mining). Penambangan
data adalah suatu proses penambangan informasi penting dari suatu data yang tidak dapat dilakukan oleh metode
tradisional [5]. Salah satu fungsi penambangan data yang dapat digunakan untuk mengidentifikasi jenis titik panas
adalah klasifikasi [1, 6]
Satu dari sepuluh algoritma klasifikasi terpopuler adalah k-nearest neighbor (k-NN) [6, 7]. Ide algoritma k-
NN adalah menggunakan fungsi jarak dalam menghitung kemiripan antar data sedemikian hingga dikelompokkan
berdasarkan kemiripan antar data. Fungsi jarak Euclidean merupakan fungsi jarak fundamental dalam
pengembangan algoritma ini. Walaupun demikian, bukan berarti fungsi jarak Euclidean fungsi jarak terbaik pada
k-NN untuk mengklasifikasikan sebuah permasalahan[7]. Sehingga kita perlu menginvestigasi fungsi jarak terbaik
untuk setiap kasus klasifikasi kebakaran hutan dan lahan demi memperolah hasi terbaik.
Penelitian[7] menginvestigasi fungsi jarak terbaik pada k-NN untuk mengklasifikasikan penerima Kartu
Indonesia Pintar. Alhasil, kombinasi fungsi jarak Mahalanobis dan k-NN menghasilkan performance terbaik untuk
dimensi data yang besar sedangkan untuk dimensi data yang lebih kecil, kombinasi fungsi Manhattan dan k-NN