Jurnal Elektronik Ilmu Komputer Udayana p-ISSN: 2301-5373 Volume 8, No 2. November 2019 e-ISSN: 2654-5101 207 Perbandingan Jenis TF terhadap Hasil Evaluasi Information Retrieval I Putu Gede Hendra Suputra 1 , Kiki Dwi Prebiana 2 , Frisca Olivia Gorianto 3 Program Studi Teknik Informatika, FMIPA, Universitas Udayana Jimbaran, Bali, Indonesia hendra.suputra@unud.ac.id 1 ,kikidwiprebiana@gmail.com 2 , fgorianto@gmail.com 3 Abstract Pada sebuah sistem temu kembali,salah satu cara untuk mencari kesamaan antara query dengan dokumen adalah dengan menggunakan Term Frequency – Inverse Document Frequency atau TF-IDF. TF yang umum digunakan adalah langsung menggunakan jumlah term frequency padahal banyak jenis TF lainnya yang dapat dikombinasikan dengan IDF. Penelitian ini akan mengkombinasikan 4 jenis TF, yaitu Natural TF, Normalization/max TF, Logaritma TF, dan Boolean TF dengan tujuan untuk mencari jenis TF mana yang lebih baik setelah dikombinasikan dengan IDF. Hasil penelitian menunjukkan bahwa.Logaritma TF adalah yang terbaik dengan nilai F-measure sebesar 0,00662. Keywords: TF-IDF, Natural TF, Normalization TF, Logaritma TF, Boolean TF 1. Pendahuluan Sistem temu kembali informasi adalah proses pengembalian informasi yang relevan sesuai dengan kebutuhan pengguna. Sistem temu kembali informasi akan mengembalikan dokumen relevan yang tersimpan sesuai dengan query yang diinputkan oleh user. Secara umum dokumen ynag relevan ditampilkan secara berurutan dari dokumen yang memiliki tingkat relevan paling tinggi ke dokumen yang memiliki tingkat relevan yang paling rendah [1]. Salah satu proses dalam sistem temu kembali adalah pembobotan teks. Pada penelitian sebelumnya proses pemboboan teks dilakukan dengan menerapkan dua buah metode yaitu pembobotan dengan menggunakan TF-IDF dan LCS. Dari penelitian yang dilakukan menunjukan bahwa hasil presisi dan recall yang diperoleh dari kedua metode tersebut adalah sama [2]. Selain itu penelitian lain terkait pembobotan teks juga dilakukan untuk membandingkan pengaruh penggunaan Raw TF-IDF atau Natural TF-IDF dengan max TF-IDF atau Normalization TF-IDF. Dari penelitian yang dilakukan tersebut menunjukan bahwa penerapan max TF-IDF pada proses pembobotan teks selalu menghasilkan nilai yang lebih baik jika dibandingkan dengan penggunaan Raw TF-IDF. Selain membandingkan antara kedua rumus TF – IDF yang berbeda, pada penelitian tersebut juga menunjukan bahwa proses perhitungaan kedekatan dengan dokumen menggunkaan Sosin Similarity selalu lebih baik dibandingkan penggunaan dengan Euclidean Distance [3]. Sampai saat ini metode pembobotan teks yang paling sering digunakan adalah metode TF-IDF . Metode TF-IDF adalah merupakan cara untuk memeberikan bobot hubungan suatu kata terhadap dokumen. Pada metode ini proses perhitungan bobot teks dilakukan dengan menghitung frekuensi kemunculan kata dalam dokumen dan inferse frekuensi dari kata tersebut. Semakin tinggi frekuensi suatu teks terhadap suatu dokumen menunjukan bahwa hubungan kata terhadap suatu dokumen juga semakin tinggi. Proses perhitungan bobot teks dengan TF – IDF sendiri memiliki beberapa macam proses perhitungan, yaitu Boolean TF, Logaritma TF, Natural TF, dan normalisasi TF atau max TF. Oleh karena itu, pada penelitian ini akan dilakukan proses membandingkan pengaruh penggunaan jenis – jenis TF – IDF yang ada terhadap hasil yang diperoleh pada sistem temu kembali informasi. Proses membandingkan pengaruh penggunaan TF – IDF akan dilakukan dengan membandingkan nilai presisi, recall, dan F-Measure yang diperoleh dari setiap jenis TF- IDF yang digunakan.