EVALUASI EFEKTIVITAS PENCARIAN DOKUMEN HTML PADA PENERAPAN STEMMED TERM VECTOR MODEL DENGAN PEMBOBOTAN LOGARITMA FREKUENSI TERM DALAM DOKUMEN DAN PENGUKURAN SOKAL Angga Kusuma Nugraha 1) , Yesi Puspita Dewi 2) 1 Teknik Informatika, Fakultas Teknologi Informasi, Universitas Budi Luhur 2 Sistem Informasi, Fakultas Teknologi Informasi, Universitas Budi Luhur Jl. Raya Ciledug, Pertukangan Utara, Jakarta Selatan 12260 Telp : (021)5853489 E-mail : incredibleangga@gmail.com 1) , yesipuspita.dewi@gmail.com 2) Abstract Purpose of this study was to evaluate the effectiveness of an information retrieval system using the sokal / sneath equation and vector method by comparing between one system model and another. Number of documents used 100 documents taken from the internet with 10 different topics. Algorithms used include algorithm for extact, tokenization, stopword removal, stemming, term weighting and similarity calculation. An information acquisition system is a system that automatically searches for information that is relevant to user needs. Finally, in measuring the relevance of the document to the query is done using the calculation of the average precision and recall. The calculations are done manually. From the calculation of the average precision and recall will get a collection point of effectiveness later on at the end of this study will be described in graphical form. Furthermore, the graph is incorporated into several graphs of precision and recall in other related studies, for comparison in obtaining final conclusions.. Keywords: Information retrieval, Precision and recall, Similarity Calculation, Stemming, Sokal, Stopword removal, Tokenization Abstrak Tujuan penelitian ini adalah untuk mengevaluasi efektivitas dari suatu sistem perolehan informasi ( information retrieval) yang menggunakan ukuran kesamaan sokal / sneath dan metode vektor dengan cara membandingkan antara satu model sistem dengan model yang lain. Jumlah dokumen yang digunakan 100 dokumen yang diambil dari internet dengan 10 topik berbeda. Algoritma yang digunakan antara lain algoritma untuk ekstact, tokenization, stopword removal, stemming, pembobotan (term weighting) dan perhitungan similarity. Sistem perolehan informasi adalah sistem yang secara otomatis melakukan pencarian untuk memperolehan informasi yang relevan terhadap kebutuhan pengguna. Pada akhirnya nanti, dalam pengukuran relevansi dokumen terhadap query dilakukan dengan menggunakan perhitungan rata-rata precision dan recall. Perhitungannya dilakukan dengan cara manual. Dari hasil perhitungan rata-rata precision dan recall akan didapatkan kumpulan titik efektifitas yang nanti pada akhir penelitian ini akan digambarkan dalam bentuk grafik. Selanjutnya grafik tersebut disatukan dengan beberapa grafik rata-rata precision dan recall pada penelitian yang terkait lainnya, untuk dilakukan perbandingan dalam memperoleh kesimpulan akhir. Kata Kunci: Information retrieval, Precision dan recall, Similarity Calculation, Stemming, Sokal, Stopword removal, Tokenization 1. PENDAHULUAN Sebuah sistem perolehan informasi digunakan untuk mengurangi jumlah informasi yang berlebih, agar pencari informasi dapat lebih mudah mendapatkan informasi yang diinginkannya. Sistem perolehan informasi web yang saat ini dikenal oleh banyak orang adalah search engine atau mesin pencari. Cara mesin pencari menentukan halaman mana yang paling sesuai, dan urutan halaman-halaman itu diperlihatkan, sangat bervariasi. Metodenya pencariannya berubah seiring waktu dengan berubahnya penggunaan internet dan berevolusinya teknik-teknik baru. Karena banyak metode telah ditemukan dan metode-metode tersebut punya kelebihan dan kekurangannya masing-masing, maka timbul permasalahan untuk mencari metode yang paling efektif dalam upaya pencarian dokumen. Dalam penelitian ini menggunakan sistem perolehan informasi web, dimana fokus pencarian adalah informasi yang terdapat dalam dokumen yang terdapat pada web. Metode yang digunakan adalah metode pembobotan berdasarkan pembagian antara frekuensi term dalam satu dokumen dengan jumlah seluruh frekuensi term dalam dokumen tersebut dan dengan menggunakan metode pengukuran kesamaan sokal.