Seminar Nasional Teknologi Informasi dan Multimedia 2017 STMIK AMIKOM Yogyakarta, 6-7 Februari 2017 ISSN : 2302-3805 2.1-13 CLUSTERING DOKUMEN DENGAN SEMANTIC WORD HOLONIM DAN FUZZY ASSOCIATION RULE MINING Fahrur Rozi 1) , Rikie Kartadie 2) 1), 2) Pendidikan Teknologi Informasi STKIP PGRI Tulungagung Jl Mayor Sujadi Timur no.7. Tulungagung Email : 1 1) , rikie.kartadie@gmail.com 2) Abstrak Meningkatnya penggunaan dokumen teks berimbas pada semakin menumpuknya file dokumen teks sehingga memerlukan pengorganisasian terhadap file dokumen teks tersebut. Salah satu metode yang dapat mengelompokkan dokumen dengan tepat adalah menggunakan fuzzy association rule. Tahap mendapatkan keyword serta tipe fuzzy yang digunakan berpengaruh terhadap kualitas pengelompokan dokumen. Penggunaan holonim untuk mendapatkan keyword yang selanjutnya digunakan untuk membentuk suatu klaster label dapat memperluas makna dari klaster label, sehingga dapat diperoleh suatu meaningful klaster labe. Penelitian ini mengusulkan sebuah metode yaitu clustering dokumen menggunakan semantic word holonim dan fuzzy association rule mining. Metode ini terdiri dari empat tahap, yaitu : preprocessing dokumen, ekstraksi key terms dari holonim, ekstraksi kandidat klaster, dan konstruksi klaster tree. Pengujian terhadap metode ini dilakukan dengan tiga jenis data berbeda, yaitu Classic, Reuters, dan 20 Newsgroup. Pengujian dilakukan dengan membandingkan nilai overall f- measure dari metode tanpa semantic (non semantic), dan holonim. Kata kunci: association rule, clustering dokumen, fuzzy, holonim 1. Pendahuluan Salah satu bentuk metode pengelolaan teks yang cukup baik untuk mengefisienkan serta melakukan peringkasan teks adalah clustering dokumen [1]. Clustering dapat ditingkatkan kualitasnya dengan beberapa hal, diantaranya : mengatasi dimensi tinggi yang diakibatkan besarnya jumlah dokumen dan jumlah kata dalam dokumen, meningkatkan skalabilitas agar mampu bekerja dengan jumlah dokumen dalam skala kecil ataupun besar (scalable), meningkatkan akurasi, memberikan label cluster yang bermakna, mampu mengatasi overlapping, serta memperhitungkan kesamaan konseptual istilah dari kata [2]. Beberapa metode telah dikembangkan untuk mendapatkan clustering dokumen dengan kualitas yang baik. Salah satunya adalah dengan menggunakan logika fuzzy sebagai metode untuk mengelompokkan dokumen [3]. Penggunaan metode logika fuzzy ini mampu menghasilkan cluster yang overlapping. Selain penggunaan fuzzy metode lain yang sering digunakan dalam clustering maupun pengambilan keputusan adalah association rule mining [4]. Namun, berdasarkan penelitian Fung,dkk bahwa association rule saja tidak scalable [5]. Sehingga untuk menghasilkan metode yang scalable, Fung dkk mengembangkan metode Frequent Itemset Hierarchical Clustering (FIHC) yang merupakan algoritma hasil pengembangan frequent-itemset yang berasal dari association rule mining untuk membangun hierarchical tree untuk topik cluster. Terdapat beberapa metode hybrid yang menggabungkan 2 buah metode dimana salah satunya menggunakan fuzzy. Seperti pada penggabungan antar logika fuzzy dan jaringan syaraf tiruan atau biasa disebut Adaptive Neuro Fuzzy Inference System (ANFIS) [6]. Penggabungan antara fuzzy dan association rule mining yaitu Fuzzy Frequent Itemset-Based Hierarchical Clustering (F2IHC) mampu meningkatkan tingkat akurasi serta menghasilkan cluster yang overlapping dalam clustering dokumen [7]. Beberapa penelitian HFTC [8], FIHC [5], dan F 2 IHC dengan fuzzy set tipe-2 [9] masih menggunakan term yang berada dalam dokumen teks sebagai label cluster. Meskipun hal tersebut dibenarkan, namun pelabelan cluster yang lebih umum akan memudahkan melakukan analisis terutama dalam domain pengetahuan [10], [11]. Penelitian dengan menggunakan semantic dalam mendapatkan keyword dengan fuzzy association rule mining dapat memperluas makna dari suatu kata dalam dokumen [2],[12],[13]. Pada penelitian sebelumnya [13], penggunaan semantic hipernim dan sinonim untuk mendapatkan keyword dapat meningkatkan nilai akurasi, karena mampu mengelompokkan suatu dokumen dengan karakteristik yang sama. Selain semantic menggunakan hipernim dan sinonim, penggunaan holonim dalam pengelompokan dokumen mampu mengurangi dimensional yang tinggi [13]–[15]. Dengan menggunakan holonim permasalahan mengenai dokumen yang terdiri dari beberapa term yang berbeda namun memiliki makna yang sama dapat terselesaikan [14]. Selain penggunaan semantic word hipernim dan sinonim penggunaan semantic word holonim untuk mendapatkan suatu cluster label juga dapat memperluas makna dari cluster label, sehingga dapat diperoleh suatu meaningful