SEMINAR NASIONAL TEKNOLOGI INFORMASI & KOMUNIKASI TERAPAN 2013 (SEMANTIK 2013) ISBN: 979-26-0266-6 Semarang, 16 November 2013 13 Algoritma Latent Semantic Analysis (LSA) Pada Peringkas Dokumen Otomatis Untuk Proses Clustering Dokumen Ardytha Luthfiarta 1 , Junta Zeniarja 2 , Abu Salam 3 1,2,3 Fakultas Ilmu Komputer, Teknik Informatika, Univ. Dian Nuswantoro Email: 1 ardytha.luthfiarta@dsn.dinus.ac.id, 2 junta@dsn.dinus.ac.id , 3 abu.salam@dsn.dinus.ac.id ABSTRAK Teknologi pengklasteran dokumen memiliki peran yang signifkan dalam kemajuan teknologi informasi, diantaranya mempunyai peranan penting dalam pengembangan web di bidang akurasi kategorisasi keyword otomatis pada search engine, kategorisasi berita untuk surat kabar elektronik, peningkatan rating situs dengan teknologi Search Engine Optimization (SEO) dan sangat memungkinkan untuk diimplementasikan dalam berbagai teknologi informasi lainnya, oleh karena itu diperlukan penelitian untuk meningkatkan ketepatan akurasi dalam pengklasteran dokumen. Dalam penelitian ini Algoritma Latent Semantic Analysis (LSA) dapat melakukan proses reduksi kalimat dengan lebih baik dibandingkan algoritma Feature Based sehingga mendapatkan hasil akurasi proses clustering dokumen yang lebih akurat.Beberapa tahapan clustering dalam penelitian ini, yaitu preprocessing, peringkas dokumen otomatis dengan metode fitur, peringkas dokumen otomatis dengan LSA, pembobotan kata, dan algoritma clustering.Hasil penelitian menunjukkan tingkat akurasi menggunakan peringkas dokumen otomatis dengan LSA dalam proses clusteringdokumen mencapai 71,04 %yang diperoleh pada tingkat peringkas dokumen otomatisdengan LSA 40% dibandingkan dengan hasil clustering tanpa peringkas dokumen otomatis yang hanya mencapai tingkat akurasi 65,97 %. Kata kunci:Text Mining, Clustering, Peringkas Dokumen Otomatis, LSA 1. PENDAHULUAN Proses peringkas dokumen adalah sebuah proses untuk melakukan pengurangan volume dokumen menjadi lebih ringkas, dengan cara mengambil inti dokumen dan membuang term yang dianggap tidak penting tanpa mengurangi makna sebuah dokumen.[1][2], terdapat dua tipe pembuatan suatu ringkasan yang mengambil bagian terpenting dari teks aslinya yaitu abstrak dan ekstrak. Abstrak menghasilkan sebuah interprestasi terhadap teks aslinya, dimana sebuah kalimat akan ditransformasikan menjadi kalimat yang lebih singkat[3], sedangkan ekstraksi merupakan ringkasan teks yang diperoleh dengan menyajikan kembali bagian tulisan yang dianggap topik utama tulisan dengan bentuk yang lebih disederhanakan [4][5], dalam penelitian ini akan digunakan fitur ringkasan ekstrak sebagai model peringkas dokumen otomatis. Penerapan teknik peringkasan dokumen untuk clustering dokumen memiliki dampak yang signifikan, hal ini dikarenakan proses clustering dokumen seringkali terkendala oleh besarnya volume dokumen yang ada. Permasalahan itu muncul karena volume dokumen yang besar identik dengan besarnyamatrik term-dokumen, padahal tidak semua term relevan dan terkadang muncul term-redundan dan hal inilah yang menyebabkan proses clustering menjadi tidak optimal. Penelitian ini bertujuan untuk optimalisasi proses clustering dokumen dengan melakukan reduksi matrik term-dokumen. Di dalam model peringkas dokumen otomatis dapat digunakan algoritma Feaure Based dan Latent Semantic Analysis (LSA) untuk proses reduksi kalimat[7].Penelitian yang sudah pernah dilakukan dengan menggunakan algoritma Feature Based dalam proses peringkas dokumen otomatis sebagai feature reduction untuk proses clustering dokumen dihasilkan tingkat akurasi yang lebih baik dibandingkan dengan proses clustering menggunakan teknik feature reduction standar [8][9]. Peringkas Dokumen menggunakan Algoritma LSA diharapkan dapat melakukan proses reduksi kalimat dengan baik dibandingkan algoritma Feature Based sehingga dapat lebih meningkatkan akurasi proses clustering dokumen. 2. TINJAUAN PUSTAKA 2.1 Dokumen Clustering Clustering dokumen adalah proses pengelompokan dataset dokumen merujuk pada similarity (kemiripan) pola datadokumen ke dalam suatu cluster, sedangkan yang tidak memiliki kemiripan akan dikelompokkan ke dalam cluster yang lain.[9]. K-means merupakan salah satu algoritma klaster yang paling terkenal dan sering digunakan untuk menyelesaikan permasalahan clustering yaitu dengan mengelompokkan sejumalah k cluster (dimana jumlah k telah di definisikan sebelumnya) [10]. Langkah-langkah algoritma K-means adalah sebagai berikut: 1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk 2. Bangkitkan k centroid (titik pusat klaster) awal secara random. 3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua objek yaitu Euclidean Distance dan kesamaan Cosine. 4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya. 5. Tentukan posisi centroid baru (k C) dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama.