JURNAL SAINS DAN SENI POMITS Vol. 3, No. 2, (2014) ISSN: 2337-3539 (2301-9271 Print) A-41 Abstrak—Metode Latent Semantic Analysis(LSA) adalah suatu metode yang mampu merepresentasikan hubungan antar dokumen teks melalui term serta dapat menilai kemiripan antar dokumen teks tersebut. Namun, metode LSA hanya menilai kemiripan antar dokumen teks melalui frekuensi term yang ada pada masing-masing dokumen teks sehingga mempunyai kelemahan yaitu tidak memperhatikan urutan atau tata letak term tersebut yang secara tidak langsung berpengaruh pada makna yang terkandung pada masing-masing dokumen. Oleh karena itu, digunakan model Bayesian pada term yang dihasilkan oleh LSA tersebut untuk menjaga dan memperhatikan urutan termdalam mendeteksi kemiripan antar dokumen teks sehingga struktur kalimat tetap terjaga dan mendapat hasil penilaian kemiripan antar dokumen teks yang lebih baik.Jika terdapat dua dokumen yang saling salin (copy) namun struktur kalimatnya diubah dan dibandingkan pada LSA dengan menggunakan cosine similarity maka akan didapat hasil yang sama seperti kedua dokumen ini dibandingkan tanpa perubahan struktur kalimat, sedangkan jika dibandingkan dengan menggunakan model Bayesian pada term, dokumen-dokumen yang mempunyai perbedaan struktur kalimat akan diperlakukan berbeda. Kata Kunci—model Bayesian, LSA, document similarity I. PENDAHULUAN IGITALISASI pengolahan informasi dengan menggunakan komputer menghasilkan fasilitas yang copy-paste (salin-tempel) sehingga memudahkan pengolahan data sesuai dengan kebutuhan misalnya memenuhi tugas kuliah, membuat paper, dan sebagainya. Hal ini tentu berpotensi terjadinya tindakan penjiplakan suatu karya tulis tanpa ijin seperti plagiat. Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri [1]. Namun jika pengambilan karangan tersebut disertai dengan mencantumkan asalnya yaitu nama pengarang serta judul karangan yang diambil, maka tindakan pengambilan karangan tersebut bukan merupakan plagiat. Oleh karena itu, perlu dilakukan pemeriksaan kemiripan antar dokumen, dalam hal ini adalah dokumen teks, sebagai langkah validasi (validation) keterkaitan dan hubungan antar dokumen tersebut. Salah satu metode untuk mendeteksi kemiripan antar dokumen teks yaitu LSA (Latent Semantic Analysis) [2] namun metode ini menilai kemiripan antar dokumen teks dengan memanfaatkan frekuensi kemunculan dari term [3] yang dihasilkannya sehingga keakuratan penilaian masih belum tentu ketika dokumen teks yang sedang dibandingkan memiliki tata letak term yang berbeda yang secara tidak langsung berpengaruh pada makna kalimat pada dokumen yang memuat term tersebut. Penelitian yang dilakukan oleh Georgina Cosma menyebutkan bahwa pada deteksi plagiat (plagiarism detection), LSA membutuhkan algoritma atau metode lain sebagai pelengkap dan penyempurna untuk hasil deteksi yang lebih baik [4]. Oleh karena itu, dibutuhkan lebih banyak penelitian untuk metode deteksi plagiat dalam mencapai tujuan yaitu mendapatkan kesempurnaan metode deteksi plagiat pada dokumen teks. Pada tugas akhir ini, akan digunakan kombinasi antara metode LSA dengan konsep model Bayesian. Metode LSA digunakan untuk mencari hubungan, keterkaitan, atau kesamaan antar dokumen teks dengan menghasilkan term kemudian pada langkah selanjutnya akan digunakan model Bayesian untuk menentukan pola (urutan) termpada dokumen yang diuji. II. DASAR TEORI A. Latent Semantic Analysis (LSA) LSA adalah suatu metode untuk menemukan hubungan, keterkaitan, dan kemiripan antar dokumen-dokumen, penggalan dari dokumen-dokumen, dan kata-kata yang muncul pada dokumen-dokumen dengan memanfaatkan komputasi statistik untuk menggali dan merepresentasikan konteks yang digunakan sebagai sebuah arti kata untuk sejumlah corpus yang besar. Corpus adalah kumpulan teks yang memiliki kesamaan subjek atau tema. Metode LSA menerima masukan (input) berupa dokumen teks yang selanjutnya akan dibandingkan kata-kata unik yang digunakan atau yang ada pada dokumen kemudian direpresentasikan sebagai matriks, dimana indeks dokumen- dokumen yang dibandingkan merupakan kolom matriks, kata unik (term) merupakan baris matriks, dan nilai dari matriks tersebut adalah banyaknya atau frekuensi kemunculan sebuah kata (term) di setiap dokumen [5]. Contoh corpus pada LSA dapat dilihat pada Gambar 1 dan bentuk matriks yangdihasilkan LSA dapat dilihat padaTabel 1. Sistem Deteksi Kemiripan Antar Dokumen Teks Menggunakan Model Bayesian Pada Term Latent Semantic Analysis (LSA) Danang Wahyu Wicaksono, Mohammad Isa Irawan, dan Alvida Mustika Rukmi Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia e-mail: alvidamustika@ymail.com D