ISSN 1858 - 4667 JURNAL LINK Vol 16/No. 1/Februari 2012 5-1 PEMANFAATAN TEKNIK SUPERVISED UNTUK KLASIFIKASI TEKS BAHASA INDONESIA Cahyo Darujati 1 , Agustinus Bimo Gumelar 2 1,2 Sistem Informasi, Fakultas Ilmu Komputer, Universitas Narotama Surabaya 1 cahyo.darujati@narotama.ac.id, 2 agustinus.bimo@narotama.ac.id Abstrak Penelitian ini membahas tentang pengembangan dan pemanfaatan aplikasi untuk mengklasifikasi teks bahasa Indonesia secara terpandu (supervised), dengan menerapkan metode naive bayes. Dari algoritma dan metode naive bayes, akan diuji dengan dua masukan yaitu menggunakan stop word removal dan tanpa menggunakan stop word removal (sebagaimana adanya). Algoritma tersebut juga dilakukan pengujian validasi silang (cross validation) sebanyak 10 kali (10 folds validation), yaitu dengan membagi data uji menjadi 10 sub sample. Untuk rasio data uji dimulai dari 10%, kemudian naik 10% setiap kali dilakukan pengujian sampai 90%. Tiap rasio dilakukan 10 kali pengujian dan keluaran (output) yang diinginkan adalah nilai dari accuracy rata-ratanya. Dari percobaan yang telah dilakukan penerapan metode naive bayes classifier dalam klasifikasi berita memiliki akurasi yang baik terbukti pada data uji yang bersumber dari situs web menghasilkan nilai akurasi dengan persentase yang tinggi yaitu lebih dari 87 % untuk data latih yang besar (100 artikel). Klasifikasi dapat berjalan cukup baik pada data latih lebih dari 150 dokumen. Kata kunci : Text Mining, Naive Bayes, Klasifikasi Teks Bahasa Indonesia, Supervised Learning 1. Pendahuluan Perkembangan informasi global menuntut penyediaan informasi tersebut dapat dinikmati/dirasakan secara cepat dan tepat. Informasi yang diinginkan dapat diakomodasi oleh teknologi komputer khususnya internet. Karena internet-lah yang menjadi acuan utama beberapa penelitian mengenai penambangan data berbasis teks dilakukan atau yang sering disebut dengan text mining. Seringkali pada web, dimana kita mencari suatu informasi tertentu, banyak hal yang penting justru terlewatkan, malah yang tidak penting banyak terserap. Untuk mengatasi gap tersebut, salah satu teknik text mining adalah dengan mengklasifikasikan teks tersebut sesuai dengan karakteristik, fitur, maupun kelasnya berdasarkan aturan baku bahasa yang akan diolah, dalam penelitian ini bahasa Indonesia yang digunakan sebagai sumber acuan. Riset mengenai pemrosesan teks sebenarnya telah lama dilakukan, untuk peringkasan teks misalnya, telah mulai diteliti sejak tahun 1958 oleh peneliti dari IBM. Meredup di tahun 70-80 dan kembali bergairah di akhir tahun 90-an sampai sekarang. Internet menjadikan pemrosesan teks kembali bangkit. Jumlah dokumen teks yang ada di internet tumbuh dengan sangat pesat. Menurut riset dari Barkeley, ukuran internet di tahun 2002 mencapai 532,897 Terabytes dengan sekitar 41.7%- nya adalah teks (dan ini berupa teks bukan multimedia). Dokumen teks ini dapat berupa static page, dynamic page, file dokumen, email, forum online dan blog. Dokumen teks juga semakin berperan sejalan munculnya web 2.0 yang mendorong pengguna internet untuk membuat dan berbagi content (dua yang paling terkenal: blog dan social network). Aliran content segar dengan volume besar per harinya membanjiri internet. Volume yang besar membuat pengguna internet semakin sulit memperoleh informasi yang sesuai dengan apa yang diinginkan. Oleh karenanya dibutuhkan teknik tertentu untuk mengolah dokumen teks. Inilah fungsi dari pengolahan teks (text processing). Hasil pencarian yang dilakukan oleh mesin pencari didasarkan pada algoritma tertentu yang membaca isi atau deskripsi tentang sumber informasi. Dengan demikian, penentuan keabsahan suatu sumber merupakan keahlian tersendiri yang harus dimiliki oleh pengguna. Di pihak lain, perpustakaan yang juga merupakan penyedia sumber informasi senantiasa mengelola sumber informasi dengan melakukan klasifikasi. Klasifikasi ini membantu pengguna untuk mengalokasi sumber informasi secara fisik dan mendapatkan informasi tentang sumber informasi tersebut secara sederhana. Didasari alternatif tersebut, maka dalam penelitian ini akan dibangun suatu aplikasi perangkat lunak yang dapat melakukan klasifikasi data teks terhadap sumber informasi teks elektronik yang diunggah secara terpandu dan selektif. Metode yang digunakan untuk mendukung proses klasifikasi ini adalah Naïve-Bayes, dan TF-IDF. Klasifikasi yang dilakukan berdasarkan 3 (tiga) kelas yang ditentukan, yaitu komputer teknologi, kesehatan dan olahraga.