Submitted 07-01-2019; Revised 18-03-2019; Accepted 25-03-2019 6 JLK Vol 2, No 1 Maret 2019 Analisis Morfologi untuk Menangani Out-of- Vocabulary Words pada Part-of-Speech Tagger Bahasa Indonesia Menggunakan Hidden Markov Model Febyana Ramadhanti 1# , Yudi Wibisono 2# , Rosa Ariani Sukamto 3# #Ilmu Komputer, Universitas Pendidikan Indonesia 1 febyana.ilkom@student.upi.edu, 2 yudi@upi.edu, 3 rosa.ariani@upi.edu Abstrak─Part-of-speech (PoS) tagger merupakan salah satu task dalam bidang natural language processing (NLP) sebagai proses penandaan kategori kata (part-of-speech) untuk setiap kata pada teks kalimat masukan. Hidden markov model (HMM) merupakan algoritma PoS tagger berbasis probabilistik, sehingga sangat tergantung pada train corpus. Terbatasnya komponen dalam train corpus dan luasnya kata dalam bahasa Indonesia menimbulkan masalah yang disebut out-of-vocabulary (OOV) words. Penelitian ini membandingkan PoS tagger yang menggunakan HMM+AM (analisis morfologi) dan PoS tagger HMM tanpa AM, dengan menggunakan train corpus dan testing corpus yang sama. Testing corpus mengandung 30% tingkat OOV dari 6.676 token atau 740 kalimat masukan. Hasil yang diperoleh dari sistem HMM saja memiliki akurasi 97.54%, sedangkan sistem HMM dengan metode analisis morfologi memiliki akurasi tertinggi 99.14%. Kata kunci─Bahasa Indonesia, natural language processing, part-of-speech tagging, hidden markov model, morphological analysis, out-of-vocabulary. I. PENDAHULUAN Komunikasi merupakan salah satu hal paling penting yang dibutuhkan manusia sebagai mahluk sosial. Dalam suatu negara, masyarakat umumnya berkomunikasi dengan menggunakan bahasa resmi negara tersebut, seperti bahasa Indonesia. Bahasa Indonesia merupakan bahasa resmi negara Indonesia sebagai identitas bangsa dan lambang kebanggan nasional, yang secara luas dan umum digunakan sebagai alat komunikasi oleh 222 juta orang [1]. Meskipun bahasa Indonesia dituturkan oleh sebagian besar orang di negara tersebut, tetapi ketersediaan alat pemroses bahasa untuk kepentingan penelitian masih terbatas. Sehingga, pengembangan sistem dan penelitian dibidang pemrosesan bahasa alami, khususnya bahasa Indonesia bagi masyarakat luas menjadi penting. Natural Language Processing (NLP) merupakan suatu pengembangan teknik komputasi bahasa alami dalam menganalisis dan merepresentasikan teks ataupun lisan untuk mencapai pemrosesan bahasa seperti bahasa manusia [2]. Salah satu task dalam bidang NLP yaitu proses pelabelan kata dalam suatu kalimat masukan berdasarkan pada kategori katanya, atau yang disebut dengan part-of-speech (PoS) tagger. Karena pelabelan kelas kata secara manual akan memakan banyak waktu, melelahkan dan dengan biaya yang mahal, sehingga diperlukan pengembangan sistem PoS tagger secara otomatis. Contoh implementasi PoS tagger dalam aplikasi NLP yaitu pada aplikasi seperti grammar checker, speech recognition, question answering dan machine translation [3]. Salah satu metode PoS tagger yang telah dikembangkan [4] yaitu hidden markov model (HMM) dengan pendekatan probabilistic-based sehingga sangat tergantung pada train corpus. HMM merupakan pengembangan dari Markov Model yang mengasumsikan bahwa kata secara probabilistik bergantung pada dua atau lebih kategori kata sebelumnya. Masalah utama PoS tagger menggunakan HMM disebabkan oleh adanya out-of-vocabulary (OOV) words pada saat proses masukan [5]. OOV merupakan kata yang tidak dikenali kelas katanya oleh sistem, yang disebabkan karena kata tersebut tidak terdapat dalam train corpus tetapi ada dalam testing corpus [6]. Dengan train corpus yang terbatas dibandingkan dengan kata dalam bahasa Indonesia yang sangat banyak, tentu sangat mungkin munculnya OOV words. Diperlukan suatu metode untuk dapat menyelesaikan masalah OOV tersebut. Salah satu bentuk kata yang paling banyak muncul sebagai OOV dalam bahasa Indonesia yaitu kata yang