PERBANDINGAN ALGORITMA HIDDEN MARKOV MODEL DENGAN MAXIMUM ENTROPY UNTUK PART-OF- SPEECH TAGGING BAHASA INDONESIA PADA TWITTER Indra Maulana STKIP INVADA Cirebon ABSTRACT Twitter social media is now an alternative source of information for the public that the realtime. Technological developments cover all aspects of life, wrong in the field of language. The purpose of the purpose to support these needs, then developed the tools Natural Language Processing (NLP), one of which is POS Tagger, also one of the utilization of technology in the field of language is the program (Part-of- Speech). From research that has been done using 10 tweet result of HMM algorithm 58,8% pass rate while Maximum Entropy algorithm which equal to 85,8%. This shows that Maximum Entropy is better for tagging Indonesian POS on twitter. In addition to this there is a 12.5% word not found in the corpus. HMM and Maximum Entropy can tag a word that is not in the corpus but not very good. Keyword : Twitter, POS tagging, Hidden Markov Model, Maximum Entropy 1. PENDAHULUAN a. Latar Belakang Di Indonesia, pengguna internet aktif di media sosial peringkat 29 di dunia[1]. Twitter, Facebook, Path, Instagram merupakan salah satu dari sosial media tersebut. Twitter salah satu situs sosial media yang memungkinkan penggunanya untuk menulis tentang berbagai hal yang terjadi dalam kehidupan sehari-hari. Twitter mempunyai pengguna aktif sebesar 11% dari pengguna social media di Indonesia[1]. CEO twitter mengatakan bahwa jumlah pengguna Twitter di Indonesia sudah mencapai angka 50 juta. Tidak disebutkan, apakah itu jumlah pengguna aktif atau secara keseluruhan[2]. Seiring dengan perkembangan teknologi, setiap orang dituntut untuk dapat memanfaatkan perkembangan tersebut dalam kehidupan sehari-hari. Perkembangan teknologi mencakup semua aspek kehidupan, salah satunya dalam bidang bahasa. Bahasa memiliki peranan yang sangat penting dalam pertukaran informasi dan atau menerima informasi. Membaca adalah salah satu cara untuk pertukaran informasi. Maksud tujuan untuk menunjang kebutuhan tersebut, maka dikembangkan perangkat-perangkat Natural Language Processing (NLP), salah satunya adalah POS Tagger, juga salah satu pemanfaatan teknologi dalam bidang bahasa adalah adanya program (Part-of-Speech). POS tagging adalah proses otomatis menetapkan kategori leksikal untuk setiap tanda atau kata dalam kalimat sesuai dengan definisi serta konteksnya. Tagging sangat berguna, yang dapat mempengaruhi banyak aplikasi dari Natural Language Processing seperti parsing, ekstraksi informasi, disambiguasi makna dll. Tagging berarti menetapkan kelas gramatikal yaitu bagian yang tepat dari tag setiap kata dalam kalimat. Menetapkan tag untuk setiap kata dari teks dengan manual sangat memakan waktu[3]. Ada beberapa pendekatan yang bisa digunakan untuk tagging, yaitu pendekatan berdasarkan aturan (rule based), pendekatan probabilistik, dan pendekatan berbasis transformasi (transformation based).