Journal of Information System, Graphics, Hospitality and Technology P-ISSN : 2622-1594 Volume 03, Nomor 01, Maret 2021 E-ISSN : 2685-449X Departemen Sistem Informasi, Institut Sains dan Teknologi Terpadu Surabaya DOI : 10.37823/insight.v3i01.126 29 Abstrak—Seiring dengan berkembangnya informasi yang ada di sekitar dengan pesat, maka jenis informasi yang ada pun menjadi sangat bervariasi dan sangat banyak jumlahnya, dan akan semakin terus bertambah. Dengan kondisi tersebut, kita akan mengalami kesulitan untuk mengenali jenis dari informasi tersebut satu persatu. Oleh karena itu dengan adanya proses klasifikasi teks dan dokumen sangatlah membantu untuk memilah dan mengenali informasi-informasi apa saja yang ada, baik informasi yang lama maupun informasi yang baru dan belum pernah ditemui sebelumnya. Bertujuan untuk dapat mengidentifikasi dan mengklasifikasikan dokumen-dokumen berita dalam bahasa Indonesia ke dalam beberapa kategori sekaligus, maka dibuatlah sebuah penelitian berupa sistem untuk menangani klasifikasi dokumen teks dalam bahasa Indonesia. Sistem tersebut akan memproses berita-berita yang diberikan, dan kemudian akan memberikan 2 kategori yang paling mendekati terhadap isi dari berita tersebut. Sistem dibuat dengan menggunakan Python, memanfaatkan Doc2Vec untuk mengambil fitur dataset, dan SVM untuk melakukan klasifikasi terhadap banyak kelas. Dataset yang digunakan adalah kumpulan dokumen berupa berita-berita yang diperoleh dari CNN Indonesia tahun 2016-2017, dan terbagi dalam 5 kategori berita utama, yaitu: Politik, Ekonomi, Teknologi, Olahraga, dan Hiburan. Dikarenakan sedikitnya literatur untuk klasifikasi text dalam bahasa Indonesia, maka pada penelitian ini hanya menargetkan akurasi sebesar 70% saja. Namun dari hasil ujicoba, akurasi yang diperoleh melebihi 90%. Hasil prediksi untuk kelas dokumen pun memiliki tingkat keberhasilan yang tinggi. Dengan penggunaan dataset dan penanganan preprocessing yang tepat untuk dokumen bahasa Indonesia, maka hasil yang dicapai bisa lebih bagus dan akurat. Kata Kunci—Bahasa Indonesia, Doc2Vec, Klasifikasi Teks, Multilabel, SVM I. PENDAHULUAN etiap harinya informasi yang ada di sekitar berkembang dengan pesat. Dan perkembangan itu terjadi di berbagai segi, baik dari segi kualitas maupun kuantitas. Variasi informasinya pun selalu bertambah, sehingga akan selalu muncul jenis informasi yang baru yang mungkin tidak pernah ditemui sebelumya. Terlebih di era teknologi saat ini, persebaran informasi bisa terjadi dengan sangat cepat, sehingga informasi yang bisa didapatkan menjadi lebih banyak dan sangat variatif. Dengan pesatnya perkembangan informasi, apabila terdapat informasi yang sangat banyak, akan menjadi sulit untuk mengenali jenis dari informasi tersebut satu persatu. Oleh karena itu dengan adanya proses klasifikasi teks sangatlah membantu untuk memilah dan mengenali informasi-informasi apa saja yang ada, baik informasi yang lama maupun informasi yang baru dan belum pernah ditemui sebelumnya. Permodelan dari klasifikasi teks ada banyak, dan dipelajari lebih lanjut dalam NLP. Dalam hal pemilahan dokumen dengan jumlah yang sangat banyak, klasifikasi teks sangat membantu dengan memberikan label kepada tiap dokumen yang diproses. Namun terkadang satu label saja dapat membuat kesalahan informasi, dikarenakan terkadang ada beberapa label yang dapat diberikan untuk sebuah dokumen. Jika sebuah dokumen dapat memiliki beberapa label, maka dapat meningkatkan informasi label dokumen tersebut dan dalam proses pemilahannya dapat dimanfaatkan untuk lebih lanjut. Untuk dapat melakukan klasifikasi dan memberikan beberapa kelas / kategori untuk sebuah dokumen, digunakanlah SVM sebagai classifier. Penggunaan SVM dengan tepat memungkinkan untuk dapat melakukan klasifikasi terhadap banyak kelas, karena itu dapat dimanfaatkan dalam pemberian multilabel pada sebuah dokumen. Doc2Vec merupakan pengembangan lanjutan dari Word2Vec, apabila Word2Vec mengklasifikasi kata atau text, maka Doc2Vec berguna untuk mengklasifikasikan kumpulan kata / kalimat, dan umumnya disebut dengan dokumen. Doc2Vec Digunakan untuk menentukan nilai vector dari sebuah dokumen, dimana nilai tersebut dapat dimanfaatkan untuk kepentingan klasifikasi yang mana akan menggunakan SVM. Sehingga dengan perpaduan doc2vec dan SVM, dapat menghasilkan klasifikasi yang tepat dan jelas untuk proses klasifikasinya. Untuk itulah dikembangkan sebuah sistem untuk menangani pelabelan dokumen sehingga kumpulan dokumen yang ada dapat dikelompokkan dan dimanfaatkan sesuai dengan kategorinya.Adapun tujuan dari pemanfaatan ini adalah untuk membantu memilah dokumen berita dengan cara memberikan beberapa label / class untuk sebuah This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Multilabel Text Classification Menggunakan SVM dan Doc2Vec Classification pada Dokumen Berita Bahasa Indonesia Kristian Indradiarta Gunawan, Joan Santoso Teknik Informatika, Institut Sains dan Teknologi Terpadu Surabaya E-mail: kristian.indra.1412@gmail.com, joan@stts.edu S