Prosiding ANNUAL RESEARCH SEMINAR 2016 6 Desember 2016, Vol 2 No. 1 ISBN : 979-587-626-0 | UNSRI http://ars.ilkom.unsri.ac.id 405 Peringkasan Otomatis Dengan Ekstraksi Informasi Untuk Dokumen Berita Ter-cluster Ridwan Ilyas Program Studi Informatika Universitas Jenderal Achmad Yani Cimahi, Indonesia ilyas@lecture.unjani.ac.id Fajri Umbara Program Studi Informatika Universitas Jenderal Achmad Yani Cimahi, Indonesia fajri.umbara@gmail.com Abstract—Keterbukaan dan kemudahan mengakses informasi membuat jumlah informasi menjadi sangat banyak. Banyaknya informasi untuk satu hal yang sama menimbulkan information overload. Masalah tersebut muncul dalam berbagai bidang seperti berita, dokumen karya ilmiah dan media sosial. Dibutuhkan sistem yang mampu membantu pengguna untuk menghasilkan berita yang lengkap dengan cara membangun sistem peringkasan otomatis. Pada penelitian ini diajukan membentuk serangkayan standar dalam tahapan peringkasan berita dengan konfirgurasi dinamis pada masing-masing tugas (clustering, ekstraksi informasi dan peringkasan). Dengan membangun sistem peringkasan dari mulai proses clustering, ekstraksi informasi dan peringkasan diharapkan menghasilkan hasil ringkasan yang utuh, lengkap dan memiliki tingkat keterbacaan tinggi. Keywords: peringkasan otomatis, ekstraksi informasi, clustering, berita online I. LATAR BELAKANG Peringkasan otomatis merupakan bagian yang tidak terpisahkan dari ilmu Pemrosesan Bahasa Alami/ Natural Language Processing(NLP). Ringkasan didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks asal dan mengandung informasi penting dari teks asal dengan panjang tidak lebih dari setengah teks aslinya atau lebih sedikit dari itu [1]. Dengan definisi tersebut, maka peringkasan memiliki tiga karakteristik yaitu sumber peringkasan bisa satu atau lebih dokumen, peringkasan harus mengandung infomasi penting dan hasilnya relatif singkat. Secara umum peringkasan terbagi atas dua teknik yaitu ekstraksi dan abstaksi, dilihat dari bagaimana data hasil peringkasan disajikan. Peringkasan dengan teknik ekstraksi menghasilkan informasi-informasi penting yang merupakan bagian dari sumber asal berita. Peringkasan dengan teknik abstraksi menghasilkan struktur bahasa yang baru dari teks asal seperti halnya kita menceritakan ulang suatu kejadian. Teknik yang paling populer/banyak digunakan adalah teknik ekstraksi. Terdapat banyak metode peringkasan otomatis dengan teknik ekstraksi. Awalnya penelitian berpusat pada teknik mengelola dokumen dengan beberapa pendekatan seperti berdasarkan frekuensi dari kata-kata yang ada pada teks asal [2] atau berdasarkan dari posisi kalimat [3]. Setelah itu berkembang teknik peringkasan menggunakan pembelajaran mesin/machine learning yang digunakan untuk menilai kalimat-kalimat berdasarkan fitur tertentu seperti panjang kalimat, keberadaan kata-kata penting, keberadaan kata-kata untuk tema tertentu dan fitur dari paragraph [4]. Dengan alasan meningkatkan akurasi dan hasil yang lebih spesifik, maka dilakukan eksperimen untuk melakukan peringkasan otomatis dengan memakai teknik Ekstraksi Informasi/Information Extraction(IE). Dikembangkan sebuah sistem yang mengadopsi ekstraksi informasi untuk peringkasan otomatis yang diberi nama RIPTIDES yang bekerja peringkasan berita berdasarkan scenario template yang dipilih oleh pengguna [5]. Penelitian lain mencoba melakukan peringkasan kumpulan dokumen dengan pendekatan novel berdasarkan cross-document Information Extraction [6] dengan hasil peningkatan pada ROUGE-2 recall dan ringkasan yang lebih diterima oleh pembaca (0.78 lebih baik TAC Content score dan 0.11 lebih baik Readability/Fluency score). Pada penelitian dengan sistem RIPTIDES [5], peringkasan sangat bergantung pada template yang dipilih oleh pengguna, jika ingin merangkum untuk topik yang lain diperlukan proses untuk membentuk template baru. Belum dimungkinkan agar sistem mampu memilih template otomatis atau adanya template generik tapi dengan konstrain tertentu.