JOURNAL OF INTELLIGENT SYSTEMS AND COMPUTATION 28 Abstrak—Proses information extraction dapat dilakukan pada beberapa macam media, seperti artikel berita, tanya jawab dan sebagainya. Penelitian ini mencoba untuk melakukan information extraction pada media soal ujian yang dilengkapi dengan jawaban. Pendekatan pengolahan informasi yang dibahas dalam penelitian ini adalah information extraction berbasis rule. Informasi yang hendak digali adalah informasi data soal ujian beserta jawabannya. Inputan dalam penelitian ini pasangan file soal dan jawaban milik Cambridge. Ada beberapa mata pelajaran yang digunakan, yaitu Biologi, Matematika dan Ekonomi. Jenis soal yang digunakan juga ada beberapa macam, yaitu pilihan ganda dan esai. Hasil penelitian ini diharapkan bisa menjadi media pembelajaran. Penelitian dilakukan dengan menggunakan sebanyak 100 pasang data soal dan ujian. Sistem akan menerima 2 inputan file dengan format PDF. Kedua file ini merupakan pasangan soal dan jawaban. Proses yang diakukan adalah file akan dirubah menjadi 2, yaitu file HTML dan file PNG. File HTML mengandung semua teks soal dan file PNG mengandung semua gambar dari soal. Sistem akan mengambil teks dan gambar dari masing-masing soal dan jawaban berdasrkan rule yang sudah ditentukan. Penentuan rule dilakukan secara manual dengan mempelajari pola-pola data yang tedapat dalam tag HTML. Setelah proses ekstraksi, soal dan jawaban ini dipasangkan sesuai dengan nomor urutnya masing-masing. Pasangan soal dan jawaban ini kemudian akan disimpan ke dalam database. Dari hasil penelitian, tingkat akurasi yang didapatkan adalah sekitar 46%. Kendala utama yang dihadapi adalah format soal dan jawaban yang tidak strandar sehingga menimbulkan kesulitan dalam proses ekstraksi informasi. Kata Kunci—Information Extraction, berbasis rule, soal ujian, PDF. I. PENDAHULUAN andemi virus corona (Covid-19) pada tahun 2020 sangat mengganggu aktivitas banyak orang. Banyak orang yang mengurangi aktivitas di luar rumah bila me-mungkinkan. Kantor-kantor ada yang menerapkan pola kerja WFH (Work From Home) untuk bagian/divisi yang tidak memerlukan kontak fisik langsung untuk melaksanakan pekerjaannya, kadang juga ada yang menerapkan masuk kantor bergantian untuk menghindari penyebaran virus. Stefanus Nico Soenardjo, Teknologi Informasi Institut Sains dan Teknologi Terpadu Surabaya, Surabaya, Jawa Timur, Indonesia (e-mail: stefanusnicoid@gmail.com) Gunawan, Teknik Informatika Institut Sains dan Teknologi Terpadu Surabaya, Surabaya, Jawa Timur, Indonesia (e-mail: gunawan@stts.edu) Salah satu bagian kehidupan yang sangat terdampak oleh pandemi corona dalam hal ini adalah sektor pendidikan. Dalam keadaan normal, kegiatan pendidikan dilakukan dengan bertatap muka antara pengajar (guru) dengan para murid dalam ruangan kelas di sekolah. Dalam satu kelas ada beberapa murid, jumlah murid beragam, tergantung kebijakan dari masing-masing sekolah. Ditengah pandemi corona ini, pertemuan fisik antara guru dan murid ini tidak memungkinkan, karena berisiko besar untuk menyebarkan virus corona. Oleh karena itu kegiatan belajar dan mengajar dilakukan melalui jalan online. Beberapa aplikasi yang biasa digunakan seperti: Zoom, Micosoft Team dan Google Class. Dengan pembelajaran online maka guru cenderung akan lebih banyak untuk memberikan tugas lebih banyak bila dibandingkan pembelajaran konvensional. Pemberian penjelasan mengenai suatu materi secara online mempunyai kekurangan bila dibandingkan dengan secara tatap muka langsung. Supaya murid lebih bisa menangkap materi maka diberi tugas yang porsinya lebih banyak, dengan harapan bila murid lebih banyak praktek maka akan lebih mengerti materi yang diberikan. Bagian yang diharapkan bisa dibantu dalam penelitian ini adalah mengenai pemberian latihan atau ujian online. Di internet ada banyak soal ujian yang disediakan oleh beberapa institusi pendidikan. Dataset yang digunakan dalam penelitian adalah milik soal ujian milik Cambridge International Examinations. Dataset ini terdiri dari pasangan file PDF soal dan jawaban. Penelitian ini berusaha untuk melakukan pendekatan berbasis rule untuk mengekstrak soal serta jawaban kemudian berusaha untuk memasangkan antara soal dengan jawabannya. Pasangan antara soal dan jawaban ini kemudian disimpan dalam suatu bentuk database dan kemudian bisa dimanfaatkan lebih lanjut untuk kegiatan pembelajaran. Lebih lanjut, pada penelitian ini penekanan dilakukan pada pengambilan atau ekstraksi informasi dari soal-soal ujian dalam bentuk pdf. Data soal yang digunakan milik Cambridge International Examinations, yang berupa pasangan antara file Question Paper (QP) dan file Mark Scheme (MS). File QP berisi soal-soal ujian, sedangkan file MS berisi jawaban. Di dalam file QP terdapat beberapa macam jenis soal, seperti esai, pilihan ganda, ada yang memakai gambar dan sebagainya. Pendekatan yang akan dilakukan untuk melakukan Information Extraction (IE) dalam penelitian ini adalah dengan meggunakan sistem berbasis rule. Penentuan rule akan melihat kondisi dari struktur dokumen yang terdapat pada file soal dan jawaban. Hasil ekstraksi yang berupa pasangan antara soal dan INFORMATION EXTRACTION BERBASIS RULE UNTUK SOAL UJIAN Stefanus Nico Soenardjo, Teknologi Informasi Institut Sains dan Teknologi Terpadu Surabaya, Gunawan, Teknik Informatika Institut Sains dan Teknologi Terpadu Surabaya P