GEMA Online ® Journal of Language Studies Volume 18(4), November 2018 http://doi.org/10.17576/gema-2018-1804-14 eISSN: 2550-2131 ISSN: 1675-8021 216 Pendekatan Teknik Pengecaman Entiti Nama Bagi Capaian Berita Jenayah Bahasa Melayu Saidah Saad saidah@ukm.edu.my Fakulti Teknologi dan Sains Komputer, Universiti Kebangsaan Malaysia Mohamed Kamil Mansor kamilnizam@gmail.com Fakulti Teknologi dan Sains Komputer, Universiti Kebangsaan Malaysia ABSTRAK Pengekstrakan maklumat merupakan satu proses bagi mendapatkan konsep penting dalam mewakili kandungan teks dari dokumen yang tidak berstruktur. Pada masa kini, terdapat banyak dokumen yang tidak berstruktur seperti teks berita, artikel blog, forum, tweet serta mikro blog dari rangkaian sosial. Dokumen-dokumen ini amat sukar untuk difahami oleh komputer. Oleh itu, kajian berkaitan pengekstrakan maklumat menjadi sangat penting bagi mengatasi permasalah ini. Salah satu teknik pengekstrakan yang banyak digunakan ialah pengecaman entiti nama. Kajian ini dijalankan bagi mengimplementasikan teknik pengecaman entiti nama dari sumber dokumen berita jenayah bahasa Melayu. Objektif utama kajian ini adalah untuk membangunkan sistem prototaip model pengekstrakan maklumat berita jenayah dalam bahasa Melayu dengan menggunakan teknik pengecaman entiti nama melalui pendekatan berasaskan peraturan. Kajian ini dilakukan dengan mewujudkan korpus berita jenayah dalam bahasa Melayu yang diperolehi dari sumber arkib berita BERNAMA. Korpus ini kemudiannya diteliti secara manual oleh pakar bahasa bagi mengecam entiti nama seperti individu, organisasi, lokasi, tarikh, masa, kewangan, peratusan, jenayah dan senjata. Dalam masa yang sama, sistem prototaip dibangunkan serta diuji dengan korpus yang sama dan hasil dari pengujian ini dibandingkan dengan keputusan pakar. Secara keseluruhannya, ujian sistem prototaip ini menunjukkan hasil yang baik dengan nilai dapatan bagi recall sebanyak 78.67%, manakala bagi precision ialah sebanyak 71.11% dan F-measure sebanyak 74.7%. Hasil dari kajian ini diharap dapat menyumbang kepada pengetahuan mengenai keberkesanan teknik pengecaman entiti nama bagi berita jenayah bahasa Melayu dan seterusnya dapat membantu para penyelidik, polis, peguam serta pihak berkuasa yang terlibat dalam bidang jenayah menyelesaikan jenayah dengan lebih cepat dan berkesan. Kata kunci: pengekstrakan maklumat; pengecaman entiti nama; Bahasa Melayu, berita jenayah, pendekatan berasaskan peraturan. Named Entity Recognition Approach for Malay Crime News Retrieval ABSTRACT Information extraction is a process of obtaining an important concept in representing the textual content of unstructured documents. At present, there are a lot of unstructured documents such as news, articles, blogs, forums, tweets and micro-blogs of social networks. These documents are very difficult to be understood by the computer. Therefore, studies on the extraction of information is very important to overcome this problem. One extraction