Jurnal Edukasi dan Penelitian Informatika (JEPIN) Vol. 1, No. 2, (2015) 133 Abstrak—Prediksi struktur sekunder protein adalah salah satu masalah yang sudah lama dibahas dalam bidang bioinformatika. Berbagai metode telah diterapkan namun masalah akurasi belum mencapai hasil yang maksimal. Penelitian ini dilakukan untuk membangun suatu model prediksi struktur sekunder protein dengan menggunakan decision tree dengan fitur kimiafisik dan posisi atom. Penentuan setiap kelas dalam proses klasifikasi struktur sekunder protein dalam penelitian ini berdasarkan pembelajaran terhadap pola masukan dalam proses pelatihan. Data diperoleh dari Protein Data Bank (PDB). Sementara informasi struktur sekunder protein diperoleh melalui alamat DSSP. Sejumlah 75809 alpha-helix (H), 41785 untuk bheta-sheet (E), dan 80346 untuk coil (C) digunakan sebagai data set pada penelitian ini. Pola masukan diperoleh melalui proses sliding window dari sekuen asam amino dengan ekstraksi fitur kimiafisik dan posisi atom. Model prediksi dengan cross validation tanpa fitur posisi atom menghasilkan nilai akurasi 90.49%, sedangkan untuk pengujian dengan unknown data akurasinya menurun menjadi 51.29%. Akurasi menggunakan fitur posisi atom sebesar 90.17% dengan cross validation dan 50.83% jika diujikan pada unknown data. Kata Kunci— asam amino, decision tree, kimiafisik, prediksi struktur protein, posisi atom I. PENDAHULUAN Protein mempunyai struktur yang sangat kompleks. Protein ini terbentuk dari urutan asam amino dengan karakteristik berbeda-beda. Secara hierarki, struktur protein dapat dikelompokkan menjadi 4 struktur utama yaitu struktur primer, struktur sekunder, struktur tersier dan struktur kuartener [1]. Struktur primer merupakan urutan asam amino yang dihasilkan dari ikatan peptida. Struktur sekunder adalah rangkaian asam amino yang membentuk struktur membelit, melingkar, dan melipat. Bentuk struktur ini dikelompokkan menjadi struktur alpha-helix (H), beetha-sheet (B), dan coil (C). Adapun struktur tersier merupakan gabungan dari berbagai struktur sekunder yang terjadi setelah proses pelipatan (folding). Peranan protein ini terlihat jelas setelah rangkaian asam amino melakukan pelipatan dalam bentuk 3 dimensi (3D) sebagai struktur tersier. Namun struktur tersier (3D) tersebut ditentukan oleh struktur sebelumnya baik struktur primer maupun struktur sekundernya. Oleh karena itu penentuan struktur sekunder protein menjadi salah satu kajian yang banyak dilakukan di bidang bioinformatika. Untuk mendapatkan sebuah struktur dari protein ditentukan secara eksperimen. Menurut Albert et al [2] struktur protein dapat ditentukan dengan eksperimen melalui penggunaan X- Ray Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. Keduanya mampu menghasilkan struktur protein sampai dengan bentuk 3 dimensinya. Dengan teknik ini sangat memungkinkan ditemukannya struktur protein baru. Namun hal ini tentu sangat sulit dan membutuhkan biaya yang tidak murah. Oleh karena itu, dengan perkembangan teknologi komputasi, untuk mendapatkan sebuah struktur protein dapat dilakukan dengan membuat model prediksi. Salah satu teknik komputasi yang dapat digunakan untuk memprediksi struktur sekunder protein adalah teknik klasifikasi decision tree dengan algoritme C4.5 yang merupakan sepuluh algoritma terbaik di bidang data mining [3] . Penelitian yang terkait dengan prediksi struktur sekunder protein dilakukan oleh Lakizadeh [4] dengan menambahkan Contact Number (CN) sebagai variabel masukan dan menggunakan sliding window dengan lebar 13. Hasil penelitian ini adalah melihat pengaruh CN dalam meningkatkan akurasi dengan menggunakan jaringan saraf tiruan propagasi balik. Penelitian ini membuktikan bahwa dengan menambahkan CN dapat meningkatkan akurasi dalam memprediksi struktur sekunder protein secara signifikan seiring penambahan dari data subsetnya. Penelitan lainnya dilakukan dengan menerapkan model Support Vector Machine (SVM) sebagai klasifikasi dan ekstraksi fitur kimiafisik. Model ini juga menggunakan sliding window dan teknik filtering [5]. Hasil dari model ini menghasilkan nilai akurasi yang lebih tinggi dengan menerapkan teknik filtering yaitu sebesar 79.52 %. Adapun model tanpa menggunakan teknik filtering hanya mampu menghasilkan akurasi sekitar 77.40 %. Prediksi struktur protein sekunder juga pernah dilakukan dengan menggunakan Hidden Markov Model (HMM) untuk kasus data yang tidak seimbang [6]. Kedua Penelitian sebelumnya memanfaatkan teknik klasifikasi dan ekstraksi ciri yang berbeda. Berdasarkan penelitian tersebut, penelitian ini diajukan untuk membuat prediksi struktur sekunder protein dengan menerapkan algoritme C4.5 dengan ekstraksi fitur kimiafisik dan posisi atom. Kemudian penelitian ini juga akan menentukan sliding window yang optimal agar didapat akurasi yang baik. Hasil dari klasifikasi akan membentuk sebuah model untuk memprediksi struktur sekunder protein. Toto Haryanto 1 , Budiman Surya Ardi 2 1,2 Departemen Ilmu Komputer Fakultas MIPA Institut Pertanian Bogor (IPB) email: totoharyanto@ipb.ac.id, budimansurya.a@gmail.com Penggunaan Fitur Kimiafisik dan Posisi Atom untuk Prediksi Struktur Sekunder Protein