Seminar Nasional Aplikasi Teknologi Informasi (SNATi) 2015 Yogyakarta, 6 Juni 2015 B-39 ISSN: 1907 – 5022 Segmentasi Motion Data untuk Model Viseme Dinamis Bahasa Indonesia Nurul fadillah Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember Surabaya, Indonesia email: nurul479@gmail.com Surya Sumpeno Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember Surabaya, Indonesia surya@ee.its.ac.id Arifin Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember Surabaya, Indonesia arifin@dsn.dinus.ac.id Mauridhi Hery Purnomo Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember Surabaya, Indonesia hery@ee.its.ac.id Abstract— Animasi bicara yang natural sangat dibutuhkan bagi Industri animasi. Penelitian animasi berbicara Bahasa Indonesia masih sangat jarang dilakukan, sehingga kami melakukan penelitian bidang ini. Animasi bicara yang natural sangat ditentukan oleh kesesuaian antara pengucapan dan viseme (visual phoneme) tersebut. Viseme adalah bentuk bibir ketika mengucapkan suatu fonem atau bunyi bahasa. Penelitian ini bertujuan untuk melakukan segmentasi data motion capture (mocap) sehingga diperoleh data fitur setiap suku kata dari kalimat bahasa Indonesia yang diucapkan oleh seorang model. Data yang kami rekam adalah wajah seorang model yang telah dipasang 37 penanda aktif diwajahnya dengan mengucapkan 5 kalimat Bahasa Indonesia. Teknologi yang digunakan untuk merekam adalah teknologi motion capture (mocap). Data fitur yang diperoleh digunakan sebagai dasar pada proses klasterisasi, sehingga dihasilkan kelas-kelas viseme dinamis Bahasa Indonesia. Penelitian ini menjelaskan beberapa kegiatan yaitu perekaman data mocap, konversi data mocap menjadi sistem koordinat dunia, proses normalisasi posisi 3D, proses segmentasi, dan visualisasi. Hasil penelitian menunjukan bahwa data fitur hasil proses segmentasi dapat diterapkan pada proses klaterisasi dengan kualitas klaster yang baik. I. PENDAHULUAN Di bidang animasi tuntutan penyajian animasi yang realitis dan pantas serta menarik semakin tinggi. Animasi harus dapat menampilkan karakter yang sangat mirip dengan di dunia nyata. Ada banyak produk animasi di Indonesia. Salah satunya film yang menarik perhatian kami adalah 'Meraih Mimpi', yang merupakan film animasi Indonesia yang diproduksi oleh Infinite Frameworks (IFW)[7]. Film meraih mimpi merupakan film pertama animasi 3D yang ditayangkan di bioskop. Sayangnya, animasi bibir dalam film ini tidak baik. Bibir animasi tidak terlihat realistis karena viseme tidak melakukan sinkronisasi dengan fonem yang diucapkan pada saat berbicara[7]. Oleh karena itu, penting untuk menentukan artikulasi viseme Indonesia. Hingga saat ini di Indonesia belum ada yang menyelenggarakan standar viseme Bahasa Indonesia. Pada penelitian ini kami bertujuan untuk melakukan segmentasi data motion capture. Segmentasi data motion capture merupakan masalah penting dan sering diteliti di bidang visi komputer[5]. Viseme merupakan representasi visual dari fonetik wicara[6]. Data yang digunakan pada segmentasi motion capture merupakan data hasil dari motion capture yaitu sampling dan rekaman gerak manusia, hewan, benda mati sebagai data 3D[2]. Hasil dari rekaman motion capture tersebut berupa file C3D[2]. Data C3D ini yang akan di proses untuk segmentasi motion capture. Segmentasi motion capture merupakan salah satu langkah awal untuk mendapatkan proses klaterisasi, sehingga diperlukan langkah yang tepat untuk mencari lokalisasi bibir pada saat animasi bicara untuk mendapatkan suku kata dari kalimat yang diucapkan[7][8]. Kami mencari nilai dari gerakkan bibir pada saat animasi berbicara untuk mendapatkan suku kata (syallabel). Nilai yang didapatkan dari gerakkan bibir akan digunakan untuk data koordinat dunia dari motion capture. Data koordinat dunia yang didapat digunakan untuk proses normalisasi 3D. Proses normalisasi 3D merupakan proses data koordinat dunia yang datanya berubah-berubah pada gerakkan bibir dengan nilai yang tetap terhadap gerakkan kepala yang bertujuan untuk merubah dari data sistem koordinat dunia ke data sistem koordinat lokal. Setelah didapat dari proses normalisasi 3D dilakukan segmentasi motion capture yang merupakan proses dari hasil normalisasi yang akan digunakan untuk mencari frame pada awal dan akhir setiap pengucapan suku kata. Untuk lebih jelas akan diterangkan di metode diusulkan. II. METODE DIUSULKAN Metode penelitian ini secara garis besar digambarkan pada gambar 1. Ada beberapa proses yang akan dilakukan dalam penelitian ini. Pertama yaitu menentukan jenis kamera