Identifikasi Opinion Leader pada Twitter dengan Teknik Pembelajaran Mesin Ali Akbar Septiandri, Ayu Purwarianti Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Bandung, Indonesia 13509001@std.stei.itb.ac.id, ayu@stei.itb.ac.id AbstrakIdentifikasi opinion leader dalam berbagai komunitas banyak dilakukan karena pengaruhnya dalam proses penentuan suatu keputusan, tidak terkecuali pada media sosial seperti Twitter. Penelitian ini dilakukan dengan memanfaatkan fitur-fitur yang dipetakan dari karakteristik opinion leader seperti nilai komunikasi eksternal, accessibility, dan adaptasi inovasi. Nilai-nilai tersebut didapatkan dari jumlah tweet, follower, following, listed, rata-rata retweet, persentase tweet berupa reply, dan persentase tweet berupa retweet. Fitur-fitur tersebut digunakan untuk melakukan identifikasi opinion leader dengan pendekatan pembelajaran mesin. Adapun algoritma pembelajaran mesin yang dibandingkan adalah Naïve Bayes, pohon klasifikasi, Artificial Neural Network (ANN), dan Support Vector Machine (SVM). Pada pembentukan model dengan 10- fold cross validation, nilai F 1 terbaik adalah 0.941 dengan algoritma pohon klasifikasi, sedangkan nilai F 1 terbaik pada klasifikasi data uji adalah 1 dengan menggunakan algoritma SVM. Model terbaik yang didapatkan kemudian diuji konsistensinya dengan menggunakan dataset yang terdiri dari 8 kata kunci yang mewakili 8 topik yang berbeda. Nilai F 1 terbaik yang didapatkan dari pengujian konsistensi model adalah 0.8, sedangkan nilai F 1 terburuk yang didapatkan adalah 0.286. Kata kunciANN; klasifikasi; Naïve Bayes; opinion leader; pembelajaran mesin; pohon klasifikasi; SVM; Twitter I. PENDAHULUAN Media sosial telah memperkenalkan electronic Word of Mouth (eWOM) sebagai suatu mekanisme transfer informasi yang dapat dilihat sebagai graf berarah ganda. Istilah Word of Mouth (WOM), sebagai bentuk awal dari electronic Word of Mouth, didefinisikan sebagai pertukaran ide, opini, atau informasi antarorang tentang produk, jasa, atau perusahaan dalam kurun waktu tertentu [1]. Model ini digunakan karena keunggulannya dalam hal efisiensi biaya, tingkat kepercayaan, keterbukaan antarorang, dan adanya interaksi yang cukup tinggi di dalamnya [2]. Dalam model tersebut, terdapat orang- orang yang disebut sebagai opinion leader, yaitu orang-orang yang mempunyai pengaruh besar dalam proses penentuan keputusan seseorang dalam suatu komunitas [2]. Beberapa penelitian telah dilakukan untuk mencari tahu pengaruh opinion leader dalam suatu komunitas, misalnya dalam reduksi risiko penyebaran HIV [3] atau pada kampanye pemilihan umum [4]. Seorang opinion leader juga dapat dimanfaatkan sebagai bagian dari strategi pemasaran. Dalam e- Business, opinion leader digunakan untuk memberikan pengaruh terkait promosi penjualan produk, analisis perilaku pelanggan, pola penyebaran informasi, hingga inovasi model bisnis [5]. Makalah ini dibagi menjadi beberapa bagian. Bagian II berisi tentang penelitian terkait tentang identifikasi opinion leader pada berbagai media, sedangkan pada Bagian III pembahasan difokuskan pada penjelasan karakteristik Twitter. Pembahasan lalu dilanjutkan pada Bagian IV yang berisi analisis solusi yang diajukan. Bagian V berisi konstruksi korpus yang digunakan dalam penelitian ini, lalu eksperimen yang dilakukan beserta analisis hasil eksperimen dibahas pada Bagian VI. Di akhir makalah ini, diberikan kesimpulan dan saran untuk penelitian selanjutnya. II. PENELITIAN TERKAIT Penelitian untuk identifikasi opinion leader telah banyak dilakukan dengan berbagai pendekatan. Dalam [6] dilakukan identifikasi opinion leader dengan menggunakan formula yang didasarkan pada interaksi orang lain terhadap seorang pengguna pada suatu bulletin board system. Pengukuran paling sederhana yang dapat menunjukkan tingkat pengaruh seseorang kepada orang lain adalah dengan melihat balasan-balasan terhadap apa yang disampaikannya. Semakin banyak balasan yang diberikan, maka orang tersebut dapat dikatakan semakin berpengaruh. Dalam Twitter, balasan ini dapat dilihat dalam bentuk “reply” atau “RT” (retweet). Di sisi lain, pendekatan pembelajaran mesin juga dilakukan dalam [7] dan [8]. Dalam [7] digunakan fitur degree centrality, closeness centrality, dan betweenness centrality untuk mengidentifikasi opinion leader pada suatu forum produk elektronik. Fitur-fitur ini menunjukkan seberapa sering seorang pengguna berkomunikasi secara langsung dengan pengguna lainnya (degree centrality) yang diukur dari rasio jumlah tetangga dibanding seluruh simpul yang ada; kedekatan antarpengguna (closeness centrality) yang diukur dari invers jumlah jarak terdekat dari satu simpul ke seluruh simpul lainnya; dan frekuensi ditemukannya seorang pengguna sebagai simpul yang dilalui dalam jarak terdekat setiap pasang pengguna (betweenness centrality) yang diukur dengan jumlah kemunculan seorang yang diukur dari pengguna dalam jalur