Eğiticili ve Geleneksel Terim Ağırlıklandırma Yöntemleriyle Duygu Analizi Supervised and Traditional Term Weighting Methods for Sentiment Analysis Mahmut Çetin Bilgisayar Mühendisliği Bölümü Yıldız Teknik Üniversitesi İstanbul, Türkiye cetinmahmut@msn.com M. Fatih Amasyalı Bilgisayar Mühendisliği Bölümü Yıldız Teknik Üniversitesi İstanbul, Türkiye mfatih@ce.yildiz.edu.tr ÖzetçeDuygu analizi bir metin sınıflandırma problemi olup popülerliği ve ticari getirileri sebebiyle günümüzde üzerinde çokça çalışılan bir konudur. Metin sınıflandırmadaki en önemli nokta metinlerin nasıl temsil edilmesi gerektiğidir. Geleneksel eğiticisiz yöntemler yerine terimlerin sınıf dağılımlarını da hesaba katan eğiticili yöntemler literatürde sıklıkla kullanılmaya başlanmıştır. Bu çalışmada Türkçe Twitter gönderilerinden oluşan 2 veri kümesi üzerinde bu yöntemler çeşitli boyutlarda karşılaştırılmıştır. Sonuç olarak eğiticili yöntemlerin daha başarılı ve daha uygulanabilir oldukları görülmüştür. Anahtar Kelimeler; Duygu analizi, sentiment analizi, metin sınıflandırma, terim ağırlıklandırma, örüntü tanıma, makine öğrenmesi. Abstract—Sentiment analysis is a text classifying problem and because of its popularity and commercial revenue, it has been widely studied. The most important point in text categorization is how to represent the texts. Instead of traditional methods, supervised term weighting methods which include terms’ distribution of classes has been started to be used. In this study, these methods are compared in different dimensions on two datasets which consist Turkish Twitter posts. In conclusion, supervised term weighting methods are found more successful and applicable. Keywords; sentiment analysis, text classification, term weighting methods, pattern recognitio, machine learning. I. GİRİŞ “X’in Y filmindeki performansı harika”, “X’in fiyatları çok yüksek”, “sonunda benimde X’im var” vb. sosyal medya mesajlarının analizi gün geçtikçe daha çok firmanın ilgisini çekmektedir. Bir filme gitmeden önce kullanıcı yorumlarını okumak, bir telefonu almadan önce onu kullananların fikirlerini araştırmak günümüzde ticaretinin genellikle ilk aşamaları haline gelmiştir. Firmaların reklamları kadar diğer kullanıcıların yorumları bir ürün hakkındaki algımızı şekillendirmektedir [X]. Bu önceden de böyleydi belki ama artık diğer kullanıcıların yorumlarına erişmek çok daha kolay olduğu için etkisi daha da güçlüdür. Bu durum ticari doğal dil işleme çalışmalarına olan ilgiyi arttırmıştır. Firmalar kendi ürünlerinden bahsedilen sosyal medya mesajlarından kamuoyu algılarını ölçmek istemektedirler. Bununla birlikte sosyal medyadaki veri çok büyük olduğundan bu işlemin elle yapılması oldukça güçtür. Bunun yerine bir firmadan ya da ürününden bahseden sosyal medya mesajının olumlu ya da olumsuz yargı içerdiğinin otomatik olarak bulunması fikri doğmuştur. Bu problem, bir doğal dil işleme problemi olarak formüle edilirse gelen bir mesajın hangi sınıfa ait olduğunun bulunması haline gelir ki bu bir metin sınıflandırma uygulamasıdır ve doğal dil işleme literatürü bu konuda oldukça geniş bir çözümler havuzuna sahiptir. Metin sınıflandırma 2 temel alt probleme indirgenebilir. İlki metinlerin nasıl temsil edileceği, ikincisi ise hangi algoritma ile sınıflandırma yapılacağıdır. Sosyal medya mesajlarından üzerinde en çok çalışılanı popülerliği, çeşitliliği ve erişim kolaylığı nedeniyle Tweet’lerdir. Sahip olduğu bu avantajların yanında 140 karakterler kısıtlanmış olması, kendine ait bir jargonunun olması, yazım hatalarının çok fazla olması gibi doğal dil işleme yöntemlerini zorlayan yönleri de bulunmaktadır. 140 karakterle kısıtlanmış olması, mesajdan elde edilebilecek veri miktarını azaltmakta, kendine ait bir jargonunun olması ve yazım hatalarının çok olması ise morfolojik analizi zorlaştırmaktadır. Literatürde metinleri temsil etmek için en çok kullanılan yöntemler kelimelerin köklerinin, karakter ngramların metinlerdeki geçiş sayıları ve bunların ağırlıklandırılmış halleridir. Kelime köklerinin kullanılabilmesi için bir morfolojik çözümleyiciye ihtiyaç varken, karakter ngramları doğrudan kullanılabilmektedir. Geleneksel yöntemlerde kullanılan terim frekansı (tf), terimin o metinde kaç kere geçtiğini ifade eder. Çok sıklıkla kullanılan terimlerin etkisinin azaltılması için terim frekansının ters doküman frekansı ile ağırlıklandırılmış hali (tfidf) kullanılmaktadır. Eğiticili terim ağırlıklandırma yöntemlerinde ise terimlerin sınıflarda geçme dağılımları da işleme katılır. Literatürde bu 978-1-4673-5563-6/13/$31.00 ©2013 IEEE