Eğiticili ve Geleneksel Terim Ağırlıklandırma
Yöntemleriyle Duygu Analizi
Supervised and Traditional Term Weighting Methods
for Sentiment Analysis
Mahmut Çetin
Bilgisayar Mühendisliği Bölümü
Yıldız Teknik Üniversitesi
İstanbul, Türkiye
cetinmahmut@msn.com
M. Fatih Amasyalı
Bilgisayar Mühendisliği Bölümü
Yıldız Teknik Üniversitesi
İstanbul, Türkiye
mfatih@ce.yildiz.edu.tr
Özetçe— Duygu analizi bir metin sınıflandırma problemi olup
popülerliği ve ticari getirileri sebebiyle günümüzde üzerinde
çokça çalışılan bir konudur. Metin sınıflandırmadaki en önemli
nokta metinlerin nasıl temsil edilmesi gerektiğidir. Geleneksel
eğiticisiz yöntemler yerine terimlerin sınıf dağılımlarını da
hesaba katan eğiticili yöntemler literatürde sıklıkla kullanılmaya
başlanmıştır. Bu çalışmada Türkçe Twitter gönderilerinden
oluşan 2 veri kümesi üzerinde bu yöntemler çeşitli boyutlarda
karşılaştırılmıştır. Sonuç olarak eğiticili yöntemlerin daha
başarılı ve daha uygulanabilir oldukları görülmüştür.
Anahtar Kelimeler; Duygu analizi, sentiment analizi, metin
sınıflandırma, terim ağırlıklandırma, örüntü tanıma, makine
öğrenmesi.
Abstract—Sentiment analysis is a text classifying problem and
because of its popularity and commercial revenue, it has been
widely studied. The most important point in text categorization is
how to represent the texts. Instead of traditional methods,
supervised term weighting methods which include terms’
distribution of classes has been started to be used. In this study,
these methods are compared in different dimensions on two
datasets which consist Turkish Twitter posts. In conclusion,
supervised term weighting methods are found more successful
and applicable.
Keywords; sentiment analysis, text classification, term
weighting methods, pattern recognitio, machine learning.
I. GİRİŞ
“X’in Y filmindeki performansı harika”, “X’in fiyatları
çok yüksek”, “sonunda benimde X’im var” vb. sosyal medya
mesajlarının analizi gün geçtikçe daha çok firmanın ilgisini
çekmektedir. Bir filme gitmeden önce kullanıcı yorumlarını
okumak, bir telefonu almadan önce onu kullananların
fikirlerini araştırmak günümüzde ticaretinin genellikle ilk
aşamaları haline gelmiştir. Firmaların reklamları kadar diğer
kullanıcıların yorumları bir ürün hakkındaki algımızı
şekillendirmektedir [X]. Bu önceden de böyleydi belki ama
artık diğer kullanıcıların yorumlarına erişmek çok daha kolay
olduğu için etkisi daha da güçlüdür. Bu durum ticari doğal dil
işleme çalışmalarına olan ilgiyi arttırmıştır. Firmalar kendi
ürünlerinden bahsedilen sosyal medya mesajlarından
kamuoyu algılarını ölçmek istemektedirler. Bununla birlikte
sosyal medyadaki veri çok büyük olduğundan bu işlemin elle
yapılması oldukça güçtür. Bunun yerine bir firmadan ya da
ürününden bahseden sosyal medya mesajının olumlu ya da
olumsuz yargı içerdiğinin otomatik olarak bulunması fikri
doğmuştur. Bu problem, bir doğal dil işleme problemi olarak
formüle edilirse gelen bir mesajın hangi sınıfa ait olduğunun
bulunması haline gelir ki bu bir metin sınıflandırma
uygulamasıdır ve doğal dil işleme literatürü bu konuda
oldukça geniş bir çözümler havuzuna sahiptir.
Metin sınıflandırma 2 temel alt probleme indirgenebilir.
İlki metinlerin nasıl temsil edileceği, ikincisi ise hangi
algoritma ile sınıflandırma yapılacağıdır.
Sosyal medya mesajlarından üzerinde en çok çalışılanı
popülerliği, çeşitliliği ve erişim kolaylığı nedeniyle
Tweet’lerdir. Sahip olduğu bu avantajların yanında 140
karakterler kısıtlanmış olması, kendine ait bir jargonunun
olması, yazım hatalarının çok fazla olması gibi doğal dil işleme
yöntemlerini zorlayan yönleri de bulunmaktadır. 140 karakterle
kısıtlanmış olması, mesajdan elde edilebilecek veri miktarını
azaltmakta, kendine ait bir jargonunun olması ve yazım
hatalarının çok olması ise morfolojik analizi zorlaştırmaktadır.
Literatürde metinleri temsil etmek için en çok kullanılan
yöntemler kelimelerin köklerinin, karakter ngramların
metinlerdeki geçiş sayıları ve bunların ağırlıklandırılmış
halleridir. Kelime köklerinin kullanılabilmesi için bir
morfolojik çözümleyiciye ihtiyaç varken, karakter ngramları
doğrudan kullanılabilmektedir.
Geleneksel yöntemlerde kullanılan terim frekansı (tf),
terimin o metinde kaç kere geçtiğini ifade eder. Çok sıklıkla
kullanılan terimlerin etkisinin azaltılması için terim frekansının
ters doküman frekansı ile ağırlıklandırılmış hali (tfidf)
kullanılmaktadır.
Eğiticili terim ağırlıklandırma yöntemlerinde ise terimlerin
sınıflarda geçme dağılımları da işleme katılır. Literatürde bu
978-1-4673-5563-6/13/$31.00 ©2013 IEEE