NSEM: Duygu Analizi için Özgün Yığınlanmış Topluluk Yöntemi NSEM: Novel Stacked Ensemble Method for Sentiment Analysis Yunus EMRE ISIK Yönetim Bilişim Sistemleri Cumhuriyet Üniversitesi Sivas, Türkiye yeisik@cumhuriyet.edu.tr Yasin GÖRMEZ Yönetim Bilişim Sistemleri Cumhuriyet Üniversitesi Sivas, Türkiye yasingormez@cumhuriyet.edu.tr Oğuz KAYNAR Yönetim Bilişim Sistemleri Cumhuriyet Üniversitesi Sivas, Türkiye okaynar@cumhuriyet.edu.tr Zafer AYDIN Bilgisayar Mühendisliği Abdullah Gül Üniversitesi Kayseri, Türkiye zafer.aydin@agu.edu.tr ÖzetGünümüzde, insanlar fikir, görüş ve hislerini forum, sosyal medya siteleri, blog ve benzeri ortamlar aracılığı sıklıkla paylaşmaktadır. Bu nedenle bu verilere ulaşım çok kolay bir hal almıştır. Paylaşım sayısında bu denli artışın olması, pazarlama ve siyasi açından bu verilerinin analiz edilerek kullanılmasına olanak sağlamıştır. Ancak veri sayısının fazlalığından dolayı bu analizin insan eliyle yapılması pek mümkün olmamaktadır. Otomatik olarak verinin ne çeşit bir duygu içerdiğinin belirlenmesi duygu analizi yöntemleri ile gerçekleştirilmektedir. Bu yöntemlerde metin, matematiksel bir vektör olarak tanımlanır ve makine öğrenmesi yöntemleri ile sınıflandırılır. Topluluk yöntemleri duygu analizinde sıklıkla sınıflandırıcı olarak kullanılan önemli yöntemlerden biridir. Bu yöntemlerde bir sınıflandırıcının hatası başka bir sınıflandırıcı ile giderilmeye çalışılmaktadır. Duygu analizinde sınıflandırıcı kadar, metnin ifade edildiği öznitelik vektörü de önemlidir. Farklı yöntemler kullanılarak elde edilen öznitelik vektörleri, farklı yerlerde hata yapabilmektedir. Bu nedenle bu çalışmada 2 farklı sınıflandırıcıyı ve 2 farklı öznitelik çıkarma yöntemini birlikte kullanan yeni bir topluluk yöntemi olan NSEM duygu analizi için önerilmiştir. Analizler sonucunda önerilen yöntem, %79.1 doğruluk oranı ile en başarılı yöntem olmuştur. Anahtar Kelimeler—duygu analizi, topluluk yöntemi, makine öğrenmesi, yığınlanmış topluluk yöntemi. ÖzetToday, people often share their ideas, opinions and feelings through forums, social media sites, blogs and similar platforms. For this reason, access to these data has become very easy. Increase in the number of shares makes it possible to analyze and use these data in terms of marketing and politics. However, due to the large number of data, it is impossible that this analysis will be done by humans. Determination of what type of emotion is included automatically is done by sentiment analysis methods. In these methods, the text is defined as a mathematical vector and classified by machine learning methods. Ensemble methods are one of the most important methods used as classifiers in sentiment analysis. In these methods, a classifier error is tried to be solved by another classifier. In sentiment analysis, the feature vector that describes the text is as important as the classifier. Feature vectors obtained using different methods can make mistakes in different places. For this reason, in this study, NSEM is proposed for sentiment analysis, which is a new ensemble method that uses 2 different classifiers and 2 different feature extraction methods. As a result of the analysis, the proposed method is the most successful method with an accuracy rate of 79.1%. Index Termssentiment analysis, ensemble method, machine learning, stacked ensemble methods I. GİRİŞ İnternet kullanımının yaygınlaşması, günümüz toplumunda insanların sosyalleşme anlayışında büyük değişikliklere yol açmıştır. Artık dünyanın birçok yerinden farklı kişiler sosyal ağlara dâhil olarak birbirleriyle bağlantı kuruyor; her an her yerden haber, moda, magazin gibi birçok farklı konuda bilgiye hızlı bir şekilde erişebiliyor. Bilgi ediniminin yanı sıra özellikle sosyal medya, blog ve forum gibi platformların kullanıcının fikirlerini serbestçe paylaşmasına izin vermesi, bu ortamları toplumun herhangi bir olgu hakkındaki genel tavrının belirlenmesinin önünü açmıştır. Örneğin, bir marka için yapılan kalite yorumları, yeme-içme mekânı hakkında müşterilerin görüşleri veya film ile ilgili izleyicilerin eleştirileri hem diğer kullanıcıların yönlendirilmesi hem de eleştirilen noktaların giderilmesi açısından değerli bir bilgi olabilmektedir. Ancak binlerce farklı yorumun tek tek incelenerek genel tutumun çıkartılmasının imkânsız olması, bu yorumların çeşitli metin madenciliği ve makine öğrenmesi yöntemleri ile irdelenerek ilgili duygunun belirlenmesi fikrini ortaya çıkartmıştır. Duygu analizi (ya da fikir madenciliği), bireylerin çeşitli platformlarda haber, marka, toplumsal olay veya herhangi bir konu hakkında ifade ettikleri düşünce, tutum ve duygu gibi verilerin toplanarak metin madenciliği yöntemleriyle analiz edilmesi ve anlam çıkartılması işlemi olarak tanımlanabilir [1]. Analiz neticesinde konu hakkındaki genel tavrın olumlu, olumsuz veya nötr olduğuyla ilgili bilgi ortaya çıkarılabilir. Elde edilen bilginin gerek marka pazar araştırması veya müşteri memnuniyeti gibi özel sektörde gerekse toplumun tepkisini belirleme gibi kamu sektöründe kullanılabilecek kadar değerli olması araştırmacıların bu alana ilgisini arttırmış ve birçok farklı amaçla çalışma yapılmasının önünü açmıştır.