C ¸ ok-Etiketli Film T¨ ur¨ u Sınıflandırması ˙ Ic ¸in T¨ urkc ¸e Konu Modellemesi Veri K¨ umesi A Turkish Topic Modeling Dataset For Multi-label Classification of Movie Genre Elgun Jabrayilzade ˙ Izmir Y¨ uksek Teknoloji Enstit¨ us¨ u Bilgisayar M¨ uhendisli˘ gi elgunjabrayilzade@std.iyte.edu.tr Algın Poyraz Arslan ˙ Izmir Y¨ uksek Teknoloji Enstit¨ us¨ u Bilgisayar M¨ uhendisli˘ gi alginarslan@std.iyte.edu.tr Hasan Para ˙ Izmir Y¨ uksek Teknoloji Enstit¨ us¨ u Bilgisayar M¨ uhendisli˘ gi hasanpara@std.iyte.edu.tr Ozan Polatbilek ˙ Izmir Y¨ uksek Teknoloji Enstit¨ us¨ u Bilgisayar M¨ uhendisli˘ gi ozanpolatbilek@iyte.edu.tr Erhan Sezerer ˙ Izmir Y¨ uksek Teknoloji Enstit¨ us¨ u Bilgisayar M¨ uhendisli˘ gi erhansezerer@iyte.edu.tr Selma Tekir ˙ Izmir Y¨ uksek Teknoloji Enstit¨ us¨ u Bilgisayar M¨ uhendisli˘ gi selmatekir@iyte.edu.tr ¨ Ozetc ¸e — ˙ Istatistiksel konu modellemesi, g¨ ozetimsiz bir s ¸ekilde dok ¨ umanlara konu ataması yapmayı amac ¸lar. Gizli Dirichlet Ayırımı (GDA) konu modellemesinde standart modeldir. Uzun dok ¨ umanlardan olus ¸an derlemlerde y ¨ uksek bas ¸arım g¨ osterirken kısa metinlerde bas ¸arılı sonuc ¸lar vermez. Kısa metinler ¨ uzerinde konu modellemesi sosyal medyanın rol¨ u nedeniyle y ¨ ukselis ¸tedir. Dolayısıyla hem uzun hem de kısa metinler ¨ uzerinde konu tespiti yapan yaklas ¸ımlar aranmaktadır. Bununla birlikte, aynı kesin referans kategorilere sahip uzun ve kısa metinlerin birlikte yer aldı˘ gı veri k¨ umeleri eksikli˘ gi g¨ or¨ ulmektedir. ¨ Onerilen c ¸alıs ¸mada, filmlerin hem kısa tanımlarını hem de uzun altyazılarını ic ¸eren bir T¨ urkc ¸e film veri k¨ umesi 1 sunulmaktadır. Ayrıca sunulan veri k¨ umesi ic ¸in GDA dok¨ uman-konu veya Doc2Vec g¨ osterimlerini girdi olarak alan bir Tam Ba˘ glı Sinir A˘ gı (TBSA) kullanılarak c ¸ok-etiketli film t ¨ ur¨ u sınıflandırması sonuc ¸ları verilmektedir. Anahtar Kelimeler—kısa metin sınıflandırma, uzun metin sınıflandırma, metin sınıflandırma veri k ¨ umesi, GDA, Doc2Vec, tam ba˘ glı sinir a˘ gı, film, altyazı, ¨ ozet. Abstract—Statistical topic modeling aims to assign topics to documents in an unsupervised way. Latent Dirichlet Allocation (LDA) is the standard model for topic modeling. It shows good performance on document collections, documents being relatively long texts but it has poor performance on short texts. Topic modeling on short texts is on the rise due to the potential of social media. Thus, approaches that are able to find topics on short texts as well as long texts are sought. However, there is a lack of datasets that include both long and short texts which have the same ground-truth categories. In this work, we release a Turkish movie dataset which contain both short film descriptions and long subscripts where film genre can be considered as topic. Furthermore, we provide multi-label movie genre classification results using a Feed Forward Neural Network (FFNN) taking LDA document-topic or Doc2Vec dense representations. Keywords—short text classification, long text classification, text 1 https://cloud.iyte.edu.tr/index.php/s/dUb03a6GiuiDynS TABLO I: Veri K¨ umesi ˙ Istatistikleri. T¨ ur Film Sayısı Animasyon 979 Macera 2532 Komedi 6444 Aile 1426 Fantezi 1807 Romantik 4544 Suc ¸ 3377 Dram 11957 Gerilim 5273 Western 642 Aksiyon 3738 Korku 2639 Tarih 1005 Biyografi 1112 Gizem 1986 Bilim-Kurgu 1905 Savas ¸ 1133 M¨ uzikal 1194 Spor 497 Belgesel 831 Film-Noir 192 Haber 27 Sınıf Sayısı Film Sayısı 1 3612 2 6196 3 5888 4 3108 5 1206 6 372 7 93 8 26 9 1 10 1 Toplam 20503 Ortalama Uzunluk ¨ Ozet 76.20 Altyazı 4671.36 classification dataset, LDA, Doc2Vec, feed-forward neural networks, movie, subtitle, plot. I. GIRIS ¸ ˙ Istatistiksel konu modellemesi, dok¨ umanların kategorilendirmesinde kullanılan temel g¨ ozetimsiz yaklas ¸ımdır. Dok¨ umanların ait oldu˘ gu kategorilerin belirlenmesi, dok¨ umanları sınıflandırmak ¨ uzere ¨ ustveriler ¨ uretilmesini ve bu ¨ ustveriler kullanılarak hedefe y¨ onelik veri da˘ gıtımını sa˘ glar. ¨ Orne˘ gin ekonomi alanındaki haberler ekonomi ile ilgilenen kullanıcılara da˘ gıtılır. Sosyal medyanın temel iletis ¸im aracı haline geldi˘ gi g¨ un¨ um¨ uzde kısa metinlerin analiz edilerek ¨ on plana c ¸ıkan konuların belirlenmesi g¨ undemin takip edilmesini, bu metinler ¨ uzerinden otomatik 978-1-7281-7206-4/20/$31.00 ˜ c ˜ 2020 IEEE Authorized licensed use limited to: ULAKBIM UASL - IZMIR YUKSEK TEKNOLOJI ENSTITUSU. Downloaded on February 23,2022 at 07:48:59 UTC from IEEE Xplore. Restrictions apply.