- 30 - Uluslararası Sosyal Araştırmalar Dergisi / The Journal of International Social Research Cilt: 12 Sayı: 62 Yıl: 2019 www.sosyalarastirmalar.com Volume: 12 Issue: 62 Year: 2019 Issn: 1307-9581 http://dx.doi.org/10.17719/jisr.2019.3025 SORANÎ KÜRTÇESİNE KARŞI KURMANCÎ KÜRTÇESİ: DENEYSEL BİR KARŞILAŞTIRMA * SORANI KURDISH VERSUS KURMANJI KURDISH: AN EMPIRICAL COMPARISON Osman ASLANOĞLU * ** Öz Dil biliminde ve dil işleme çalışmalarında corpus kelimesi ile kastedilen, çok sayıdaki metnin düzenli ve yapısal olarak bir arada bulunması durumudur. Corpuslar tek dilli veya çok dilli olabilir. Corpus yöntemiyle dil metinlerinin pek çok açıdan analizini kolayca yapmak mümkün olmaktadır. Çevirisini yaptığımız bu makalede de Kürtçenin Kurmancî ve Soranî lehçelerinde yapılan kıyaslama sonuçları üzerinde durulmaktadır. Lehçe ve yazımdaki çeşitlilikle birlikte kaynak azlığı, Kürtçenin işleyişindeki iki ana sorundur. Bu çalışmada Kürtçenin iki ana Lehçesi olan Soranî ve Kurmancî için (i)metin corpusu oluşturarak (ii)istatistiksel ve kurala dayalı bakış açılarıyla bu iki lehçe arasındaki bazı imlasal, fonolojik ve morfolojik farklılıkların önemini vurgulayarak bu iki probleme değinmeyi amaçlıyoruz. Anahtar Kelimeler: Sorani, Kurmanci, Corpus, Alfabe, Kürtçe, Karşılaştırma. Abstract In linguistics and language processing studies, with the term corpus that is implied the situation of coexisting of numerous texts as regularly and structurally. Corpuses may be monolingual or multilingual. With the corpus method, it’s possible to analyse language texts easily in many ways. In this article, which we translated, the outcomes of making comparison in the Kurmanji and Sorani dialects of Kurdish are emphasized. Resource scarcity along with diversity–both in dialect and script–are the two primary challenges in Kurdish language processing. In this paper we aim at addressing these two problems by (i) building a text corpus for Sorani and Kurmanji, the two main dialects of Kurdish, and (ii) highlighting some of the orthographic, phonological, and morphological differences between these two dialects from statistical and rule-based perspectives. Keywords: Sorani, Kurmanji, Corpus, Alphabet, Kurdish, Compare. 1. Giriş 20-30 milyon civarı ana dilini konuşan insanlar olmasına rağmen (Haig and Matras, 2002; Hassanpour et al., 2012; Thackston, 2006b; Thackston, 2006a), Kürtçe internette mevcut olan tek dilbilimsel kaynağın işlenmemiş metin olarak en az kaynaklı diller arasında yer almaktadır(Walther and Sagot, 2010). Kaynak azlığı sorununun yanı sıra Kürtçenin farklılığı -hem lehçe hem de yazı dizgesinde- Kürtçenin işleyişindeki bir diğer ana zorluktur (Gautier, 1998; Gautier, 1996; Esmaili, 2012). Aslında Kürtçe, bi-standart(iki lehçeli dil) olarak düşünülmektedir(Gautier, 1998; Hassanpour et al., 2012): Arap alfabeyle yazılan Soranî lehçesi ve Latin alfabesiyle yazılan Kurmancî lehçesi. Bu iki lehçeyi ayıran özellikler fonolojik, sözcüksel ve morfolojik yapılardır. Bu yazıda Kürdistan Üniversitesindeki Kürtçenin işleyişindeki bu iki zorluğu ele almayı amaçlayan bir projenin 1 ilk sonuçlarını rapor edeceğiz. Bu yazıda Özellikle: 1. Kürtçe dilinin ilk kısmen kapsamlı ve alenen mevcut metin corpusunun oluşumunu rapor ediyoruz, 2. Soranî Kürtçesi ve Kurmancî Kürtçesi arasındaki imlasal, fonetik ve morfolojik farklılıklardaki bazı kavrayışları sunuyoruz. Bu yazının geri kalanı aşağıdaki gibi düzenlenmiştir. İkinci bölümde, ilk önce kısa bir şekilde Kürtçeyi ve iki ana lehçesini tanıtıyoruz, sonra kurallara dayalı bir (a.k.a. corpus independent (bağımsız corpus)) bakış açısından iki lehçenin farklılıklarının önemini vurguluyoruz. Daha sonra, 3.bölümde Pewan metin corpusunu sunduktan sonra, 4.bölümde bunu iki lehçe arasındaki istatistiksel bir karşılaştırmayı yapmak için kullanıyoruz. Bu yazı 5.bölümde sonlandırılıyor. * Bu makale “Sorani Kurdish versus Kurmanji Kurdish: An Empirical Comparison” başlığıyla Kyumars Sheykh Esmaili, Shahin Salavati, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pages 300–305, Sofia, Bulgaria, August 4-9 2013. c 2013 Association for Computational Linguistics’de yayınlanmış olup, yazarlarının izniyle Türkçeye çevrilmiştir. ** Dr. Öğr. Üyesi, Dicle Üniversitesi, Edebiyat Fakültesi, Doğu Dilleri ve Edebiyatları Bölümü, Kürt Dili ve Edebiyatı Anabilim Dalı, aslanogluosman@gmail.com. 1 https://eng.uok.ac.ir/esmaili/research/klpp/en/main.htm.