Türkçe Dil Modellerinin Performans Kar¸ sıla¸ stırması Performance Comparison of Turkish Language Models Eren Dogan ∗ , M. Egemen Uzun ∗ , Atahan Uz ∗ H. Emre Seyrek ∗ , Ahmed Zeer ∗ , Ezgi Sevi ∗ H. Toprak Kesgin ∗ , M. Kaan Yuce ∗ , M. Fatih Amasyali ∗ ∗ Cosmos AI Research Group, Department of Computer Engineering, Yildiz Technical University, Istanbul, Turkey Özetçe —Dil modellerinin neredeyse her türlü görevi yerine getirmede sa˘ gladıkları geli¸ smeler, sadece ara¸ stırmacıların de˘ gil toplumun da ilgisi çekmi¸ s ve artık birer ürün haline gelmelerini sa˘ glamı¸ stır. Ticari olarak çok ba¸ sarılı dil modelleri bulunmakta- dır. Ancak kullanıcılar maliyet, veri gizlili˘ gi ya da regülasyonlar sebebiyle açık kaynaklı dil modellerini tercih edebilmektedir. Ancak sayıları her geçen gün artan bu modellerin Türkçe için performansları konusunda kapsamlı bir kar¸ sıla¸ stırma bulunma- maktadır. Bu çalı¸ smada literatürdeki bu bo¸ slu˘ gun kapatılması hedeﬂenmi¸ stir. Seçilen 7 dil modelinin ba˘ glamda ö˘ grenme ve soru cevaplama kabiliyetlerine göre kar¸ sıla¸ stırması yapılmı¸ stır. Bu kapsamda ba˘ glamda ö˘ grenme ve soru cevaplama için Türkçe veri kümeleri hazırlanmı¸ s, hem otomatik hem de insan de˘ ger- lendirmesi yapılmı¸ stır. Elde edilen sonuçlar soru cevaplama için çok dilli modellerin Türkçeye uyarlanmasında talimat veri küme- leriyle e˘ gitimden önce ön e˘ gitime devam etmenin daha ba¸ sarılı oldu˘ gunu ve ba˘ glamda ö˘ grenme kabiliyeti ile soru cevaplama kabiliyetinin çok ili¸ skili olmadı˘ gını göstermektedir. Anahtar Kelimeler—yapay zeka, do˘ gal dil i¸ sleme, büyük dil mo- delleri, üretici modeller, ba˘ glamda ö˘ grenme, insan de˘ gerlendirmesi Abstract—The developments that language models have provi- ded in fulﬁlling almost all kinds of tasks have attracted the atten- tion of not only researchers but also the society and have enabled them to become products. There are commercially successful language models available. However, users may prefer open- source language models due to cost, data privacy, or regulations. Yet, despite the increasing number of these models, there is no comprehensive comparison of their performance for Turkish. This study aims to ﬁll this gap in the literature. A comparison is made among seven selected language models based on their contextual learning and question-answering abilities. Turkish datasets for contextual learning and question-answering were prepared, and both automatic and human evaluations were conducted. The results show that for question-answering, continuing pretraining before ﬁne-tuning with instructional datasets is more successful in adapting multilingual models to Turkish and that in-context learning performances do not much related to question-answering performances. Keywords—artiﬁcial intelligence, natural language processing, large language models, generative models, in context learning, human evaluation I. G ˙ IR ˙ I¸ S Günümüzde Türkçe dahil birçok dil için oldukça ba¸ sarılı ticari dil modelleri bulunmaktadır. Ancak, bu dil modellerini etkin bir ¸ sekilde kullanmak çe¸ sitli sebeplerden (maliyet, güven- lik vb.) dolayı tercih edilmemektedir. Bu nedenle, akademide ve sektördeki birçok ara¸ stırmacı, açık kaynaklı dil modellerine yönelmektedir. Ancak, herkesin eri¸ simine açık olan bu dil modellerinin Türkçe’deki yeterliliklerine yönelik yeterli bir analiz bulunmamaktadır. Bu çalı¸ smada, literatürdeki bo¸ slugun kapatılması hedeﬂenmi¸ stir. Bu kapsamda seçilen açık kaynaklı Türkçe dil modellerinin farklı kar¸ sıla¸ stırma ölçütlerine göre performansları incelenmi¸ stir. Dil modellerinin kar¸ sıla¸ stırılması üzerine farklı kaynaklar bulunmaktadır. Ba˘ glamda ö˘ grenme dil modellerini kar¸ sıla¸ stır- mak için sıklıkla kullanılan bir ölçüttür [1]. Buna ek olarak, soru cevaplama da her türlü metinsel görevi ortak bir formatta ele almaya imkan verdi˘ gi ve kullanıcı etkile¸ simine çok uygun oldu˘ gu için kar¸ sıla¸ stırmalarda kullanılan bir di˘ ger ölçüttür. Bu ölçütleri kullanan LLM Leaderboard [1] ve Chat Arena [2] gibi kıyaslama platformları ara¸ stırmacıları yönlendirmede çok etkili olmaktadır. Ancak Türkçe diline özgü de˘ gillerdir. Benzer ¸ sekilde çok fazla sayıda kabiliyeti test etmek için hazırlanmı¸ s BigBench [3], Big Glue [4], AGI Eval [5] gibi de˘ gerlendirme veri setleri de Türkçe odaklı de˘ gildir. Bu eksiklerin azaltılması için yapılan ara¸ stırmada Türkçe dil modellerinin kar¸ sıla¸ stırılması adına üç temel çıktı su- nulmaktadır: 1) Ba˘ glamda ö˘ grenme veri kümeleri, 2) Soru cevaplama veri kümeleri, 3) Modellerin hem otomatik hem de oylama usulü kar¸ sıla¸ stırma sonuçları. Bu çıktılarla, henüz ba¸ slangıç a¸ samalarında olan açık kaynaklı Türkçe dil modeli ara¸ stırmalarına katkı sa˘ glanması hedeﬂenmi¸ stir. II. KAR¸ SILA¸ STIRILAN DIL MODELLERI A. Kar¸ sıla¸ stırılan Dil Modellerinin Seçimi Çalı¸ smada performans kar¸ sıla¸ stırılmasına tabi tutulan mo- deller, ara¸ stırmanın belirtilen amacına yönelik olması için belirli ölçütlere göre seçilmi¸ stir. Seçilen modeller 51.0 GB sistem RAM’i, 15.0 GB T4 GPU ve 166.8 GB Disk kapasiteli donanımlara sahip bir sanal makinede test edilmi¸ stir. Yalnızca belirtilen donanımlara sahip sanal makinenin çalı¸ stırabildi˘ gi modeller kıyaslamaya dahil edilmi¸ stir. Seçilecek modellerde GPT tabanlı bir yapıda , büyüklük olarak 1,5 ve 7,5 milyar parametre aralı˘ gında ve açık kay- naklı olma ¸ sartı aranmı¸ stır. Kar¸ sıla¸ stırılacak bütün modeller Türkçe performanslarına göre kıyaslanacakları için ilk olarak Türkçe metin anlama ve çıktı üretebilme kabiliyetleri olan arXiv:2404.17010v1 [cs.CL] 25 Apr 2024