TS Corpus: Herkes için Türkçe derlem Taner Sezer * Bengü Sever Sezer ** Mersin Ünivesitesi Özet TS Corpus’un ilk versiyonu 1 Mart 2012, ikinci versiyonu 30 Ağustos 2012’de yayınlanmıştır. TS Corpus 491M+ birimden oluşan, tamamı sözcük türü (PosTAG), biçimbirimsel yapı etiketi (Morphological Tagging) ve kök sözcük (Lemma) bazında işaretlemiş, CWB/CQP altyapısıyla oluşturulmuş bir Tükçe derlemdir. Bu nitelikleriyle BNC ve COCA gibi büyük veriye sahip ve modern derlemlerle ortak özellikleri sunmaktadır. İnternet üzerinden herhangi bir ücret veya onay talep edilmeden ulaşılabilen açık erişimli bir derlemdir. Bu çalışmada TS Corpus verisinin işaretleme öncesi hazırlanması ve işaretlenmesi sürecinden başlayarak, derlemin kullanıcıya ulaşmasına kadar olan süreç anlatılmaktadır. Geliştirme süreci devam eden TS Corpus’un gelecek sürümler için hedefleri ve TS Corpus’un Türkçe bilişimsel dilbilim çalışmalarına katkısı da ele alınacaktır. Bir sonraki sürümde daha fazla veri toplamak için veri toplayıcı (crawler) yazılımları ve üstmetin bilgilerine göre işlemek için makine öğrenme (machine learning) yöntemleriyle türlere ayrıştırma yoluyla 500 milyon–1 milyar arası sözcükten oluşan bir derlem oluşturmak hedeflenmektedir. Anahtar Sözcükler: derlem, derlem dilbilim, corpus, sözcük türü işaretleme, doğal dil işleme * Mersin Üniversitesi İletişim Fakültesi tanersezerr@gmail.com ** Mersin Üniversitesi Yabancı Diller Yüksekokulu bengusever@gmail.com