Büyük Veri Problemlerine Çözüm Olarak Veri Akış Madenciliği
Data Stream Mining to Address Big Data Problems
Erdi Ölmezoğulları, İsmail Arı
Bilgisayar Mühendisliği Bölümü, Özyeğin Üniversitesi
İstanbul, Türkiye
erdi.olmezogullari@ozu.edu.tr, ismail.ari@ozyegin.edu.tr
Ömer Faruk Çelebi, Salih Ergüt
AveaLabs
İstanbul, Türkiye
{omerfaruk.celebi,salih.ergut}@avea.com.tr
Özetçe— Günümüzde bilişim dünyası faydalı bilgiye ulaşma
yolunda “büyük veri” problemleri (verinin kütlesi, hızı, çeşitliliği,
tutarsızlığı) ile baş etmeye çalışmaktadır. Bu makalede, büyük
veri akışları üzerinde İlişkisel Kural Madenciliği’nin (İKM) daha
önce literatürde yapılmamış bir şekilde “çevrimiçi” olarak
gerçeklenme detayları ile başarım bulguları paylaşılacaktır. Akış
madenciliği için Apriori ile FP-Growth algoritmaları Esper isimli
olay akış motoruna eklenmiştir. Elde edilen sistem üzerinde bu
iki algoritma kayan penceler ve LastFM sosyal müzik sitesi
verileri kullanılarak karşılaştırılmıştır. Başarımı yüksek olan FP-
Growth seçilerek gerçek-zamanlı ve kural-tabanlı bir tavsiye
motoru oluşturulması sağlanmıştır. En önemli bulgularımız
çevrimiçi kural çıkarımı sayesinde: (1) çevrimdışı kural
çıkarımından çok daha fazla kuralın, (2) çok daha hızlı ve etkin
olarak, ve (3) çok daha önceden hesaplanabileceği gösterilmiştir.
Ayrıca müzik zevklerine uygun “George Harrison⇒The Beatles”
gibi pekçok ilginç ve gerçekçi kural bulunmuştur. Sonuçlarımızın
ileride diğer büyük veri analitik sistemlerinin tasarım ve
gerçeklemesine ışık tutacağını ummaktayız.
Anahtar Kelimeler — Veri akış madenciliği, ilişkisel kural
madenciliği, karmaşık olay işleme, Apriori, FP-Growth.
Abstract—Today, the IT world is trying to cope with “big
data” problems (data volume, velocity, variety, veracity) on the
path to obtaining useful information. In this paper, we present
implementation details and performance results of realizing
“online” Association Rule Mining (ARM) over big data streams
for the first time in the literature. Specifically, we added Apriori
and FP-Growth algorithms for stream mining inside an event
processing engine, called Esper. Using the system, these two
algorithms were compared over LastFM social music site data
and by using tumbling windows. The better-performing FP-
Growth was selected and used in creation of a real-time rule-
based recommendation engine. Our most important findings
show that online association rule mining can generate (1) more
rules, (2) much faster and more efficiently, and (3) much sooner
than offline rule mining. In addition, we have found many
interesting and realistic musical preference rules such as “George
Harrison⇒Beatles”. We hope that our findings can shed light on
the design and implementation of other big data analytics
systems in the future.
Keywords — Data stream mining, association rule mining,
complex event processing, Apriori, FP-Growth.
I. GİRİŞ
Günümüzde milyarlarca kullanıcısı olan mobil iletişim
ağları, Internet hizmetleri ve duyargalar gibi pekçok yeni
teknoloji, bu teknolojilerin uygulama alanları, ve bunların
hepsini izleyen sistemler sayesinde sürekli ve yüksek-ölçekli
veriler üretilmektedir. Bu veriler kurumsal altyapılarda
defalarca kopyalanarak kütlesi artmakta ve “büyük veri"
problemlerini ortaya çıkarmaktadır. Bu problemlerle baş edip
analitik çalışmalar yapabilmek ve faydalı, sonuca yönelik
bilgilere, desenlere, kurallara ulaşabilmek için bazı kurumlar
firma içerisinde paylaşımlı olarak kullanılan bulut altyapısı ve
platformları (IaaS, PaaS) kurmuşlar, bazıları da genel bulut
sistemlerini kullanmaya başlamışlardır. Fakat her iki durumda
da yüksek-ölçekli verilerin depolandıktan sonra analitik
çalışmalara tabi tutulması ek kaynak maliyetlerine ve aksiyonel
bilgilere ulaşmada gecikmelere sebep olmaktadır. Bu sebeple,
kurumsal arakatman yazılımlarda, çevrimiçi veri filtreleme ve
diğer analizlere imkan sağlayan veri akış işleme veya Karmaşık
Olay İşleme (KOİ) motorlarına [5] görev verildiği
görülmektedir. Ayrıca bu motorların yakın zamanda veri
madencilik gereçleriyle güçlendirilmeye çalışıldığı da
gözlenmektedir [13]. Ancak bu gereçlerin çoğunda veri
madenciliğinin desen çıkarımı (extraction, testing) aşaması
çevrimdışı olarak tarihsel verilerle yapılmakta ve ancak desen
tespiti (detection, scoring) çevrimiçi yapılabilmektedir.
"Büyük veri" olarak adlandırılan bilişim probleminin dört
boyutu vardır: büyük kütleler, yüksek hızlar, çok çeşitlilik, ve
verideki tutarsızlıklar [16]. Bugün içlerinde telekom
operatörleri, bankalar, e-ticaret siteleri, güvenlik güçleri ve
belediyelerin de bulunduğu pekçok kuruluş hergün,
operasyonel sistemlerinden akış halinde Terabyte (TB)’larca
veri toplamakta ve bu verileri içinde Petabyte (PB)’lar bulunan
veritabanlarına eklemeye çalışmaktadırlar. Ayrıca bu veriler
farklı kaynaklardan geldikleri için yapısal çeşitlilik de
göstermektedirler (örnek: txt-csv, XML, JSON, ses-video). Son
on yılda ortaya çıkan Apache Hadoop çerçevesi [2] (HDFS,
MapReduce, Hbase, Hive) ve benzer dağıtık NoSQL
veritabanları (Cassandra, MongoDB) büyük veri
problemlerinin yüksek boyut ve veri çeşitliliği ile baş etmek
için tasarlanmışlardır. Ancak Hadoop ve diğerleri gerçek-
zamanlı veri işleme veya çok sayıda döngü içeren veri
madenciliği için tasarlanmamışlardır. Son zamanlarda
Hadoop’un bu eksiklikleri giderici pekçok çalışma yapılmakta
olsa da [17], veri akışlarında KOİ motorlarının kullanımı halen
etkin olarak devam etmektedir.
II. ÖNCEKİ ÇALIŞMALAR
Veri akışlarının içindeki desenleri kaybetmeden kütlesini
azaltma veya veriyi özetlemeyle ilgili yapılan önceki çalışmalar
arasında örnekleme, yük dökme, çizgileme (sketching), özet
(synopsis) çıkarımı ve tümleştirme (aggregation)
bulunmaktadır [6]. Akışlar üzerinde tümleştirme yapmak için
basit sayma veya toplama fonksiyonları yanında ortalama ±
Bu çalışma TUBITAK 3501 109E194, Avea Labs, EU FP7 Marie Curie BI4MASSES ve
IBM SUR programları tarafından desteklenmiştir.
978-1-4673-5563-6/13/$31.00 ©2013 IEEE