Büyük Veri Problemlerine Çözüm Olarak Veri Akış Madenciliği Data Stream Mining to Address Big Data Problems Erdi Ölmezoğulları, İsmail Arı Bilgisayar Mühendisliği Bölümü, Özyeğin Üniversitesi İstanbul, Türkiye erdi.olmezogullari@ozu.edu.tr, ismail.ari@ozyegin.edu.tr Ömer Faruk Çelebi, Salih Ergüt AveaLabs İstanbul, Türkiye {omerfaruk.celebi,salih.ergut}@avea.com.tr Özetçe— Günümüzde bilişim dünyası faydalı bilgiye ulaşma yolunda “büyük veri” problemleri (verinin kütlesi, hızı, çeşitliliği, tutarsızlığı) ile baş etmeye çalışmaktadır. Bu makalede, büyük veri akışları üzerinde İlişkisel Kural Madenciliği’nin (İKM) daha önce literatürde yapılmamış bir şekilde “çevrimiçi” olarak gerçeklenme detayları ile başarım bulguları paylaşılacaktır. Akış madenciliği için Apriori ile FP-Growth algoritmaları Esper isimli olay akış motoruna eklenmiştir. Elde edilen sistem üzerinde bu iki algoritma kayan penceler ve LastFM sosyal müzik sitesi verileri kullanılarak karşılaştırılmıştır. Başarımı yüksek olan FP- Growth seçilerek gerçek-zamanlı ve kural-tabanlı bir tavsiye motoru oluşturulması sağlanmıştır. En önemli bulgularımız çevrimiçi kural çıkarımı sayesinde: (1) çevrimdışı kural çıkarımından çok daha fazla kuralın, (2) çok daha hızlı ve etkin olarak, ve (3) çok daha önceden hesaplanabileceği gösterilmiştir. Ayrıca müzik zevklerine uygun “George Harrison⇒The Beatles” gibi pekçok ilginç ve gerçekçi kural bulunmuştur. Sonuçlarımızın ileride diğer büyük veri analitik sistemlerinin tasarım ve gerçeklemesine ışık tutacağını ummaktayız. Anahtar Kelimeler — Veri akış madenciliği, ilişkisel kural madenciliği, karmaşık olay işleme, Apriori, FP-Growth. Abstract—Today, the IT world is trying to cope with “big data” problems (data volume, velocity, variety, veracity) on the path to obtaining useful information. In this paper, we present implementation details and performance results of realizing “online” Association Rule Mining (ARM) over big data streams for the first time in the literature. Specifically, we added Apriori and FP-Growth algorithms for stream mining inside an event processing engine, called Esper. Using the system, these two algorithms were compared over LastFM social music site data and by using tumbling windows. The better-performing FP- Growth was selected and used in creation of a real-time rule- based recommendation engine. Our most important findings show that online association rule mining can generate (1) more rules, (2) much faster and more efficiently, and (3) much sooner than offline rule mining. In addition, we have found many interesting and realistic musical preference rules such as “George Harrison⇒Beatles”. We hope that our findings can shed light on the design and implementation of other big data analytics systems in the future. Keywords — Data stream mining, association rule mining, complex event processing, Apriori, FP-Growth. I. GİRİŞ Günümüzde milyarlarca kullanıcısı olan mobil iletişim ağları, Internet hizmetleri ve duyargalar gibi pekçok yeni teknoloji, bu teknolojilerin uygulama alanları, ve bunların hepsini izleyen sistemler sayesinde sürekli ve yüksek-ölçekli veriler üretilmektedir. Bu veriler kurumsal altyapılarda defalarca kopyalanarak kütlesi artmakta ve “büyük veri" problemlerini ortaya çıkarmaktadır. Bu problemlerle baş edip analitik çalışmalar yapabilmek ve faydalı, sonuca yönelik bilgilere, desenlere, kurallara ulaşabilmek için bazı kurumlar firma içerisinde paylaşımlı olarak kullanılan bulut altyapısı ve platformları (IaaS, PaaS) kurmuşlar, bazıları da genel bulut sistemlerini kullanmaya başlamışlardır. Fakat her iki durumda da yüksek-ölçekli verilerin depolandıktan sonra analitik çalışmalara tabi tutulması ek kaynak maliyetlerine ve aksiyonel bilgilere ulaşmada gecikmelere sebep olmaktadır. Bu sebeple, kurumsal arakatman yazılımlarda, çevrimiçi veri filtreleme ve diğer analizlere imkan sağlayan veri akış işleme veya Karmaşık Olay İşleme (KOİ) motorlarına [5] görev verildiği görülmektedir. Ayrıca bu motorların yakın zamanda veri madencilik gereçleriyle güçlendirilmeye çalışıldığı da gözlenmektedir [13]. Ancak bu gereçlerin çoğunda veri madenciliğinin desen çıkarımı (extraction, testing) aşaması çevrimdışı olarak tarihsel verilerle yapılmakta ve ancak desen tespiti (detection, scoring) çevrimiçi yapılabilmektedir. "Büyük veri" olarak adlandırılan bilişim probleminin dört boyutu vardır: büyük kütleler, yüksek hızlar, çok çeşitlilik, ve verideki tutarsızlıklar [16]. Bugün içlerinde telekom operatörleri, bankalar, e-ticaret siteleri, güvenlik güçleri ve belediyelerin de bulunduğu pekçok kuruluş hergün, operasyonel sistemlerinden akış halinde Terabyte (TB)’larca veri toplamakta ve bu verileri içinde Petabyte (PB)’lar bulunan veritabanlarına eklemeye çalışmaktadırlar. Ayrıca bu veriler farklı kaynaklardan geldikleri için yapısal çeşitlilik de göstermektedirler (örnek: txt-csv, XML, JSON, ses-video). Son on yılda ortaya çıkan Apache Hadoop çerçevesi [2] (HDFS, MapReduce, Hbase, Hive) ve benzer dağıtık NoSQL veritabanları (Cassandra, MongoDB) büyük veri problemlerinin yüksek boyut ve veri çeşitliliği ile baş etmek için tasarlanmışlardır. Ancak Hadoop ve diğerleri gerçek- zamanlı veri işleme veya çok sayıda döngü içeren veri madenciliği için tasarlanmamışlardır. Son zamanlarda Hadoop’un bu eksiklikleri giderici pekçok çalışma yapılmakta olsa da [17], veri akışlarında KOİ motorlarının kullanımı halen etkin olarak devam etmektedir. II. ÖNCEKİ ÇALIŞMALAR Veri akışlarının içindeki desenleri kaybetmeden kütlesini azaltma veya veriyi özetlemeyle ilgili yapılan önceki çalışmalar arasında örnekleme, yük dökme, çizgileme (sketching), özet (synopsis) çıkarımı ve tümleştirme (aggregation) bulunmaktadır [6]. Akışlar üzerinde tümleştirme yapmak için basit sayma veya toplama fonksiyonları yanında ortalama ± Bu çalışma TUBITAK 3501 109E194, Avea Labs, EU FP7 Marie Curie BI4MASSES ve IBM SUR programları tarafından desteklenmiştir. 978-1-4673-5563-6/13/$31.00 ©2013 IEEE