Spam Tanıma İçin Geliştirilmiş Güncel Yöntemlere Genel Bakış | Seval Çapraz
1 of 4
Download to read offline
More Related Content
Spam Tanıma İçin Geliştirilmiş Güncel Yöntemlere Genel Bakış | Seval Çapraz
1. Spam Tanıma İçin Geliştirilmiş Güncel Yöntemlere
Genel Bakış
Segmental Parametrizasyon Ve Adaptif Füzyon Algoritması Yöntemleri
Seval Çapraz
Bilgisayar Mühendisliği Bölümü
Hacettepe Üniversitesi, Ankara, Türkiye
Öz—Günümüzde istenmeyen mesajlardan kurtulmak bir çok
insan için dert olmuştur. Spam ismini verdiğimiz istenmeyen
mesajları istenen mesajlardan ayırt etmek başlı başına bir bilim
alanıdır. Literatürde bu konuda çeşitli çalışmalar
bulunmaktadır. Biz bu makalede literatürdeki bazı çalışmaları
inceledik ve hangi yöntemlerin olduğunu genel olarak araştırdık.
Literatürde bulduğumuz üç makaleyi bu çalışmada özetleyerek,
spam tanıma alanının, bu alana giriş yapmayı düşünen
araştırmacılar tarafından daha iyi anlaşılmasını hedefledik. İlk
araştırdığımız makale 2012 yılında yayınlanmış olan spam tespiti
için segmental parametrizasyon ve e-posta üstbilgilerinin
istatistiksel modellemesi üzerine bir çalışmadır. İkinci
özetlediğimiz makale ise 2015 yılında yapılmış olan spam tanıma
yöntemlerinin karşılaştırmalı incelemesidir. Üçüncü olarak
seçtiğimiz çalışma ise 2014 yılında yayınlanmış olan spam
algılama için geliştirilmiş bir adaptif füzyon algoritmasıdır. Bu
üç çalışmanın genel özeti ve sonuçları bu araştırma yazısında
verilmiştir.
Keywords—spam detection; hidden markov model; mail header
I. GİRİŞ
İstenmeyen mesajlara spam, onları gönderenlere ise
spammer denir. Spammer'lar istenmeyen mesajları göndermek
için e-posta hizmetlerinin popülerliğini ve düşük maliyetini
istismar ederler. Spam mesajlar kullanıcıların hesaplarını
doldurur ve değerli kaynakları harcar. Çeşitli spam türleri
vardır. Bunlardan birincisi spam e-postalardır. Spam e-postalar
ile spam olmayanları birbirinden ayırmak sorununun
üstesinden gelmek için literatürde birçok farklı spam filtreleme
tekniği önerilmiştir. Bununla birlikte, güncel anti-spam
uygulamaları tüm mesaj içeriğine ulaşabildikleri için
kullanıcıların mahremiyetini ihlal eder. Araştırdığımız ilk
çözüm literatürdeki 2012 yılında yayınlanmış olan spam tespiti
için segmental parametrizasyon ve e-posta üstbilgilerinin
istatistiksel modellemesidir [1]. Bu modellemede yeni bir spam
filtreleme tekniği mesaj içeriğinden ve mesajın yazıldığı dilden
bağımsız olarak yalnızca bilgi temelinde oluşturulmuştur. Bu
yaklaşımda başlıklardan dinamik işlemler sonucu karakterler
üretilmektedir. Çıkarılan karakterler standart sinyal ön-işleme
tekniklerine göre parametreleştirilmiş olarak sinyal olarak
kullanılır. Bu teknikte Gizli Markov Modelleri (Hidden
Markov Models, HMM) bir spam algılama sistemi olarak
kullanılmıştır. Segmental parametrizasyon ve e-posta
üstbilgilerinin istatistiksel modellemesi araştırmasının
devamında elde edilen değerlerle, başka teknikler performans
açısından karşılaştırılmıştır. Spam algılama konusunda % 98.42
kadar başarıya ulaşmışlardır.
İkinci olarak spam yorumlar tüm dünyada sorun teşkil
etmektedir. Son yıllarda çevrimiçi incelemelerde müşterilerin
görüşleri en önemli kaynak teşkil etmektedir. Bireyler ve
kuruluşlar tarafından satın alma ve iş kararlarını vermek için
çevrimiçi müşteri görüşleri gittikçe artan bir şekilde
kullanılmaktadır. Ne yazık ki, dolandırıcılar kâr veya tanıtım
arzusuyla hareket ederek aldatıcı (spam) yorumlar
yazmaktadırlar. Bu yorumlar yüzünden şirketler yanlış verilerle
yanlış sonuçlara ulaşmaktadırlar. Görüşleri analiz etmek ve
kategorilere ayırmak için çeşitli çözümler önerilmiştir. Doğru
analiz yapıldığı zaman sonuçların da doğruluğu artmaktadır.
Spamları tespit etmek için önerilen yöntemler 3 odak
noktasında toplanmışlardır: spam yorumlar, bireysel spam
göndericileri ve grup spam'ları. Farklı spam tanıma teknikleri
farklı güçlü ve zayıf yönlere sahiptir. 2015 yılında yayınlanmış
olan spam tanıma yöntemlerinin karşılaştırmalı incelemesi [2]
bize farklı spam tanıma yöntemleri hakkında bilgi vermiştir.
Spam algılama, çeşitli çevrimiçi sistemlerde kritik bir
bileşen haline geldi. Zararlı bilgileri filtrelemek için, örneğin e-
postadaki yanlış bilgileri, reklam motorlarındaki kötü amaçlı
tıklamaları, sahte kullanıcı tarafından üretilen sosyal ağlardaki
içerikleri vb. filtrelemek için spam tanıma sistemlerine ihtiyaç
vardır. Çoğu ticari sistem, Naive Bayes, Lojistik regresyon
veya destek vektör makineleri (support vector machines, SVM)
gibi makine öğrenme algoritmalarına dayanır. Bununla birlikte,
tek bir sınıflandırıcı spamleri algılamak için yeterli değildir.
Literatürdeki 2014 yılında yayınlanmış olan spam algılama için
geliştirilmiş adaptif füzyon algoritması [3], tek bir temel model
üzerine dayanmak yerine bir grup çevrimiçi öğrenicilere
(learners) dayanmaktadır.
Bir e-posta spamı ayrım yapmaksızın, doğrudan veya
dolaylı olarak, gönderilen kişi ile geçerli bir ilişkisi olmayan
bir gönderen tarafından gönderilmiştir. İstenmeyen e-postalar
çalışanların çalışma verimliliğini etkilemektedir. E-posta
spamlerinin bant genişliği israfı gibi benzer sayıda kötüye
kullanımı vardır. Spamları doğru algılamak ve filtrelemek için
popüler yöntemler mevcuttur: DNS tabanlı Blackhole,
greylisting, spamtrap, ekstrüzyon, çevrimiçi makine öğrenme
modelleri, özellik mühendisliği (feature engineering), matris
faktörizasyonu vb. literatürde ve sektörde çeşitli spamla
2. mücadele yöntemleri vardır. İçerik tabanlı yaklaşımlar her ne
kadar kullanıcı mahremiyetini ihlal etse de günümüzde daha
sofistike hale gelen spamları tanımada en etkili yöntemdir.
Bu çalışmada yukarıda bahsettiğimiz spam tanıma
yöntemlerine çözüm üreten ve çözümleri inceleyen üç
makalenin genel bakış açısıyla özetlerini bulacaksınız.
II. SPAM TANIMA YÖNTEMLERİNE GENEL BAKIŞ
A. Segmental parametrizasyon ve e-posta üstbilgilerinin
istatistiksel modellemesi
Spam tanıma uygulamasını denemek için içerisinde doğru
(meşru) ve spam mesajların olduğu bir veri seti gerekmektedir.
Segmental parametrizasyon tekniğini deneyen çalışmada 3 tane
veriseti üzerinde deneme yapılmıştır:
SpamAssassin public corpus
2005 TREC Spam Filtering Competition (TREC05-P1)
CEAS 2008 Challenge Lab Evaluation Corpus
Bu 3 veriseti üzerinde yapılan çalışmalar yeterli
görülmüştür. Tablo 1'de bu verisetlerinin detayı verilmiştir.
Performans ölçütü olarak gerçek pozitiflerin yüzdesi (TP),
yanlış pozitiflerin yüzdesi (FP), sınıflandırma doğruluğu (CA)
ve toplam maliyet oranı (TCR) kullanılmıştır.
TABLE I. DENEYDE KULLANILAN VERİSETLERİNİN TANIMLARI
İlk olarak Segmental parametrizasyon tekniği için e-posta
üst verileri dediğimiz başlıklardan elde edilen statik veriler
kullanılmıştır. Her başlık (e-posta mesajı) histogramını temsil
eden tek bir 71 boyutlu vektör kullanılarak parametrelendirilir.
Tüm başlık için tek bir vektör elde edildiğinden dinamik bir
özellik getirilmediğinden, bu yaklaşım statik olarak
adlandırılmıştır. En önemli endişe burada başlıklardan
yeterince bilgi çıkarılıp e-postanın doğru kategoriye
konulmasıdır. Kategorilere ayırmak için literatürde bulunan en
yaygın iki yöntem seçilmiştir: destek vektör makineleri
(support vector machines) ve k-enyakın-komşu (k-nearest
neighbors). Destek vektör makineleri sınıflandırıcısı için a
polynomial function ve a Gaussian radial function
kullanılmıştır. K-enyakın-komşu algoritmasında uzaklık
metriği olarak euclidean, cityblock, cosine ve correlation
olmak üzere 4 metrik kullanılmıştır. Figür 1 ve Figür 2 bu
yöntemlerin sonuçlarını göstermektedir.
Dinamik yöntemde ise başlıktan gelen değişik karakterler
sinyal olarak gösterilmiştir. Sinyalleri pencerelere ayırarak
göndermek sinyal işlemede genellikle yapılan bir tekniktir. Bir
sıra özelliği birleştirerek pencereler elde edilmiştir. Bunlar
seçilen uygulamalara sinyal olarak gönderilmiştir. Bu sıralı
pencereler kullanılarak elde edilmiş histogram Figür 3'te
verilmiştir. Sonraki aşamada spam tanıma sistemi olarak Gizli
Markov Modelleri (Hidden Markov Model, HMM) bu sıralı
yapının doğası gereği ve uygulamalardan gelen iyi sonuçlardan
dolayı kullanılmıştır.
Fig. 1.Results for SVM and KNN classifiers using the histograms of the
headers in SpamAssassin: TP, FP and CA.
Fig. 2.Results for SVM and KNN classifiers using the histograms of the
headers in SpamAssassin: TCR values varying parameter.
Fig. 3.Extracted histogram from a header using W= 40 and D = 20
HMM ile SVM metodlarının 3 farklı veri üzerindeki
karşılaştırmaları Figür 4'te verilmiştir.
Fig. 4.3 farklı veriseti üzerinde HMM ve SVM sistemlerinin karşılaştırması
Sonuç olarak bu metod sadece başlık bilgisi kullanarak
spam e-postaları filtrelemede var olan metodlara göre ya daha
iyi ya da aynı sonuçları vermektedir. Bu algoritma kişisel
gizlilik ve mahremiyetine önem verenlerin tercih edebileceği
bir algoritmadır.
3. B. Spam tanıma yöntemlerinin karşılaştırmalı incelemesi
Spam yorumların gerçek yorumlardan ayırt edilmesi için
literatürde bir çok çalışma mevcuttur. Bu çalışmaları inceleyen
bir makalede bu yöntemler gruplanmış ve karşılaştırılmıştır.
Yıllara göre spam tanıma yöntemleri hakkında yapılan
araştırma sayıları dağılımı Figür 5'te verilmiştir.
Fig. 5.Yıllara göre araştırma sayıları dağılımı
Spam tanıma yöntemleri genel olarak 3 ana gruba ayrılır.
Birincisi tekrarlayan mesajları tespit etmek, ikincisi içerik
tabanlı yöntemler, üçüncüsü ise bunların dışında kalan diğer
yöntemlerdir. İçerik tabanlı yöntemleri ise kendi içinde tür
saptama, psikolinguistik aldatmaca saptama, metin
kategorilendirme olarak 3 alt gruba ayrılır.
Tekrarlayan mesajları tespit etmek için mesajlar arasındaki
benzerlikler hesaplanır. Literatürdeki çalışmalarda Kullback–
Leibler uyuşmazlığı adı verilen bir benzerlik uzaklık metriği
kullanılmıştır. Spam tanıma olarak ise lojistik regresyon ve
SVM kullanılmıştır. Bu konudaki çalışmalarda metin
benzerliğine bakan araştırmalar, metin özelliklerinin
benzerliğine bakan araştırmalara göre daha iyi sonuç vermiştir.
İçerik tabanlı spam tanıma uygulamaları ise mesajların
metadata bilgilerine bakmak yerine mesaj içeriklerine
odaklanmışlardır. Tür saptama merkezli olan içerik tabanlı
spam tanıma uygulamalarında mesajların içeriğinin türe göre
değişeceği tahmin edilerek, mesajlar konuşmanın-bölümleri
(parts-of-speech, POS) parçalarına ayrılır. Bunların dağılımına
göre spam ve spam olmayan mesajlar birbirinden ayrılır.
Psikolinguistik yöntem ise kelimelerin psikolinguistik
anlamlarını kullanır. Böylece spam olan mesajlar ortaya çıkar.
Bu yöntem neredeyse en iyi spam tanıma yöntemidir. Metin
kategorilendirme ise mesaj içeriklerini n-gram özellik
kümelerine ayırarak spamları ayırt etmektedir.
Diğer yöntemler ise verileri etiketleme (label) yapan
yöntemlerdir. Bunlar denetimli (supervised) veya denetimsiz
(unsupervised) yöntemlerdir.
C. Spam algılama için geliştirilmiş adaptif füzyon algoritması
Spam algılama için geliştirilmiş adaptif füzyon algoritması
test için 3 farklı veriseti kullanmıştır:
TREC datasets (TREC05p, TREC06p, TREC06c,
TREC07p)
Electronic Messaging, Anti-Abuse, and Spam
Conference dataset (CEAS08)
NetEase dataset
Verisetlerinden özellikleri çıkarmak için 4-gram
kullanılmıştır. Bu özelliklerin olup olmadığı bilgisi binary bilgi
olarak eklenmiştir. Algoritmada 3 temel işlem yapılmıştır,
bunları 3 başlık altında toplayabiliriz: bağlantı fonksiyonu, hata
temelli öğrenme ve adaptif füzyon yani diğer bir adıyla
uyarlamalı birleştirme.
Bağlantı fonksiyonu için yapılan işlemleri söyle
sıralayabiliriz. Öncelikle farklı çevrimiçi öğrenicilerin tahmin
puanları genellikle farklı aralıklardadır. Bu yüzden
ortaklaştırmak için yaygın olarak kullanılan sigmoid
fonksiyonu,
kullanılmıştır. Böylece çevrimiçi öğreniciler tarafından verilen
ham tahmin puanlarını haritalamak için ortak bir 0 ile 1
arasında değer verilir. Bağlantı fonksiyonu ise
gibidir. Bias ve ofset parametreleri her bir çevrimiçi öğrenici
için farklı seçilerek çapraz doğrulama yoluyla ampirik olarak
belirlenmiştir.
Çevrimiçi öğrenicilerin hata temelli öğrenmesi için bir
sınıflandırıcı seçilmelidir. Bu çevrimiçi öğrenicilerin nitelikli
olması gerekmektedir. O yüzden sınıflandırıcı dört özelliğe
sahip olmalıdır. Birincisi, vektör uzayı modeli olacak veya bir
vektöre dönüştürülebilir uzay modeli olacak, böylece e-posta
metni yalnızca bir kez işlenmelidir, ve tüm çevrimiçi öğrenciler
için kullanılabilir olmalıdır. İkincisi, kabul edilebilir doğrulukta
hafif bir sınıflandırıcı olacak. Yüksek tahmin kesinliğini
sağlaması önemli. Üçüncü olarak, model parametreleri aşamalı
olarak öğrenilebilir olmalıdır, çünkü sınıflandırıcıyı daha
rekabetçi yapmak için bir hata ile eğitilecek. Dördüncü olarak,
bu modelin çıktısı bir tahmin puanı olmalıdır. Bu dört özelliğe
sahip herhangi bir sınıflandırıcı ile adaptif füzyon algoritmasını
gerçekleştirebiliriz.
Adaptif füzyon algoritmasında geliştiriciler 8 farklı
çevrimiçi öğrenici denemişlerdir. Bunlar: Naive Bayes, Not So
Naive Bayes, Winnow, Balance Winnow, çevrimiçi lojistik
regresyon, Harbin Teknoloji Enstitüsü (HIT) tarafından
geliştirilmiş bir algoritma, Pasif agresif, ve çevrimiçi
Perceptron Algorithm with Margins.
Hataya dayalı eğitim prosedüründe kalın bir eşik
kullanılmıştır. Eğer e-posta iyi sınıflandırılmışsa çevrimiçi
öğrenici güncellenmez. Fakat iyi sınıflandırılmamışsa, iyi
sınıflandırılana kadar bu e-posta, çevrimiçi öğrenici tarafından
eğitilmek için kullanılacaktır. Aşağıdaki gibi tahmin puanları
elde edilmiş ise e-posta iyi sınıflandırılmamış demektir:
4. Eğer tahmin puanı 0.75'ten büyük veya 0.25'ten küçük ise
bir e-posta iyi sınıflandırılmıştır.
Sınıflandırma işlemi bittikten sonra birleştirme işlemine
geçilir. Bu işleme adaptif füzyon denir. Çevrimiçi öğrenicilere
her birine farklı w değerinde olacak şekilde ağırlıklar verilir.
Sonuç tahmin puanını,
denkleminde olduğu gibi w değerleri ile ağırlaştırılmış P(x)
tahmin puanlarının toplamı şeklinde hesaplama ile buluruz.
Birleştirme işlemi ise
fonksiyonundaki gibi yapılmaktadır. Bu işleme ise adaptif
füzyon denmektedir.
Adaptif füzyon algoritmasının test sonuçları göstermiştir ki
sadece 8 çevrimiçi öğrenici kullanılarak yapılan test
çalışmasında bile 50'den fazla çevrimiçi öğrenici kullanan
diğer algoritmalardan daha iyi sonuçlar elde edilmiştir.
Verisetleri üzerindeki sonuçları Tablo 2, Tablo 3 ve Tablo 4'te
görebilirsiniz.
TABLE II. ÇEVRİMİÇİ ÖĞRENİCİLERİN (1-AUC) ORAN SONUÇLARI
TABLE III. DİĞER FÜZYON ALGORİTMALARI İLE ADAPTİF FÜZYON (AFSD)
KARŞILAŞTIRMASI
Çevrimiçi öğrenici sayısını artırmak aynı zamanda
performansı artıracağını garantilememektedir. Bu yüzden
doğru sayıda çevrimiçi öğrenici kullanmak için değişik
denemeler yapılması gerekmektedir. Az bir küme kullanılması
hem daha etkili hem de daha verimli olmaktadır. Adaptif
füzyon algoritması 4 adet öğrenici kullanılarak test edildiğinde
8 adet öğrenici kullanımına göre daha kötü sonuç vermiştir.
Fakat 8'den fazla öğrenici de daha kötü sonuç verebilir. Bu
yüzden çeşitli denemeler yaparak optimum sayıyı bulmak
önemlidir.
Sonuç olarak bu sonuçlar göstermiştir ki Adaptive Füzyon
algoritması ile literatürdeki en iyi algoritmalara göre daha iyi
spam tanıma yapılabilmektedir.
TABLE IV. DİĞER ALGORİTMALAR VE ADAPTİF FÜZYON ALGORİTMASININ
(1-AUC) SONUÇLARI
III. SONUÇ
Spam tanıma yöntemleri son zamanlarda çok gelişmiştir.
En son çıkan algoritmalarla spam e-postalar yeterince
filtrelenebilse bile henüz araştırılacak yöntemler bitmemiştir.
Spam tanıma konusunda araştırmacılar sürekli geliştirme
yapmaktadırlar. Bu çalışmada literatürdeki üç makaleyi
inceledik. Bunlardan birincisi spam tanıma için geliştirilmiş bir
model sunmaktadır. Bu araştırmanın ismi segmental
parametrizasyon ve e-posta üstbilgilerinin istatistiksel
modellemesidir. İkinci incelediğimiz araştırma, aslında
geçmişteki yöntemlerin toplu incelemesidir. Üçüncü ve son
incelediğimiz araştırma da ilki gibi spam tanıma için yenilikçi
bir çözüm sunmaktadır. Geliştirdikleri algoritmanın adı adaptif
füzyon algoritmasıdır. Bu üç çalışmanın incelenmesi spam
tanıma konusunda sadece başlangıç yapmamızı sağlamıştır.
Bütün bu araştırmaların sonucunda spam e-postaların tanınması
konusunda literatürde çeşitli etkili algoritmaların bulunduğu
sonucuna varılmıştır. Bu algoritmalar halen geliştirilmeye
açıktır ve başka yöntemlerin de doğmasına olanak
sağlayacaktır. Daha iyi ve daha kaliteli bir e-posta hizmeti için
e-posta sağlayıcıların bu araştırma alanına çok büyük destek
olduklarını söyleyebiliriz. O yüzden araştırmacılar bu konuda
araştırma ve geliştirme yapmaya davet edeceklerdir.
ACKNOWLEDGMENT
Bu çalışmaya katkılarından ve desteklerinden dolayı Dr.
Murat Aydos'a ve Hacettepe Üniversitesi Bilgisayar
Mühendisliği bölümüne teşekkür ederiz.
REFERENCES
[1] F. Salcedo-Campos, J. Díaz-Verdejo, P. García-Teodoro, “Segmental
parameterisation and statistical modelling of e-mail headers for spam
detection,” Information Sciences, 195(0), pp. 45–61, 2012.
[2] A. Heydari, M. A. Tavakoli, N. Salim, Z. Heydari, “Detection of review
spam: A survey”, Expert Systems with Applications, 42(0), pp. 3634–
3642, 2015.
[3] C. Xu, B. Su, Y. Cheng, W. Pan, L. Chen, “An Adaptive Fusion
Algorithm for Spam Detection”, IEEE Intelligent Systems, vol. 29, issue
4, July-Aug. 2014.