ݺߣ

ݺߣShare a Scribd company logo
Spam Tanıma İçin Geliştirilmiş Güncel Yöntemlere
Genel Bakış
Segmental Parametrizasyon Ve Adaptif Füzyon Algoritması Yöntemleri
Seval Çapraz
Bilgisayar Mühendisliği Bölümü
Hacettepe Üniversitesi, Ankara, Türkiye
Öz—Günümüzde istenmeyen mesajlardan kurtulmak bir çok
insan için dert olmuştur. Spam ismini verdiğimiz istenmeyen
mesajları istenen mesajlardan ayırt etmek başlı başına bir bilim
alanıdır. Literatürde bu konuda çeşitli çalışmalar
bulunmaktadır. Biz bu makalede literatürdeki bazı çalışmaları
inceledik ve hangi yöntemlerin olduğunu genel olarak araştırdık.
Literatürde bulduğumuz üç makaleyi bu çalışmada özetleyerek,
spam tanıma alanının, bu alana giriş yapmayı düşünen
araştırmacılar tarafından daha iyi anlaşılmasını hedefledik. İlk
araştırdığımız makale 2012 yılında yayınlanmış olan spam tespiti
için segmental parametrizasyon ve e-posta üstbilgilerinin
istatistiksel modellemesi üzerine bir çalışmadır. İkinci
özetlediğimiz makale ise 2015 yılında yapılmış olan spam tanıma
yöntemlerinin karşılaştırmalı incelemesidir. Üçüncü olarak
seçtiğimiz çalışma ise 2014 yılında yayınlanmış olan spam
algılama için geliştirilmiş bir adaptif füzyon algoritmasıdır. Bu
üç çalışmanın genel özeti ve sonuçları bu araştırma yazısında
verilmiştir.
Keywords—spam detection; hidden markov model; mail header
I. GİRİŞ
İstenmeyen mesajlara spam, onları gönderenlere ise
spammer denir. Spammer'lar istenmeyen mesajları göndermek
için e-posta hizmetlerinin popülerliğini ve düşük maliyetini
istismar ederler. Spam mesajlar kullanıcıların hesaplarını
doldurur ve değerli kaynakları harcar. Çeşitli spam türleri
vardır. Bunlardan birincisi spam e-postalardır. Spam e-postalar
ile spam olmayanları birbirinden ayırmak sorununun
üstesinden gelmek için literatürde birçok farklı spam filtreleme
tekniği önerilmiştir. Bununla birlikte, güncel anti-spam
uygulamaları tüm mesaj içeriğine ulaşabildikleri için
kullanıcıların mahremiyetini ihlal eder. Araştırdığımız ilk
çözüm literatürdeki 2012 yılında yayınlanmış olan spam tespiti
için segmental parametrizasyon ve e-posta üstbilgilerinin
istatistiksel modellemesidir [1]. Bu modellemede yeni bir spam
filtreleme tekniği mesaj içeriğinden ve mesajın yazıldığı dilden
bağımsız olarak yalnızca bilgi temelinde oluşturulmuştur. Bu
yaklaşımda başlıklardan dinamik işlemler sonucu karakterler
üretilmektedir. Çıkarılan karakterler standart sinyal ön-işleme
tekniklerine göre parametreleştirilmiş olarak sinyal olarak
kullanılır. Bu teknikte Gizli Markov Modelleri (Hidden
Markov Models, HMM) bir spam algılama sistemi olarak
kullanılmıştır. Segmental parametrizasyon ve e-posta
üstbilgilerinin istatistiksel modellemesi araştırmasının
devamında elde edilen değerlerle, başka teknikler performans
açısından karşılaştırılmıştır. Spam algılama konusunda % 98.42
kadar başarıya ulaşmışlardır.
İkinci olarak spam yorumlar tüm dünyada sorun teşkil
etmektedir. Son yıllarda çevrimiçi incelemelerde müşterilerin
görüşleri en önemli kaynak teşkil etmektedir. Bireyler ve
kuruluşlar tarafından satın alma ve iş kararlarını vermek için
çevrimiçi müşteri görüşleri gittikçe artan bir şekilde
kullanılmaktadır. Ne yazık ki, dolandırıcılar kâr veya tanıtım
arzusuyla hareket ederek aldatıcı (spam) yorumlar
yazmaktadırlar. Bu yorumlar yüzünden şirketler yanlış verilerle
yanlış sonuçlara ulaşmaktadırlar. Görüşleri analiz etmek ve
kategorilere ayırmak için çeşitli çözümler önerilmiştir. Doğru
analiz yapıldığı zaman sonuçların da doğruluğu artmaktadır.
Spamları tespit etmek için önerilen yöntemler 3 odak
noktasında toplanmışlardır: spam yorumlar, bireysel spam
göndericileri ve grup spam'ları. Farklı spam tanıma teknikleri
farklı güçlü ve zayıf yönlere sahiptir. 2015 yılında yayınlanmış
olan spam tanıma yöntemlerinin karşılaştırmalı incelemesi [2]
bize farklı spam tanıma yöntemleri hakkında bilgi vermiştir.
Spam algılama, çeşitli çevrimiçi sistemlerde kritik bir
bileşen haline geldi. Zararlı bilgileri filtrelemek için, örneğin e-
postadaki yanlış bilgileri, reklam motorlarındaki kötü amaçlı
tıklamaları, sahte kullanıcı tarafından üretilen sosyal ağlardaki
içerikleri vb. filtrelemek için spam tanıma sistemlerine ihtiyaç
vardır. Çoğu ticari sistem, Naive Bayes, Lojistik regresyon
veya destek vektör makineleri (support vector machines, SVM)
gibi makine öğrenme algoritmalarına dayanır. Bununla birlikte,
tek bir sınıflandırıcı spamleri algılamak için yeterli değildir.
Literatürdeki 2014 yılında yayınlanmış olan spam algılama için
geliştirilmiş adaptif füzyon algoritması [3], tek bir temel model
üzerine dayanmak yerine bir grup çevrimiçi öğrenicilere
(learners) dayanmaktadır.
Bir e-posta spamı ayrım yapmaksızın, doğrudan veya
dolaylı olarak, gönderilen kişi ile geçerli bir ilişkisi olmayan
bir gönderen tarafından gönderilmiştir. İstenmeyen e-postalar
çalışanların çalışma verimliliğini etkilemektedir. E-posta
spamlerinin bant genişliği israfı gibi benzer sayıda kötüye
kullanımı vardır. Spamları doğru algılamak ve filtrelemek için
popüler yöntemler mevcuttur: DNS tabanlı Blackhole,
greylisting, spamtrap, ekstrüzyon, çevrimiçi makine öğrenme
modelleri, özellik mühendisliği (feature engineering), matris
faktörizasyonu vb. literatürde ve sektörde çeşitli spamla
mücadele yöntemleri vardır. İçerik tabanlı yaklaşımlar her ne
kadar kullanıcı mahremiyetini ihlal etse de günümüzde daha
sofistike hale gelen spamları tanımada en etkili yöntemdir.
Bu çalışmada yukarıda bahsettiğimiz spam tanıma
yöntemlerine çözüm üreten ve çözümleri inceleyen üç
makalenin genel bakış açısıyla özetlerini bulacaksınız.
II. SPAM TANIMA YÖNTEMLERİNE GENEL BAKIŞ
A. Segmental parametrizasyon ve e-posta üstbilgilerinin
istatistiksel modellemesi
Spam tanıma uygulamasını denemek için içerisinde doğru
(meşru) ve spam mesajların olduğu bir veri seti gerekmektedir.
Segmental parametrizasyon tekniğini deneyen çalışmada 3 tane
veriseti üzerinde deneme yapılmıştır:
 SpamAssassin public corpus
 2005 TREC Spam Filtering Competition (TREC05-P1)
 CEAS 2008 Challenge Lab Evaluation Corpus
Bu 3 veriseti üzerinde yapılan çalışmalar yeterli
görülmüştür. Tablo 1'de bu verisetlerinin detayı verilmiştir.
Performans ölçütü olarak gerçek pozitiflerin yüzdesi (TP),
yanlış pozitiflerin yüzdesi (FP), sınıflandırma doğruluğu (CA)
ve toplam maliyet oranı (TCR) kullanılmıştır.
TABLE I. DENEYDE KULLANILAN VERİSETLERİNİN TANIMLARI
İlk olarak Segmental parametrizasyon tekniği için e-posta
üst verileri dediğimiz başlıklardan elde edilen statik veriler
kullanılmıştır. Her başlık (e-posta mesajı) histogramını temsil
eden tek bir 71 boyutlu vektör kullanılarak parametrelendirilir.
Tüm başlık için tek bir vektör elde edildiğinden dinamik bir
özellik getirilmediğinden, bu yaklaşım statik olarak
adlandırılmıştır. En önemli endişe burada başlıklardan
yeterince bilgi çıkarılıp e-postanın doğru kategoriye
konulmasıdır. Kategorilere ayırmak için literatürde bulunan en
yaygın iki yöntem seçilmiştir: destek vektör makineleri
(support vector machines) ve k-enyakın-komşu (k-nearest
neighbors). Destek vektör makineleri sınıflandırıcısı için a
polynomial function ve a Gaussian radial function
kullanılmıştır. K-enyakın-komşu algoritmasında uzaklık
metriği olarak euclidean, cityblock, cosine ve correlation
olmak üzere 4 metrik kullanılmıştır. Figür 1 ve Figür 2 bu
yöntemlerin sonuçlarını göstermektedir.
Dinamik yöntemde ise başlıktan gelen değişik karakterler
sinyal olarak gösterilmiştir. Sinyalleri pencerelere ayırarak
göndermek sinyal işlemede genellikle yapılan bir tekniktir. Bir
sıra özelliği birleştirerek pencereler elde edilmiştir. Bunlar
seçilen uygulamalara sinyal olarak gönderilmiştir. Bu sıralı
pencereler kullanılarak elde edilmiş histogram Figür 3'te
verilmiştir. Sonraki aşamada spam tanıma sistemi olarak Gizli
Markov Modelleri (Hidden Markov Model, HMM) bu sıralı
yapının doğası gereği ve uygulamalardan gelen iyi sonuçlardan
dolayı kullanılmıştır.
Fig. 1.Results for SVM and KNN classifiers using the histograms of the
headers in SpamAssassin: TP, FP and CA.
Fig. 2.Results for SVM and KNN classifiers using the histograms of the
headers in SpamAssassin: TCR values varying parameter.
Fig. 3.Extracted histogram from a header using W= 40 and D = 20
HMM ile SVM metodlarının 3 farklı veri üzerindeki
karşılaştırmaları Figür 4'te verilmiştir.
Fig. 4.3 farklı veriseti üzerinde HMM ve SVM sistemlerinin karşılaştırması
Sonuç olarak bu metod sadece başlık bilgisi kullanarak
spam e-postaları filtrelemede var olan metodlara göre ya daha
iyi ya da aynı sonuçları vermektedir. Bu algoritma kişisel
gizlilik ve mahremiyetine önem verenlerin tercih edebileceği
bir algoritmadır.
B. Spam tanıma yöntemlerinin karşılaştırmalı incelemesi
Spam yorumların gerçek yorumlardan ayırt edilmesi için
literatürde bir çok çalışma mevcuttur. Bu çalışmaları inceleyen
bir makalede bu yöntemler gruplanmış ve karşılaştırılmıştır.
Yıllara göre spam tanıma yöntemleri hakkında yapılan
araştırma sayıları dağılımı Figür 5'te verilmiştir.
Fig. 5.Yıllara göre araştırma sayıları dağılımı
Spam tanıma yöntemleri genel olarak 3 ana gruba ayrılır.
Birincisi tekrarlayan mesajları tespit etmek, ikincisi içerik
tabanlı yöntemler, üçüncüsü ise bunların dışında kalan diğer
yöntemlerdir. İçerik tabanlı yöntemleri ise kendi içinde tür
saptama, psikolinguistik aldatmaca saptama, metin
kategorilendirme olarak 3 alt gruba ayrılır.
Tekrarlayan mesajları tespit etmek için mesajlar arasındaki
benzerlikler hesaplanır. Literatürdeki çalışmalarda Kullback–
Leibler uyuşmazlığı adı verilen bir benzerlik uzaklık metriği
kullanılmıştır. Spam tanıma olarak ise lojistik regresyon ve
SVM kullanılmıştır. Bu konudaki çalışmalarda metin
benzerliğine bakan araştırmalar, metin özelliklerinin
benzerliğine bakan araştırmalara göre daha iyi sonuç vermiştir.
İçerik tabanlı spam tanıma uygulamaları ise mesajların
metadata bilgilerine bakmak yerine mesaj içeriklerine
odaklanmışlardır. Tür saptama merkezli olan içerik tabanlı
spam tanıma uygulamalarında mesajların içeriğinin türe göre
değişeceği tahmin edilerek, mesajlar konuşmanın-bölümleri
(parts-of-speech, POS) parçalarına ayrılır. Bunların dağılımına
göre spam ve spam olmayan mesajlar birbirinden ayrılır.
Psikolinguistik yöntem ise kelimelerin psikolinguistik
anlamlarını kullanır. Böylece spam olan mesajlar ortaya çıkar.
Bu yöntem neredeyse en iyi spam tanıma yöntemidir. Metin
kategorilendirme ise mesaj içeriklerini n-gram özellik
kümelerine ayırarak spamları ayırt etmektedir.
Diğer yöntemler ise verileri etiketleme (label) yapan
yöntemlerdir. Bunlar denetimli (supervised) veya denetimsiz
(unsupervised) yöntemlerdir.
C. Spam algılama için geliştirilmiş adaptif füzyon algoritması
Spam algılama için geliştirilmiş adaptif füzyon algoritması
test için 3 farklı veriseti kullanmıştır:
 TREC datasets (TREC05p, TREC06p, TREC06c,
TREC07p)
 Electronic Messaging, Anti-Abuse, and Spam
Conference dataset (CEAS08)
 NetEase dataset
Verisetlerinden özellikleri çıkarmak için 4-gram
kullanılmıştır. Bu özelliklerin olup olmadığı bilgisi binary bilgi
olarak eklenmiştir. Algoritmada 3 temel işlem yapılmıştır,
bunları 3 başlık altında toplayabiliriz: bağlantı fonksiyonu, hata
temelli öğrenme ve adaptif füzyon yani diğer bir adıyla
uyarlamalı birleştirme.
Bağlantı fonksiyonu için yapılan işlemleri söyle
sıralayabiliriz. Öncelikle farklı çevrimiçi öğrenicilerin tahmin
puanları genellikle farklı aralıklardadır. Bu yüzden
ortaklaştırmak için yaygın olarak kullanılan sigmoid
fonksiyonu,
kullanılmıştır. Böylece çevrimiçi öğreniciler tarafından verilen
ham tahmin puanlarını haritalamak için ortak bir 0 ile 1
arasında değer verilir. Bağlantı fonksiyonu ise
gibidir. Bias ve ofset parametreleri her bir çevrimiçi öğrenici
için farklı seçilerek çapraz doğrulama yoluyla ampirik olarak
belirlenmiştir.
Çevrimiçi öğrenicilerin hata temelli öğrenmesi için bir
sınıflandırıcı seçilmelidir. Bu çevrimiçi öğrenicilerin nitelikli
olması gerekmektedir. O yüzden sınıflandırıcı dört özelliğe
sahip olmalıdır. Birincisi, vektör uzayı modeli olacak veya bir
vektöre dönüştürülebilir uzay modeli olacak, böylece e-posta
metni yalnızca bir kez işlenmelidir, ve tüm çevrimiçi öğrenciler
için kullanılabilir olmalıdır. İkincisi, kabul edilebilir doğrulukta
hafif bir sınıflandırıcı olacak. Yüksek tahmin kesinliğini
sağlaması önemli. Üçüncü olarak, model parametreleri aşamalı
olarak öğrenilebilir olmalıdır, çünkü sınıflandırıcıyı daha
rekabetçi yapmak için bir hata ile eğitilecek. Dördüncü olarak,
bu modelin çıktısı bir tahmin puanı olmalıdır. Bu dört özelliğe
sahip herhangi bir sınıflandırıcı ile adaptif füzyon algoritmasını
gerçekleştirebiliriz.
Adaptif füzyon algoritmasında geliştiriciler 8 farklı
çevrimiçi öğrenici denemişlerdir. Bunlar: Naive Bayes, Not So
Naive Bayes, Winnow, Balance Winnow, çevrimiçi lojistik
regresyon, Harbin Teknoloji Enstitüsü (HIT) tarafından
geliştirilmiş bir algoritma, Pasif agresif, ve çevrimiçi
Perceptron Algorithm with Margins.
Hataya dayalı eğitim prosedüründe kalın bir eşik
kullanılmıştır. Eğer e-posta iyi sınıflandırılmışsa çevrimiçi
öğrenici güncellenmez. Fakat iyi sınıflandırılmamışsa, iyi
sınıflandırılana kadar bu e-posta, çevrimiçi öğrenici tarafından
eğitilmek için kullanılacaktır. Aşağıdaki gibi tahmin puanları
elde edilmiş ise e-posta iyi sınıflandırılmamış demektir:
Eğer tahmin puanı 0.75'ten büyük veya 0.25'ten küçük ise
bir e-posta iyi sınıflandırılmıştır.
Sınıflandırma işlemi bittikten sonra birleştirme işlemine
geçilir. Bu işleme adaptif füzyon denir. Çevrimiçi öğrenicilere
her birine farklı w değerinde olacak şekilde ağırlıklar verilir.
Sonuç tahmin puanını,
denkleminde olduğu gibi w değerleri ile ağırlaştırılmış P(x)
tahmin puanlarının toplamı şeklinde hesaplama ile buluruz.
Birleştirme işlemi ise
fonksiyonundaki gibi yapılmaktadır. Bu işleme ise adaptif
füzyon denmektedir.
Adaptif füzyon algoritmasının test sonuçları göstermiştir ki
sadece 8 çevrimiçi öğrenici kullanılarak yapılan test
çalışmasında bile 50'den fazla çevrimiçi öğrenici kullanan
diğer algoritmalardan daha iyi sonuçlar elde edilmiştir.
Verisetleri üzerindeki sonuçları Tablo 2, Tablo 3 ve Tablo 4'te
görebilirsiniz.
TABLE II. ÇEVRİMİÇİ ÖĞRENİCİLERİN (1-AUC) ORAN SONUÇLARI
TABLE III. DİĞER FÜZYON ALGORİTMALARI İLE ADAPTİF FÜZYON (AFSD)
KARŞILAŞTIRMASI
Çevrimiçi öğrenici sayısını artırmak aynı zamanda
performansı artıracağını garantilememektedir. Bu yüzden
doğru sayıda çevrimiçi öğrenici kullanmak için değişik
denemeler yapılması gerekmektedir. Az bir küme kullanılması
hem daha etkili hem de daha verimli olmaktadır. Adaptif
füzyon algoritması 4 adet öğrenici kullanılarak test edildiğinde
8 adet öğrenici kullanımına göre daha kötü sonuç vermiştir.
Fakat 8'den fazla öğrenici de daha kötü sonuç verebilir. Bu
yüzden çeşitli denemeler yaparak optimum sayıyı bulmak
önemlidir.
Sonuç olarak bu sonuçlar göstermiştir ki Adaptive Füzyon
algoritması ile literatürdeki en iyi algoritmalara göre daha iyi
spam tanıma yapılabilmektedir.
TABLE IV. DİĞER ALGORİTMALAR VE ADAPTİF FÜZYON ALGORİTMASININ
(1-AUC) SONUÇLARI
III. SONUÇ
Spam tanıma yöntemleri son zamanlarda çok gelişmiştir.
En son çıkan algoritmalarla spam e-postalar yeterince
filtrelenebilse bile henüz araştırılacak yöntemler bitmemiştir.
Spam tanıma konusunda araştırmacılar sürekli geliştirme
yapmaktadırlar. Bu çalışmada literatürdeki üç makaleyi
inceledik. Bunlardan birincisi spam tanıma için geliştirilmiş bir
model sunmaktadır. Bu araştırmanın ismi segmental
parametrizasyon ve e-posta üstbilgilerinin istatistiksel
modellemesidir. İkinci incelediğimiz araştırma, aslında
geçmişteki yöntemlerin toplu incelemesidir. Üçüncü ve son
incelediğimiz araştırma da ilki gibi spam tanıma için yenilikçi
bir çözüm sunmaktadır. Geliştirdikleri algoritmanın adı adaptif
füzyon algoritmasıdır. Bu üç çalışmanın incelenmesi spam
tanıma konusunda sadece başlangıç yapmamızı sağlamıştır.
Bütün bu araştırmaların sonucunda spam e-postaların tanınması
konusunda literatürde çeşitli etkili algoritmaların bulunduğu
sonucuna varılmıştır. Bu algoritmalar halen geliştirilmeye
açıktır ve başka yöntemlerin de doğmasına olanak
sağlayacaktır. Daha iyi ve daha kaliteli bir e-posta hizmeti için
e-posta sağlayıcıların bu araştırma alanına çok büyük destek
olduklarını söyleyebiliriz. O yüzden araştırmacılar bu konuda
araştırma ve geliştirme yapmaya davet edeceklerdir.
ACKNOWLEDGMENT
Bu çalışmaya katkılarından ve desteklerinden dolayı Dr.
Murat Aydos'a ve Hacettepe Üniversitesi Bilgisayar
Mühendisliği bölümüne teşekkür ederiz.
REFERENCES
[1] F. Salcedo-Campos, J. Díaz-Verdejo, P. García-Teodoro, “Segmental
parameterisation and statistical modelling of e-mail headers for spam
detection,” Information Sciences, 195(0), pp. 45–61, 2012.
[2] A. Heydari, M. A. Tavakoli, N. Salim, Z. Heydari, “Detection of review
spam: A survey”, Expert Systems with Applications, 42(0), pp. 3634–
3642, 2015.
[3] C. Xu, B. Su, Y. Cheng, W. Pan, L. Chen, “An Adaptive Fusion
Algorithm for Spam Detection”, IEEE Intelligent Systems, vol. 29, issue
4, July-Aug. 2014.

More Related Content

Spam Tanıma İçin Geliştirilmiş Güncel Yöntemlere Genel Bakış | Seval Çapraz

  • 1. Spam Tanıma İçin Geliştirilmiş Güncel Yöntemlere Genel Bakış Segmental Parametrizasyon Ve Adaptif Füzyon Algoritması Yöntemleri Seval Çapraz Bilgisayar Mühendisliği Bölümü Hacettepe Üniversitesi, Ankara, Türkiye Öz—Günümüzde istenmeyen mesajlardan kurtulmak bir çok insan için dert olmuştur. Spam ismini verdiğimiz istenmeyen mesajları istenen mesajlardan ayırt etmek başlı başına bir bilim alanıdır. Literatürde bu konuda çeşitli çalışmalar bulunmaktadır. Biz bu makalede literatürdeki bazı çalışmaları inceledik ve hangi yöntemlerin olduğunu genel olarak araştırdık. Literatürde bulduğumuz üç makaleyi bu çalışmada özetleyerek, spam tanıma alanının, bu alana giriş yapmayı düşünen araştırmacılar tarafından daha iyi anlaşılmasını hedefledik. İlk araştırdığımız makale 2012 yılında yayınlanmış olan spam tespiti için segmental parametrizasyon ve e-posta üstbilgilerinin istatistiksel modellemesi üzerine bir çalışmadır. İkinci özetlediğimiz makale ise 2015 yılında yapılmış olan spam tanıma yöntemlerinin karşılaştırmalı incelemesidir. Üçüncü olarak seçtiğimiz çalışma ise 2014 yılında yayınlanmış olan spam algılama için geliştirilmiş bir adaptif füzyon algoritmasıdır. Bu üç çalışmanın genel özeti ve sonuçları bu araştırma yazısında verilmiştir. Keywords—spam detection; hidden markov model; mail header I. GİRİŞ İstenmeyen mesajlara spam, onları gönderenlere ise spammer denir. Spammer'lar istenmeyen mesajları göndermek için e-posta hizmetlerinin popülerliğini ve düşük maliyetini istismar ederler. Spam mesajlar kullanıcıların hesaplarını doldurur ve değerli kaynakları harcar. Çeşitli spam türleri vardır. Bunlardan birincisi spam e-postalardır. Spam e-postalar ile spam olmayanları birbirinden ayırmak sorununun üstesinden gelmek için literatürde birçok farklı spam filtreleme tekniği önerilmiştir. Bununla birlikte, güncel anti-spam uygulamaları tüm mesaj içeriğine ulaşabildikleri için kullanıcıların mahremiyetini ihlal eder. Araştırdığımız ilk çözüm literatürdeki 2012 yılında yayınlanmış olan spam tespiti için segmental parametrizasyon ve e-posta üstbilgilerinin istatistiksel modellemesidir [1]. Bu modellemede yeni bir spam filtreleme tekniği mesaj içeriğinden ve mesajın yazıldığı dilden bağımsız olarak yalnızca bilgi temelinde oluşturulmuştur. Bu yaklaşımda başlıklardan dinamik işlemler sonucu karakterler üretilmektedir. Çıkarılan karakterler standart sinyal ön-işleme tekniklerine göre parametreleştirilmiş olarak sinyal olarak kullanılır. Bu teknikte Gizli Markov Modelleri (Hidden Markov Models, HMM) bir spam algılama sistemi olarak kullanılmıştır. Segmental parametrizasyon ve e-posta üstbilgilerinin istatistiksel modellemesi araştırmasının devamında elde edilen değerlerle, başka teknikler performans açısından karşılaştırılmıştır. Spam algılama konusunda % 98.42 kadar başarıya ulaşmışlardır. İkinci olarak spam yorumlar tüm dünyada sorun teşkil etmektedir. Son yıllarda çevrimiçi incelemelerde müşterilerin görüşleri en önemli kaynak teşkil etmektedir. Bireyler ve kuruluşlar tarafından satın alma ve iş kararlarını vermek için çevrimiçi müşteri görüşleri gittikçe artan bir şekilde kullanılmaktadır. Ne yazık ki, dolandırıcılar kâr veya tanıtım arzusuyla hareket ederek aldatıcı (spam) yorumlar yazmaktadırlar. Bu yorumlar yüzünden şirketler yanlış verilerle yanlış sonuçlara ulaşmaktadırlar. Görüşleri analiz etmek ve kategorilere ayırmak için çeşitli çözümler önerilmiştir. Doğru analiz yapıldığı zaman sonuçların da doğruluğu artmaktadır. Spamları tespit etmek için önerilen yöntemler 3 odak noktasında toplanmışlardır: spam yorumlar, bireysel spam göndericileri ve grup spam'ları. Farklı spam tanıma teknikleri farklı güçlü ve zayıf yönlere sahiptir. 2015 yılında yayınlanmış olan spam tanıma yöntemlerinin karşılaştırmalı incelemesi [2] bize farklı spam tanıma yöntemleri hakkında bilgi vermiştir. Spam algılama, çeşitli çevrimiçi sistemlerde kritik bir bileşen haline geldi. Zararlı bilgileri filtrelemek için, örneğin e- postadaki yanlış bilgileri, reklam motorlarındaki kötü amaçlı tıklamaları, sahte kullanıcı tarafından üretilen sosyal ağlardaki içerikleri vb. filtrelemek için spam tanıma sistemlerine ihtiyaç vardır. Çoğu ticari sistem, Naive Bayes, Lojistik regresyon veya destek vektör makineleri (support vector machines, SVM) gibi makine öğrenme algoritmalarına dayanır. Bununla birlikte, tek bir sınıflandırıcı spamleri algılamak için yeterli değildir. Literatürdeki 2014 yılında yayınlanmış olan spam algılama için geliştirilmiş adaptif füzyon algoritması [3], tek bir temel model üzerine dayanmak yerine bir grup çevrimiçi öğrenicilere (learners) dayanmaktadır. Bir e-posta spamı ayrım yapmaksızın, doğrudan veya dolaylı olarak, gönderilen kişi ile geçerli bir ilişkisi olmayan bir gönderen tarafından gönderilmiştir. İstenmeyen e-postalar çalışanların çalışma verimliliğini etkilemektedir. E-posta spamlerinin bant genişliği israfı gibi benzer sayıda kötüye kullanımı vardır. Spamları doğru algılamak ve filtrelemek için popüler yöntemler mevcuttur: DNS tabanlı Blackhole, greylisting, spamtrap, ekstrüzyon, çevrimiçi makine öğrenme modelleri, özellik mühendisliği (feature engineering), matris faktörizasyonu vb. literatürde ve sektörde çeşitli spamla
  • 2. mücadele yöntemleri vardır. İçerik tabanlı yaklaşımlar her ne kadar kullanıcı mahremiyetini ihlal etse de günümüzde daha sofistike hale gelen spamları tanımada en etkili yöntemdir. Bu çalışmada yukarıda bahsettiğimiz spam tanıma yöntemlerine çözüm üreten ve çözümleri inceleyen üç makalenin genel bakış açısıyla özetlerini bulacaksınız. II. SPAM TANIMA YÖNTEMLERİNE GENEL BAKIŞ A. Segmental parametrizasyon ve e-posta üstbilgilerinin istatistiksel modellemesi Spam tanıma uygulamasını denemek için içerisinde doğru (meşru) ve spam mesajların olduğu bir veri seti gerekmektedir. Segmental parametrizasyon tekniğini deneyen çalışmada 3 tane veriseti üzerinde deneme yapılmıştır:  SpamAssassin public corpus  2005 TREC Spam Filtering Competition (TREC05-P1)  CEAS 2008 Challenge Lab Evaluation Corpus Bu 3 veriseti üzerinde yapılan çalışmalar yeterli görülmüştür. Tablo 1'de bu verisetlerinin detayı verilmiştir. Performans ölçütü olarak gerçek pozitiflerin yüzdesi (TP), yanlış pozitiflerin yüzdesi (FP), sınıflandırma doğruluğu (CA) ve toplam maliyet oranı (TCR) kullanılmıştır. TABLE I. DENEYDE KULLANILAN VERİSETLERİNİN TANIMLARI İlk olarak Segmental parametrizasyon tekniği için e-posta üst verileri dediğimiz başlıklardan elde edilen statik veriler kullanılmıştır. Her başlık (e-posta mesajı) histogramını temsil eden tek bir 71 boyutlu vektör kullanılarak parametrelendirilir. Tüm başlık için tek bir vektör elde edildiğinden dinamik bir özellik getirilmediğinden, bu yaklaşım statik olarak adlandırılmıştır. En önemli endişe burada başlıklardan yeterince bilgi çıkarılıp e-postanın doğru kategoriye konulmasıdır. Kategorilere ayırmak için literatürde bulunan en yaygın iki yöntem seçilmiştir: destek vektör makineleri (support vector machines) ve k-enyakın-komşu (k-nearest neighbors). Destek vektör makineleri sınıflandırıcısı için a polynomial function ve a Gaussian radial function kullanılmıştır. K-enyakın-komşu algoritmasında uzaklık metriği olarak euclidean, cityblock, cosine ve correlation olmak üzere 4 metrik kullanılmıştır. Figür 1 ve Figür 2 bu yöntemlerin sonuçlarını göstermektedir. Dinamik yöntemde ise başlıktan gelen değişik karakterler sinyal olarak gösterilmiştir. Sinyalleri pencerelere ayırarak göndermek sinyal işlemede genellikle yapılan bir tekniktir. Bir sıra özelliği birleştirerek pencereler elde edilmiştir. Bunlar seçilen uygulamalara sinyal olarak gönderilmiştir. Bu sıralı pencereler kullanılarak elde edilmiş histogram Figür 3'te verilmiştir. Sonraki aşamada spam tanıma sistemi olarak Gizli Markov Modelleri (Hidden Markov Model, HMM) bu sıralı yapının doğası gereği ve uygulamalardan gelen iyi sonuçlardan dolayı kullanılmıştır. Fig. 1.Results for SVM and KNN classifiers using the histograms of the headers in SpamAssassin: TP, FP and CA. Fig. 2.Results for SVM and KNN classifiers using the histograms of the headers in SpamAssassin: TCR values varying parameter. Fig. 3.Extracted histogram from a header using W= 40 and D = 20 HMM ile SVM metodlarının 3 farklı veri üzerindeki karşılaştırmaları Figür 4'te verilmiştir. Fig. 4.3 farklı veriseti üzerinde HMM ve SVM sistemlerinin karşılaştırması Sonuç olarak bu metod sadece başlık bilgisi kullanarak spam e-postaları filtrelemede var olan metodlara göre ya daha iyi ya da aynı sonuçları vermektedir. Bu algoritma kişisel gizlilik ve mahremiyetine önem verenlerin tercih edebileceği bir algoritmadır.
  • 3. B. Spam tanıma yöntemlerinin karşılaştırmalı incelemesi Spam yorumların gerçek yorumlardan ayırt edilmesi için literatürde bir çok çalışma mevcuttur. Bu çalışmaları inceleyen bir makalede bu yöntemler gruplanmış ve karşılaştırılmıştır. Yıllara göre spam tanıma yöntemleri hakkında yapılan araştırma sayıları dağılımı Figür 5'te verilmiştir. Fig. 5.Yıllara göre araştırma sayıları dağılımı Spam tanıma yöntemleri genel olarak 3 ana gruba ayrılır. Birincisi tekrarlayan mesajları tespit etmek, ikincisi içerik tabanlı yöntemler, üçüncüsü ise bunların dışında kalan diğer yöntemlerdir. İçerik tabanlı yöntemleri ise kendi içinde tür saptama, psikolinguistik aldatmaca saptama, metin kategorilendirme olarak 3 alt gruba ayrılır. Tekrarlayan mesajları tespit etmek için mesajlar arasındaki benzerlikler hesaplanır. Literatürdeki çalışmalarda Kullback– Leibler uyuşmazlığı adı verilen bir benzerlik uzaklık metriği kullanılmıştır. Spam tanıma olarak ise lojistik regresyon ve SVM kullanılmıştır. Bu konudaki çalışmalarda metin benzerliğine bakan araştırmalar, metin özelliklerinin benzerliğine bakan araştırmalara göre daha iyi sonuç vermiştir. İçerik tabanlı spam tanıma uygulamaları ise mesajların metadata bilgilerine bakmak yerine mesaj içeriklerine odaklanmışlardır. Tür saptama merkezli olan içerik tabanlı spam tanıma uygulamalarında mesajların içeriğinin türe göre değişeceği tahmin edilerek, mesajlar konuşmanın-bölümleri (parts-of-speech, POS) parçalarına ayrılır. Bunların dağılımına göre spam ve spam olmayan mesajlar birbirinden ayrılır. Psikolinguistik yöntem ise kelimelerin psikolinguistik anlamlarını kullanır. Böylece spam olan mesajlar ortaya çıkar. Bu yöntem neredeyse en iyi spam tanıma yöntemidir. Metin kategorilendirme ise mesaj içeriklerini n-gram özellik kümelerine ayırarak spamları ayırt etmektedir. Diğer yöntemler ise verileri etiketleme (label) yapan yöntemlerdir. Bunlar denetimli (supervised) veya denetimsiz (unsupervised) yöntemlerdir. C. Spam algılama için geliştirilmiş adaptif füzyon algoritması Spam algılama için geliştirilmiş adaptif füzyon algoritması test için 3 farklı veriseti kullanmıştır:  TREC datasets (TREC05p, TREC06p, TREC06c, TREC07p)  Electronic Messaging, Anti-Abuse, and Spam Conference dataset (CEAS08)  NetEase dataset Verisetlerinden özellikleri çıkarmak için 4-gram kullanılmıştır. Bu özelliklerin olup olmadığı bilgisi binary bilgi olarak eklenmiştir. Algoritmada 3 temel işlem yapılmıştır, bunları 3 başlık altında toplayabiliriz: bağlantı fonksiyonu, hata temelli öğrenme ve adaptif füzyon yani diğer bir adıyla uyarlamalı birleştirme. Bağlantı fonksiyonu için yapılan işlemleri söyle sıralayabiliriz. Öncelikle farklı çevrimiçi öğrenicilerin tahmin puanları genellikle farklı aralıklardadır. Bu yüzden ortaklaştırmak için yaygın olarak kullanılan sigmoid fonksiyonu, kullanılmıştır. Böylece çevrimiçi öğreniciler tarafından verilen ham tahmin puanlarını haritalamak için ortak bir 0 ile 1 arasında değer verilir. Bağlantı fonksiyonu ise gibidir. Bias ve ofset parametreleri her bir çevrimiçi öğrenici için farklı seçilerek çapraz doğrulama yoluyla ampirik olarak belirlenmiştir. Çevrimiçi öğrenicilerin hata temelli öğrenmesi için bir sınıflandırıcı seçilmelidir. Bu çevrimiçi öğrenicilerin nitelikli olması gerekmektedir. O yüzden sınıflandırıcı dört özelliğe sahip olmalıdır. Birincisi, vektör uzayı modeli olacak veya bir vektöre dönüştürülebilir uzay modeli olacak, böylece e-posta metni yalnızca bir kez işlenmelidir, ve tüm çevrimiçi öğrenciler için kullanılabilir olmalıdır. İkincisi, kabul edilebilir doğrulukta hafif bir sınıflandırıcı olacak. Yüksek tahmin kesinliğini sağlaması önemli. Üçüncü olarak, model parametreleri aşamalı olarak öğrenilebilir olmalıdır, çünkü sınıflandırıcıyı daha rekabetçi yapmak için bir hata ile eğitilecek. Dördüncü olarak, bu modelin çıktısı bir tahmin puanı olmalıdır. Bu dört özelliğe sahip herhangi bir sınıflandırıcı ile adaptif füzyon algoritmasını gerçekleştirebiliriz. Adaptif füzyon algoritmasında geliştiriciler 8 farklı çevrimiçi öğrenici denemişlerdir. Bunlar: Naive Bayes, Not So Naive Bayes, Winnow, Balance Winnow, çevrimiçi lojistik regresyon, Harbin Teknoloji Enstitüsü (HIT) tarafından geliştirilmiş bir algoritma, Pasif agresif, ve çevrimiçi Perceptron Algorithm with Margins. Hataya dayalı eğitim prosedüründe kalın bir eşik kullanılmıştır. Eğer e-posta iyi sınıflandırılmışsa çevrimiçi öğrenici güncellenmez. Fakat iyi sınıflandırılmamışsa, iyi sınıflandırılana kadar bu e-posta, çevrimiçi öğrenici tarafından eğitilmek için kullanılacaktır. Aşağıdaki gibi tahmin puanları elde edilmiş ise e-posta iyi sınıflandırılmamış demektir:
  • 4. Eğer tahmin puanı 0.75'ten büyük veya 0.25'ten küçük ise bir e-posta iyi sınıflandırılmıştır. Sınıflandırma işlemi bittikten sonra birleştirme işlemine geçilir. Bu işleme adaptif füzyon denir. Çevrimiçi öğrenicilere her birine farklı w değerinde olacak şekilde ağırlıklar verilir. Sonuç tahmin puanını, denkleminde olduğu gibi w değerleri ile ağırlaştırılmış P(x) tahmin puanlarının toplamı şeklinde hesaplama ile buluruz. Birleştirme işlemi ise fonksiyonundaki gibi yapılmaktadır. Bu işleme ise adaptif füzyon denmektedir. Adaptif füzyon algoritmasının test sonuçları göstermiştir ki sadece 8 çevrimiçi öğrenici kullanılarak yapılan test çalışmasında bile 50'den fazla çevrimiçi öğrenici kullanan diğer algoritmalardan daha iyi sonuçlar elde edilmiştir. Verisetleri üzerindeki sonuçları Tablo 2, Tablo 3 ve Tablo 4'te görebilirsiniz. TABLE II. ÇEVRİMİÇİ ÖĞRENİCİLERİN (1-AUC) ORAN SONUÇLARI TABLE III. DİĞER FÜZYON ALGORİTMALARI İLE ADAPTİF FÜZYON (AFSD) KARŞILAŞTIRMASI Çevrimiçi öğrenici sayısını artırmak aynı zamanda performansı artıracağını garantilememektedir. Bu yüzden doğru sayıda çevrimiçi öğrenici kullanmak için değişik denemeler yapılması gerekmektedir. Az bir küme kullanılması hem daha etkili hem de daha verimli olmaktadır. Adaptif füzyon algoritması 4 adet öğrenici kullanılarak test edildiğinde 8 adet öğrenici kullanımına göre daha kötü sonuç vermiştir. Fakat 8'den fazla öğrenici de daha kötü sonuç verebilir. Bu yüzden çeşitli denemeler yaparak optimum sayıyı bulmak önemlidir. Sonuç olarak bu sonuçlar göstermiştir ki Adaptive Füzyon algoritması ile literatürdeki en iyi algoritmalara göre daha iyi spam tanıma yapılabilmektedir. TABLE IV. DİĞER ALGORİTMALAR VE ADAPTİF FÜZYON ALGORİTMASININ (1-AUC) SONUÇLARI III. SONUÇ Spam tanıma yöntemleri son zamanlarda çok gelişmiştir. En son çıkan algoritmalarla spam e-postalar yeterince filtrelenebilse bile henüz araştırılacak yöntemler bitmemiştir. Spam tanıma konusunda araştırmacılar sürekli geliştirme yapmaktadırlar. Bu çalışmada literatürdeki üç makaleyi inceledik. Bunlardan birincisi spam tanıma için geliştirilmiş bir model sunmaktadır. Bu araştırmanın ismi segmental parametrizasyon ve e-posta üstbilgilerinin istatistiksel modellemesidir. İkinci incelediğimiz araştırma, aslında geçmişteki yöntemlerin toplu incelemesidir. Üçüncü ve son incelediğimiz araştırma da ilki gibi spam tanıma için yenilikçi bir çözüm sunmaktadır. Geliştirdikleri algoritmanın adı adaptif füzyon algoritmasıdır. Bu üç çalışmanın incelenmesi spam tanıma konusunda sadece başlangıç yapmamızı sağlamıştır. Bütün bu araştırmaların sonucunda spam e-postaların tanınması konusunda literatürde çeşitli etkili algoritmaların bulunduğu sonucuna varılmıştır. Bu algoritmalar halen geliştirilmeye açıktır ve başka yöntemlerin de doğmasına olanak sağlayacaktır. Daha iyi ve daha kaliteli bir e-posta hizmeti için e-posta sağlayıcıların bu araştırma alanına çok büyük destek olduklarını söyleyebiliriz. O yüzden araştırmacılar bu konuda araştırma ve geliştirme yapmaya davet edeceklerdir. ACKNOWLEDGMENT Bu çalışmaya katkılarından ve desteklerinden dolayı Dr. Murat Aydos'a ve Hacettepe Üniversitesi Bilgisayar Mühendisliği bölümüne teşekkür ederiz. REFERENCES [1] F. Salcedo-Campos, J. Díaz-Verdejo, P. García-Teodoro, “Segmental parameterisation and statistical modelling of e-mail headers for spam detection,” Information Sciences, 195(0), pp. 45–61, 2012. [2] A. Heydari, M. A. Tavakoli, N. Salim, Z. Heydari, “Detection of review spam: A survey”, Expert Systems with Applications, 42(0), pp. 3634– 3642, 2015. [3] C. Xu, B. Su, Y. Cheng, W. Pan, L. Chen, “An Adaptive Fusion Algorithm for Spam Detection”, IEEE Intelligent Systems, vol. 29, issue 4, July-Aug. 2014.