ݺߣ

ݺߣShare a Scribd company logo
Behatolási adatok
feldolgozása gépi
tanulás és
MapReduce
segítségével
Készítette: Brunner Csaba
Információrendszerek Tanszék
Miről lesz szó?
§ Kutatási kérdések
§ A behatolás detektálás kihívásai
§ Gépi tanulás
§ MapReduce
§ Kutatási módszertan
– Az adatbázis
– Mintavételezés
§ Eredmények értékelése
– Modellek értékelése
– Teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási probléma, kutatási kérdések
§ Behatolás detektálás támogatása párhuzamosított gépi tanulási eljárásokkal
§ Kutatási kérdések
– Milyen gépi tanulási eljárások alkalmazhatók a behatolásdetektálás területén
– Milyen párhuzamosítást érdemes alkalmazni ahhoz, hogy az adatbányászati modell
legalább elfogadható teljesítményt nyújtson az adathalmazon
§ Hipotézisek:
– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon.
– 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben.
§ A hipotézisek vizsgálatára kísérletet végeztem el egy adatbázison, melynek
feldolgozására egy saját programkódot írtam.
Készítette: Brunner Csaba
Információrendszerek Tanszék
A behatolás detektálás kihívásai, behatolás
detektálási rendszer (IDS)
§ Az	IDS	routerek	és	tűzfalak	mellett	működve	figyeli	a	hálózat	
használatában	tapasztalt	anomáliákat.
– Kategóriái:
• Hálózat	alapú	IDS
• Hoszt	alapú	IDS
– Típusai:
• Szignatúra	alapú
• Statisztika	alapú
• Neurális	hálózattal	támogatott
Készítette: Brunner Csaba
Információrendszerek Tanszék
Gépi tanulás (Machine learning)
§ Machine learning – Gépi tanulás
– „Célja annak a hipotézisnek a keresése, amely a legjobban illeszkedik a kiindulásul
vett adatokra – azzal az elvárással, hogy az így megtanult minta vagy összefüggés
alkalmazható legyen előre nem látott adatok esetére is.” (Sántáné-Tóth et al., 2008)
§ Tanuló algoritmusok kategóriái:
– Felügyelt tanulás
• Regresszió
• Osztályozás
– Nem-felügyelt tanulás
§ A választásom végül a Döntési fa algoritmusok közül az ID3 algoritmusra
esett.
Készítette: Brunner Csaba
Információrendszerek Tanszék
A MapReduce
§ MapReduce
– Lényege: nagy mennyiségű adatot oszt fel párhuzamosan működő
feldolgozó egységek között, majd az eredményeket valamilyen művelet
segítségével összegzi
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási módszertan – a feldolgozott adatbázis
§ A már bemutatott behatolás detektálási feladatra választott adatbázis:
– KDD Cup 1999-es versenyének adatbázisa
– 41 változó ~5 millió adata a tréning, és további ~2 millió a teszt állományban
– A könnyebb feldolgozhatóság érdekében a biztosított 10%-os tréning és teszt
mintákkal dolgoztam
– Célváltozó: túl részletes volt, ezért egy fogalmi hierarchiát alkalmaztam
Készítette: Brunner Csaba
Információrendszerek Tanszék
Kutatási módszertan – mintavételezés
§ Túl sok volt még így is az adatsor, mintavételezést kellett használni.
§ Egy további változó jellemző az volt, hogy 2, 4 vagy 8 feldolgozási
szálon futott a program.
§ Mindent egybevetbe 28 kísérleti futtatásra került sor.
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése – modell teljesítménye
5 osztályon
1g4sz
2g8sz
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése –modell teljesítménye
2 osztályon
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése - teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése - teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Eredmények értékelése - teljesítmény
Készítette: Brunner Csaba
Információrendszerek Tanszék
Konklúzió
§ A hipotézisek:
– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az
adathalmazon? - beigazolódott
– 2.: A párhuzamosításnak köszönhetően javulás várható a
műveletvégrehajtási időben. – beigazolódott
§ Javaslatok a további kutatásra:
– Adatok tárolása
– Pontosabb előrejelzések
– Összegzett teljesítmény
Készítette: Brunner Csaba

More Related Content

Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segítségével

  • 1. Behatolási adatok feldolgozása gépi tanulás és MapReduce segítségével Készítette: Brunner Csaba
  • 2. Információrendszerek Tanszék Miről lesz szó? § Kutatási kérdések § A behatolás detektálás kihívásai § Gépi tanulás § MapReduce § Kutatási módszertan – Az adatbázis – Mintavételezés § Eredmények értékelése – Modellek értékelése – Teljesítmény Készítette: Brunner Csaba
  • 3. Információrendszerek Tanszék Kutatási probléma, kutatási kérdések § Behatolás detektálás támogatása párhuzamosított gépi tanulási eljárásokkal § Kutatási kérdések – Milyen gépi tanulási eljárások alkalmazhatók a behatolásdetektálás területén – Milyen párhuzamosítást érdemes alkalmazni ahhoz, hogy az adatbányászati modell legalább elfogadható teljesítményt nyújtson az adathalmazon § Hipotézisek: – 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon. – 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben. § A hipotézisek vizsgálatára kísérletet végeztem el egy adatbázison, melynek feldolgozására egy saját programkódot írtam. Készítette: Brunner Csaba
  • 4. Információrendszerek Tanszék A behatolás detektálás kihívásai, behatolás detektálási rendszer (IDS) § Az IDS routerek és tűzfalak mellett működve figyeli a hálózat használatában tapasztalt anomáliákat. – Kategóriái: • Hálózat alapú IDS • Hoszt alapú IDS – Típusai: • Szignatúra alapú • Statisztika alapú • Neurális hálózattal támogatott Készítette: Brunner Csaba
  • 5. Információrendszerek Tanszék Gépi tanulás (Machine learning) § Machine learning – Gépi tanulás – „Célja annak a hipotézisnek a keresése, amely a legjobban illeszkedik a kiindulásul vett adatokra – azzal az elvárással, hogy az így megtanult minta vagy összefüggés alkalmazható legyen előre nem látott adatok esetére is.” (Sántáné-Tóth et al., 2008) § Tanuló algoritmusok kategóriái: – Felügyelt tanulás • Regresszió • Osztályozás – Nem-felügyelt tanulás § A választásom végül a Döntési fa algoritmusok közül az ID3 algoritmusra esett. Készítette: Brunner Csaba
  • 6. Információrendszerek Tanszék A MapReduce § MapReduce – Lényege: nagy mennyiségű adatot oszt fel párhuzamosan működő feldolgozó egységek között, majd az eredményeket valamilyen művelet segítségével összegzi Készítette: Brunner Csaba
  • 7. Információrendszerek Tanszék Kutatási módszertan – a feldolgozott adatbázis § A már bemutatott behatolás detektálási feladatra választott adatbázis: – KDD Cup 1999-es versenyének adatbázisa – 41 változó ~5 millió adata a tréning, és további ~2 millió a teszt állományban – A könnyebb feldolgozhatóság érdekében a biztosított 10%-os tréning és teszt mintákkal dolgoztam – Célváltozó: túl részletes volt, ezért egy fogalmi hierarchiát alkalmaztam Készítette: Brunner Csaba
  • 8. Információrendszerek Tanszék Kutatási módszertan – mintavételezés § Túl sok volt még így is az adatsor, mintavételezést kellett használni. § Egy további változó jellemző az volt, hogy 2, 4 vagy 8 feldolgozási szálon futott a program. § Mindent egybevetbe 28 kísérleti futtatásra került sor. Készítette: Brunner Csaba
  • 9. Információrendszerek Tanszék Eredmények értékelése – modell teljesítménye 5 osztályon 1g4sz 2g8sz Készítette: Brunner Csaba
  • 10. Információrendszerek Tanszék Eredmények értékelése –modell teljesítménye 2 osztályon Készítette: Brunner Csaba
  • 11. Információrendszerek Tanszék Eredmények értékelése - teljesítmény Készítette: Brunner Csaba
  • 12. Információrendszerek Tanszék Eredmények értékelése - teljesítmény Készítette: Brunner Csaba
  • 13. Információrendszerek Tanszék Eredmények értékelése - teljesítmény Készítette: Brunner Csaba
  • 14. Információrendszerek Tanszék Konklúzió § A hipotézisek: – 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon? - beigazolódott – 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben. – beigazolódott § Javaslatok a további kutatásra: – Adatok tárolása – Pontosabb előrejelzések – Összegzett teljesítmény Készítette: Brunner Csaba