2. Információrendszerek Tanszék
Miről lesz szó?
§ Kutatási kérdések
§ A behatolás detektálás kihívásai
§ Gépi tanulás
§ MapReduce
§ Kutatási módszertan
– Az adatbázis
– Mintavételezés
§ Eredmények értékelése
– Modellek értékelése
– Teljesítmény
Készítette: Brunner Csaba
3. Információrendszerek Tanszék
Kutatási probléma, kutatási kérdések
§ Behatolás detektálás támogatása párhuzamosított gépi tanulási eljárásokkal
§ Kutatási kérdések
– Milyen gépi tanulási eljárások alkalmazhatók a behatolásdetektálás területén
– Milyen párhuzamosítást érdemes alkalmazni ahhoz, hogy az adatbányászati modell
legalább elfogadható teljesítményt nyújtson az adathalmazon
§ Hipotézisek:
– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az adathalmazon.
– 2.: A párhuzamosításnak köszönhetően javulás várható a műveletvégrehajtási időben.
§ A hipotézisek vizsgálatára kísérletet végeztem el egy adatbázison, melynek
feldolgozására egy saját programkódot írtam.
Készítette: Brunner Csaba
4. Információrendszerek Tanszék
A behatolás detektálás kihívásai, behatolás
detektálási rendszer (IDS)
§ Az IDS routerek és tűzfalak mellett működve figyeli a hálózat
használatában tapasztalt anomáliákat.
– Kategóriái:
• Hálózat alapú IDS
• Hoszt alapú IDS
– Típusai:
• Szignatúra alapú
• Statisztika alapú
• Neurális hálózattal támogatott
Készítette: Brunner Csaba
5. Információrendszerek Tanszék
Gépi tanulás (Machine learning)
§ Machine learning – Gépi tanulás
– „Célja annak a hipotézisnek a keresése, amely a legjobban illeszkedik a kiindulásul
vett adatokra – azzal az elvárással, hogy az így megtanult minta vagy összefüggés
alkalmazható legyen előre nem látott adatok esetére is.” (Sántáné-Tóth et al., 2008)
§ Tanuló algoritmusok kategóriái:
– Felügyelt tanulás
• Regresszió
• Osztályozás
– Nem-felügyelt tanulás
§ A választásom végül a Döntési fa algoritmusok közül az ID3 algoritmusra
esett.
Készítette: Brunner Csaba
6. Információrendszerek Tanszék
A MapReduce
§ MapReduce
– Lényege: nagy mennyiségű adatot oszt fel párhuzamosan működő
feldolgozó egységek között, majd az eredményeket valamilyen művelet
segítségével összegzi
Készítette: Brunner Csaba
7. Információrendszerek Tanszék
Kutatási módszertan – a feldolgozott adatbázis
§ A már bemutatott behatolás detektálási feladatra választott adatbázis:
– KDD Cup 1999-es versenyének adatbázisa
– 41 változó ~5 millió adata a tréning, és további ~2 millió a teszt állományban
– A könnyebb feldolgozhatóság érdekében a biztosított 10%-os tréning és teszt
mintákkal dolgoztam
– Célváltozó: túl részletes volt, ezért egy fogalmi hierarchiát alkalmaztam
Készítette: Brunner Csaba
8. Információrendszerek Tanszék
Kutatási módszertan – mintavételezés
§ Túl sok volt még így is az adatsor, mintavételezést kellett használni.
§ Egy további változó jellemző az volt, hogy 2, 4 vagy 8 feldolgozási
szálon futott a program.
§ Mindent egybevetbe 28 kísérleti futtatásra került sor.
Készítette: Brunner Csaba
14. Információrendszerek Tanszék
Konklúzió
§ A hipotézisek:
– 1.: az adatbányászati modell legalább elfogadható teljesítményt nyújt az
adathalmazon? - beigazolódott
– 2.: A párhuzamosításnak köszönhetően javulás várható a
műveletvégrehajtási időben. – beigazolódott
§ Javaslatok a további kutatásra:
– Adatok tárolása
– Pontosabb előrejelzések
– Összegzett teljesítmény
Készítette: Brunner Csaba