Presentation of Hadoop and IoT for SQL Server UG Belgrade, held in Microsoft Serbia, in June 2014. Model of Hadoop and IoT platform, developed at Laboratorija za elektronsko poslovanje, Faculty of Organizational Sciences - University of Belgrade.
2. ELAB
? Oblasti izu?avanja u Laboratoriji za elektronsko
poslovanje:
¨C Elektronsko poslovanje
¨C Internet i mobilne tehnologije
¨C Big Data
¨C Cloud Computing
¨C E-obrazovanje
¨C Sveprisutno ra?unarstvo
¨C Socijalne mre?e
3. Big Data
? Big Data predstavlja podatake koji su one
koli?ine koja prevazilazi mogu?nosti
uobi?ajeno kori??enog softvera za
skladi?tenje, obradu i upravljanje podacima.
? Big data je sve ono ?to ne mo?e da stane u
Excel.
4. Big Data dimenzije
? Volume ¨C velika brzina rasta novih podataka i
?uvanje postoje?ih dovodi do toga da se sada
skladi?te stotine terabajta pa ?ak i mnogo vi?e.
? Variety ¨C raznolikost podataka, vi?e nije
dovoljno ?uvati samo struktuirane podatke ve?
i slike, podatke sa dru?tvenih mre?a, logove,
senzorske podatke¡
? Velocity ¨C brzina kojom pristi?u novi podaci je
velika i ve?a je od brzine obrade podataka.
5. Hadoop
? Hadoop je open-source software framework
Apache fondacije.
? Slu?i za skladi?tenje i procesiranje velikih
koli?ina podataka.
? Hadoop je nastao 2005. godine od strane
Doug Cutting i Mike Cafarella.
? Ime je dobio po slonu igra?ki Cutting-ovog
sina.
? Napisan je u Java programskom jeziku.
7. Hadoop Ekosistem
? Hadoop je mogu?e nadograditi brojnim alatima
kojima sa pobolj?avaju mogu?nosti i efikasnost
obrade podataka.
? Dele se na alate za preno?enje podataka, analizu
podataka, upravljanje klasterom¡
? Neki od alata koji se grade na Hadoop su:
¨C Apache Hive
¨C Apache Pig
¨C Apache Flume
¨C Apache Hue
¨C Apache HCatalog
¨C ¡¡
9. Hadoop ¨C Za ?ta se koristi
? Prikupljanje i analiza
¨C Moodle podaci
¨C Twitter podaci
¨C Senzorski podaci
? Integracija sa drugim servisima
¨C Sharepoint
? Edukativne svrhe
10. Projekat Slon?e i Malina
? Skupljanje i analiza senzorskih podataka iz
pametnog okru?enja.
? Pobolj?anje algoritma za upravlja?ke akcije.
? Generisanje izve?taja radi dono?enja boljih
odluka.
? Pra?enje u realnom vremenu.
11. Za?to Hadoop
? Velika brzina pristizanja novih podataka,
upisivanje novih podataka na 2 do 3 sekunde.
? Raznolikost podataka, senzorski podaci.
? Velika koli?ina podataka, mogu?nost za
dugotrajno skladi?tenje.
15. Apache Flume
? Brz transfer podataka u Hadoop HDFS
? Sources ¨C izvor podataka
? Channels ¨C kanal prenosa podataka
? Sinks - izvor
16. Apache Flume
? Koristi se za naj?e??e za log podatke,
serijalizovane podatke, podatke sa dru?tvenih
mre?a¡..
? Namenjen je isklju?ivo za transfer podataka, u
slu?aju obrade podataka prilikom transfera
koristi se Apache Storm.
? Ne koristi se za struktuirane podatke, za
prenos relacione baze u HDFS se koristi Sqoop.
19. Hive nastanak
? Uvo?enje Hadoop-a
? Potreba za MapReduce-om
? 30PB podataka na klasteru 2011-te
? Korisnici ¨C marketing stru?njaci
? Nedostaci ¨C napredno poznavanje Java
programskog jezika, te?ko ?itljive ?eme
podataka
20. ?ta je Hive?
? Hive ¨C data warehousing infrastruktura za
Hadoop
? HiveQL zasnovan na SQL-u
? Jednostavnije pisanje MapReduce programa
? Primena:
¨C Analiza log podataka
¨C Obrada teksta
¨C Indeksiranje dokumenata
¨C Statisti?ke analize, Business Intelligence
21. Hive komponente
? Shell ¨C interakcija sa korisnikom
? Driver ¨C upravljanje Hive engine-om
? Compiler
? Execution engine ¨C izvr?avanje
? Meta Store ¨C ?ema tabela + SerDe
22. Hive vs OLAP
? Skaliranje i za vi?e od 10.000 ma?ina u klasteru
? Obrada >1TB podataka
? Nema izmene podataka
? Male promene na podacima imaju mali zna?aj