ºÝºÝߣ

ºÝºÝߣShare a Scribd company logo
§µ§ß§Ú§Ó§Ö§â§Ù§Ú§ä§Ö§ä §å §¢§Ö§à§Ô§â§Ñ§Õ§å 
§¶§Ñ§Ü§å§Ý§ä§Ö§ä §à§â§Ô§Ñ§ß§Ú§Ù§Ñ§è§Ú§à§ß§Ú§ç §ß§Ñ§å§Ü§Ñ 
§­§Ñ§Ò§à§â§Ñ§ä§à§â§Ú?§Ñ §Ù§Ñ §Ö§Ý§Ö§Ü§ä§â§à§ß§ã§Ü§à §á§à§ã§Ý§à§Ó§Ñ?§Ö 
Hadoop i sveprisutno 
ra?unarstvo 
Darko Marjanovi? 
?or?e Stepani? 
Milo? Milovanovi?
ELAB 
? Oblasti izu?avanja u Laboratoriji za elektronsko 
poslovanje: 
¨C Elektronsko poslovanje 
¨C Internet i mobilne tehnologije 
¨C Big Data 
¨C Cloud Computing 
¨C E-obrazovanje 
¨C Sveprisutno ra?unarstvo 
¨C Socijalne mre?e
Big Data 
? Big Data predstavlja podatake koji su one 
koli?ine koja prevazilazi mogu?nosti 
uobi?ajeno kori??enog softvera za 
skladi?tenje, obradu i upravljanje podacima. 
? Big data je sve ono ?to ne mo?e da stane u 
Excel.
Big Data dimenzije 
? Volume ¨C velika brzina rasta novih podataka i 
?uvanje postoje?ih dovodi do toga da se sada 
skladi?te stotine terabajta pa ?ak i mnogo vi?e. 
? Variety ¨C raznolikost podataka, vi?e nije 
dovoljno ?uvati samo struktuirane podatke ve? 
i slike, podatke sa dru?tvenih mre?a, logove, 
senzorske podatke¡­ 
? Velocity ¨C brzina kojom pristi?u novi podaci je 
velika i ve?a je od brzine obrade podataka.
Hadoop 
? Hadoop je open-source software framework 
Apache fondacije. 
? Slu?i za skladi?tenje i procesiranje velikih 
koli?ina podataka. 
? Hadoop je nastao 2005. godine od strane 
Doug Cutting i Mike Cafarella. 
? Ime je dobio po slonu igra?ki Cutting-ovog 
sina. 
? Napisan je u Java programskom jeziku.
Hadoop komponente 
? Hadoop Common paket 
? Hadoop Distributed File System(HDFS) 
? Hadoop YARN 
? Hadoop Map Reduce
Hadoop Ekosistem 
? Hadoop je mogu?e nadograditi brojnim alatima 
kojima sa pobolj?avaju mogu?nosti i efikasnost 
obrade podataka. 
? Dele se na alate za preno?enje podataka, analizu 
podataka, upravljanje klasterom¡­ 
? Neki od alata koji se grade na Hadoop su: 
¨C Apache Hive 
¨C Apache Pig 
¨C Apache Flume 
¨C Apache Hue 
¨C Apache HCatalog 
¨C ¡­¡­
Hadoop ¨C Elab klaster 
? Master node, Slave1 node, Slave2 node 
¨C 27 Cores (CPU) 
¨C 60 GB RAM 
¨C 1TB +++ 
? Test klaster na privatnom Cloud-u, realizovan 
uz pomo? OpenStack softvera. 
¨C 32 Cores (CPU) 
¨C 64 GB RAM 
¨C 2TB +++
Hadoop ¨C Za ?ta se koristi 
? Prikupljanje i analiza 
¨C Moodle podaci 
¨C Twitter podaci 
¨C Senzorski podaci 
? Integracija sa drugim servisima 
¨C Sharepoint 
? Edukativne svrhe
Projekat Slon?e i Malina 
? Skupljanje i analiza senzorskih podataka iz 
pametnog okru?enja. 
? Pobolj?anje algoritma za upravlja?ke akcije. 
? Generisanje izve?taja radi dono?enja boljih 
odluka. 
? Pra?enje u realnom vremenu.
Za?to Hadoop 
? Velika brzina pristizanja novih podataka, 
upisivanje novih podataka na 2 do 3 sekunde. 
? Raznolikost podataka, senzorski podaci. 
? Velika koli?ina podataka, mogu?nost za 
dugotrajno skladi?tenje.
Po?etni model
Model u razvoju - Upravlja?ke akcije
Sveprisutno ra?unarstvo
Apache Flume 
? Brz transfer podataka u Hadoop HDFS 
? Sources ¨C izvor podataka 
? Channels ¨C kanal prenosa podataka 
? Sinks - izvor
Apache Flume 
? Koristi se za naj?e??e za log podatke, 
serijalizovane podatke, podatke sa dru?tvenih 
mre?a¡­.. 
? Namenjen je isklju?ivo za transfer podataka, u 
slu?aju obrade podataka prilikom transfera 
koristi se Apache Storm. 
? Ne koristi se za struktuirane podatke, za 
prenos relacione baze u HDFS se koristi Sqoop.
Apache Flume
Hive - nastanak 
2006 
12m 
korisnika 
<100GB/dan 
2007 
58m 
korisnika 
1TB/dan 
2009 
360m 
korisnika 
>10TB 
Facebook 
MySQL, Java Derby, Scribe 
Python skripte
Hive nastanak 
? Uvo?enje Hadoop-a 
? Potreba za MapReduce-om 
? 30PB podataka na klasteru 2011-te 
? Korisnici ¨C marketing stru?njaci 
? Nedostaci ¨C napredno poznavanje Java 
programskog jezika, te?ko ?itljive ?eme 
podataka
?ta je Hive? 
? Hive ¨C data warehousing infrastruktura za 
Hadoop 
? HiveQL zasnovan na SQL-u 
? Jednostavnije pisanje MapReduce programa 
? Primena: 
¨C Analiza log podataka 
¨C Obrada teksta 
¨C Indeksiranje dokumenata 
¨C Statisti?ke analize, Business Intelligence
Hive komponente 
? Shell ¨C interakcija sa korisnikom 
? Driver ¨C upravljanje Hive engine-om 
? Compiler 
? Execution engine ¨C izvr?avanje 
? Meta Store ¨C ?ema tabela + SerDe
Hive vs OLAP 
? Skaliranje i za vi?e od 10.000 ma?ina u klasteru 
? Obrada >1TB podataka 
? Nema izmene podataka 
? Male promene na podacima imaju mali zna?aj
Hive tipovi podataka 
Primitivni 
Integer 
-tinyint 1B 
-smallint 2B 
-int 4B 
-bigint 8B 
Boolean ¨C True/False 
Float 
-float 
-double 
String 
Slo?eni 
Structs 
Maps (key-value) 
Arrays
Za?to Hive? 
? Laka manipulacija podataka 
? Nestruktuirani podaci prikazani kao tabele 
? Mogu?nosti pro?irivanja 
? Sli?nost sa SQL-om
Hive Demo

More Related Content

Hadoop i sveprisutno ra?unarstvo

  • 1. §µ§ß§Ú§Ó§Ö§â§Ù§Ú§ä§Ö§ä §å §¢§Ö§à§Ô§â§Ñ§Õ§å §¶§Ñ§Ü§å§Ý§ä§Ö§ä §à§â§Ô§Ñ§ß§Ú§Ù§Ñ§è§Ú§à§ß§Ú§ç §ß§Ñ§å§Ü§Ñ §­§Ñ§Ò§à§â§Ñ§ä§à§â§Ú?§Ñ §Ù§Ñ §Ö§Ý§Ö§Ü§ä§â§à§ß§ã§Ü§à §á§à§ã§Ý§à§Ó§Ñ?§Ö Hadoop i sveprisutno ra?unarstvo Darko Marjanovi? ?or?e Stepani? Milo? Milovanovi?
  • 2. ELAB ? Oblasti izu?avanja u Laboratoriji za elektronsko poslovanje: ¨C Elektronsko poslovanje ¨C Internet i mobilne tehnologije ¨C Big Data ¨C Cloud Computing ¨C E-obrazovanje ¨C Sveprisutno ra?unarstvo ¨C Socijalne mre?e
  • 3. Big Data ? Big Data predstavlja podatake koji su one koli?ine koja prevazilazi mogu?nosti uobi?ajeno kori??enog softvera za skladi?tenje, obradu i upravljanje podacima. ? Big data je sve ono ?to ne mo?e da stane u Excel.
  • 4. Big Data dimenzije ? Volume ¨C velika brzina rasta novih podataka i ?uvanje postoje?ih dovodi do toga da se sada skladi?te stotine terabajta pa ?ak i mnogo vi?e. ? Variety ¨C raznolikost podataka, vi?e nije dovoljno ?uvati samo struktuirane podatke ve? i slike, podatke sa dru?tvenih mre?a, logove, senzorske podatke¡­ ? Velocity ¨C brzina kojom pristi?u novi podaci je velika i ve?a je od brzine obrade podataka.
  • 5. Hadoop ? Hadoop je open-source software framework Apache fondacije. ? Slu?i za skladi?tenje i procesiranje velikih koli?ina podataka. ? Hadoop je nastao 2005. godine od strane Doug Cutting i Mike Cafarella. ? Ime je dobio po slonu igra?ki Cutting-ovog sina. ? Napisan je u Java programskom jeziku.
  • 6. Hadoop komponente ? Hadoop Common paket ? Hadoop Distributed File System(HDFS) ? Hadoop YARN ? Hadoop Map Reduce
  • 7. Hadoop Ekosistem ? Hadoop je mogu?e nadograditi brojnim alatima kojima sa pobolj?avaju mogu?nosti i efikasnost obrade podataka. ? Dele se na alate za preno?enje podataka, analizu podataka, upravljanje klasterom¡­ ? Neki od alata koji se grade na Hadoop su: ¨C Apache Hive ¨C Apache Pig ¨C Apache Flume ¨C Apache Hue ¨C Apache HCatalog ¨C ¡­¡­
  • 8. Hadoop ¨C Elab klaster ? Master node, Slave1 node, Slave2 node ¨C 27 Cores (CPU) ¨C 60 GB RAM ¨C 1TB +++ ? Test klaster na privatnom Cloud-u, realizovan uz pomo? OpenStack softvera. ¨C 32 Cores (CPU) ¨C 64 GB RAM ¨C 2TB +++
  • 9. Hadoop ¨C Za ?ta se koristi ? Prikupljanje i analiza ¨C Moodle podaci ¨C Twitter podaci ¨C Senzorski podaci ? Integracija sa drugim servisima ¨C Sharepoint ? Edukativne svrhe
  • 10. Projekat Slon?e i Malina ? Skupljanje i analiza senzorskih podataka iz pametnog okru?enja. ? Pobolj?anje algoritma za upravlja?ke akcije. ? Generisanje izve?taja radi dono?enja boljih odluka. ? Pra?enje u realnom vremenu.
  • 11. Za?to Hadoop ? Velika brzina pristizanja novih podataka, upisivanje novih podataka na 2 do 3 sekunde. ? Raznolikost podataka, senzorski podaci. ? Velika koli?ina podataka, mogu?nost za dugotrajno skladi?tenje.
  • 13. Model u razvoju - Upravlja?ke akcije
  • 15. Apache Flume ? Brz transfer podataka u Hadoop HDFS ? Sources ¨C izvor podataka ? Channels ¨C kanal prenosa podataka ? Sinks - izvor
  • 16. Apache Flume ? Koristi se za naj?e??e za log podatke, serijalizovane podatke, podatke sa dru?tvenih mre?a¡­.. ? Namenjen je isklju?ivo za transfer podataka, u slu?aju obrade podataka prilikom transfera koristi se Apache Storm. ? Ne koristi se za struktuirane podatke, za prenos relacione baze u HDFS se koristi Sqoop.
  • 18. Hive - nastanak 2006 12m korisnika <100GB/dan 2007 58m korisnika 1TB/dan 2009 360m korisnika >10TB Facebook MySQL, Java Derby, Scribe Python skripte
  • 19. Hive nastanak ? Uvo?enje Hadoop-a ? Potreba za MapReduce-om ? 30PB podataka na klasteru 2011-te ? Korisnici ¨C marketing stru?njaci ? Nedostaci ¨C napredno poznavanje Java programskog jezika, te?ko ?itljive ?eme podataka
  • 20. ?ta je Hive? ? Hive ¨C data warehousing infrastruktura za Hadoop ? HiveQL zasnovan na SQL-u ? Jednostavnije pisanje MapReduce programa ? Primena: ¨C Analiza log podataka ¨C Obrada teksta ¨C Indeksiranje dokumenata ¨C Statisti?ke analize, Business Intelligence
  • 21. Hive komponente ? Shell ¨C interakcija sa korisnikom ? Driver ¨C upravljanje Hive engine-om ? Compiler ? Execution engine ¨C izvr?avanje ? Meta Store ¨C ?ema tabela + SerDe
  • 22. Hive vs OLAP ? Skaliranje i za vi?e od 10.000 ma?ina u klasteru ? Obrada >1TB podataka ? Nema izmene podataka ? Male promene na podacima imaju mali zna?aj
  • 23. Hive tipovi podataka Primitivni Integer -tinyint 1B -smallint 2B -int 4B -bigint 8B Boolean ¨C True/False Float -float -double String Slo?eni Structs Maps (key-value) Arrays
  • 24. Za?to Hive? ? Laka manipulacija podataka ? Nestruktuirani podaci prikazani kao tabele ? Mogu?nosti pro?irivanja ? Sli?nost sa SQL-om