際際滷

際際滷Share a Scribd company logo
Felice Russo
Santa Margherita Ligure
13 Marzo 2015
Storia
 1996  University of Ljubljana and Jo転ef Stefan Institute
started development of ML*, a machine learning framework in
C++.
 1997  Python integration layer
 2003  GUI based on PyQt
 In 2009- over 100 widgets were created and maintained.
 2013  Orange Canvas 2.7 released  Major GUI redesign.
Source: http://en.wikipedia.org/wiki/Orange_%28software%29
Perche usare Orange?
 Non e necessaria nessuna conoscenza di
programmazione  Programazzione visuale
 Ottima visualizzazione dei dati
 Facile da usare
 Add-ons per
 Bioinformatica
 Network Analysis
 Text mining
 Free and open source software
Installazione
 Download installer from http://orange.biolab.si/
 Run installer
 Requires Python 2.6 or 2.7
 Includes NumPy, SciPy, PyQt, other required libraries
 To run, double-click on the Orange Canvas icon
Scheme
Widgets
Orange usa i widgets che sono dei blocchi
pre-costruiti di data analisi. In questo
caso abbiamo il file widget connesso al
data table widget . Questultimo mostra i
dati in forma tabellare. Per ogni widget
abbiamo 2 束orecchie損 per le connessioni.
Canvas
Interfaccia di partenza
Orange   felice russo
Orange   felice russo
Orange   felice russo
Orange   felice russo
Orange   felice russo
Orange   felice russo
Orange   felice russo
Orange   felice russo
Esempio di schema per decision tree
Demo
 Esempio di classificazione con data set IRIS
 Esempio di classificazione con data set WINE
 Esempio di Na誰ve Bayes con data set TITANIC
 Esempio di classificazione con data set INSETTI
 Esempio di Naive Bayes con data set FIBROMA
 Esempio di classificazione con il data set INCENDI
 Esempio di clustering con il dat set ZOO
Iris
Un problema famoso
R. A. Fishers Iris Dataset.
 3 classi
 50 esempi per ogni classe
La task e' quella di classificare le
piante Iris in 3 varieta' usando la
lunghezza dei petali e la
larghezza dei petali.
Iris
Setosa
Iris
Versicolor
Iris
Virginica
Iris
Utilizzati tre classificatori:
- SOM
- Decision Tree
- SVM
SOM Visualizer : per vedere la
mappa di Kohonen
Tree Grpah: per vedere lalbero
decisionale
Widget Predictions: per verificare le
performance della SVM
Widget Test Learner : per verificare
laccuratezza dei 3 classificatori
Wine
 Relevant Information: Questi dati sono il risultato di analisi
chimiche di vini della stessa regione Italiana ma provenienti da 3
diverse coltivazioni. L'analisi ha misurato 13 costituenti del vino.
-- Attributi
1) Alcol
2) Acido malico
3) Ash
4) Alcalinity of ash
5) Magnesio
6) Fenoli
7) Flavonoidi
8) Fenoli non flavanoidi
9) Proantocianidine
10) Intensita' colore
11) colore
12)OD280/OD315 diluiti nel vino
13)Prolina
Records
class 1 59
class 2 71
class 3 48
Wine
Classificazione effettuata
con una rete NN e una
SOM
Per la valutazione delle
performance e stato usato
il widget Test Learners con
RIOC curve e confusion
matrix
Il widget Select
Attribute serve a
definire gli attributi (o
predittori) e la classe
(o risposta).
Wine
Per lSOM possiamo
notare che il vino 1 e
quello che ha i livelli
di alchool piu alti
mentre il vino 2 e
quello con i livelli di
alchool piu bassi
Alchool level
Titanic
Per ogni persona a bordo del Titanic e riportato il sesso, eta
(bambino, adulto) lo stato economico (prima, seconda, terza classe
ed equipaggio) e se e sopravvisuta.
SOURCE:
"Report on the Loss of the `Titanic' (S.S.)" (1990), _British Board of Trade Inquiry Report_
(reprint), Gloucester, UK: Allan Sutton Publishing.
Titanic
La probabilita di sopravvivenza dei
bambini indipendentemente dal
sesso e del loro stato sociale e stata
del 52 %. Scegliendo le bambine
questa sale all 86%.
Insetti
Data una collezione di insetti con 5 esempi di grilli e di 5 esempi di cavallette,
decidere che tipo di insetto e' quello riportato sotto: grillo o cavalletta?
Insetti
Esempio non
visto prima
Insetti
Insetti
Linsetto e un grillo!
Classificatore
lineare
Regole
Insetti Predizione automatica
Due records non utilizzati per il training e
correttamente classificati dal modello.File csv di input
Fibroma
Stabilire la probabilita di avere un certo
numero di fibromi a partire dai sintomi
riportati dalle clienti ai ginecologi
Si tratta di prevedere il numero di
potenziali fibroidi a partire dalla
presenza o no di emorragia, dolori
pelvici, mal di schiena e frequenza
dellurinazione.
Fibroma
Importanza assoluta dei predittori
Fibroma
Probabilita intorno al 20% di avere multipli
fibromi cono dolore pelvico presente e
frequente urinazione
La probabilita passa a piu del 40% se si
aggiunge la presenza di emorragia.
Incendi foreste
 Gli incendi delle foreste costituiscono un serie pericolo per le vite
umani, per leconomia di una regione e per lecologia. Questo
fenomeno e legato a causa multiple e nonostante gli sforzi delle
nazioni per controllare questio disastri ogni anno milioni di ettari di
foeste vanno in fumo.
Dati raccolti per il parco portoghese di
Monteshino da Jan. 2000 a Dec 2003
Incendi foreste
Frequenza area fortemente
skewed
Trasformazione: Log(area+1)
Si avvicina piu ad una normale
migliorando i risultati del DM
Incendi
I dati sono stati
discretizzati e i
classificatori valutati una
volta considerando la
variabile risposta
trasformata Log(x+1)
(riga sotto) e una volta la
variabile risposta non
trasformata (riga sopra)
Zoo
Questo data base contiene 16 attributi e due classi, il tipo di animale e il
suo nome. Qui di seguito una parte dellintero database.
Zoo
Viene utilizzato il classificatore
di clustering una volta calcolata
la distanza di similarita per
quello gerarchico.
Risorse
 Orange Website: http://orange.biolab.si/
 Tutorials: http://www.biolab.si/janez/kyoto/
 Interactive Network Analysis with Orange
http://www.jstatsoft.org/v53/i06
 Orange Whitepaper with scripting examples
http://www.celta.paris-
sorbonne.fr/anasem/papers/miscelanea/InteractiveDataMining.pdf
Orange   felice russo

More Related Content

Orange felice russo

  • 1. Felice Russo Santa Margherita Ligure 13 Marzo 2015
  • 2. Storia 1996 University of Ljubljana and Jo転ef Stefan Institute started development of ML*, a machine learning framework in C++. 1997 Python integration layer 2003 GUI based on PyQt In 2009- over 100 widgets were created and maintained. 2013 Orange Canvas 2.7 released Major GUI redesign. Source: http://en.wikipedia.org/wiki/Orange_%28software%29
  • 3. Perche usare Orange? Non e necessaria nessuna conoscenza di programmazione Programazzione visuale Ottima visualizzazione dei dati Facile da usare Add-ons per Bioinformatica Network Analysis Text mining Free and open source software
  • 4. Installazione Download installer from http://orange.biolab.si/ Run installer Requires Python 2.6 or 2.7 Includes NumPy, SciPy, PyQt, other required libraries To run, double-click on the Orange Canvas icon
  • 5. Scheme Widgets Orange usa i widgets che sono dei blocchi pre-costruiti di data analisi. In questo caso abbiamo il file widget connesso al data table widget . Questultimo mostra i dati in forma tabellare. Per ogni widget abbiamo 2 束orecchie損 per le connessioni. Canvas
  • 15. Esempio di schema per decision tree
  • 16. Demo Esempio di classificazione con data set IRIS Esempio di classificazione con data set WINE Esempio di Na誰ve Bayes con data set TITANIC Esempio di classificazione con data set INSETTI Esempio di Naive Bayes con data set FIBROMA Esempio di classificazione con il data set INCENDI Esempio di clustering con il dat set ZOO
  • 17. Iris Un problema famoso R. A. Fishers Iris Dataset. 3 classi 50 esempi per ogni classe La task e' quella di classificare le piante Iris in 3 varieta' usando la lunghezza dei petali e la larghezza dei petali. Iris Setosa Iris Versicolor Iris Virginica
  • 18. Iris Utilizzati tre classificatori: - SOM - Decision Tree - SVM SOM Visualizer : per vedere la mappa di Kohonen Tree Grpah: per vedere lalbero decisionale Widget Predictions: per verificare le performance della SVM Widget Test Learner : per verificare laccuratezza dei 3 classificatori
  • 19. Wine Relevant Information: Questi dati sono il risultato di analisi chimiche di vini della stessa regione Italiana ma provenienti da 3 diverse coltivazioni. L'analisi ha misurato 13 costituenti del vino. -- Attributi 1) Alcol 2) Acido malico 3) Ash 4) Alcalinity of ash 5) Magnesio 6) Fenoli 7) Flavonoidi 8) Fenoli non flavanoidi 9) Proantocianidine 10) Intensita' colore 11) colore 12)OD280/OD315 diluiti nel vino 13)Prolina Records class 1 59 class 2 71 class 3 48
  • 20. Wine Classificazione effettuata con una rete NN e una SOM Per la valutazione delle performance e stato usato il widget Test Learners con RIOC curve e confusion matrix Il widget Select Attribute serve a definire gli attributi (o predittori) e la classe (o risposta).
  • 21. Wine Per lSOM possiamo notare che il vino 1 e quello che ha i livelli di alchool piu alti mentre il vino 2 e quello con i livelli di alchool piu bassi Alchool level
  • 22. Titanic Per ogni persona a bordo del Titanic e riportato il sesso, eta (bambino, adulto) lo stato economico (prima, seconda, terza classe ed equipaggio) e se e sopravvisuta. SOURCE: "Report on the Loss of the `Titanic' (S.S.)" (1990), _British Board of Trade Inquiry Report_ (reprint), Gloucester, UK: Allan Sutton Publishing.
  • 23. Titanic La probabilita di sopravvivenza dei bambini indipendentemente dal sesso e del loro stato sociale e stata del 52 %. Scegliendo le bambine questa sale all 86%.
  • 24. Insetti Data una collezione di insetti con 5 esempi di grilli e di 5 esempi di cavallette, decidere che tipo di insetto e' quello riportato sotto: grillo o cavalletta?
  • 27. Insetti Linsetto e un grillo! Classificatore lineare Regole
  • 28. Insetti Predizione automatica Due records non utilizzati per il training e correttamente classificati dal modello.File csv di input
  • 29. Fibroma Stabilire la probabilita di avere un certo numero di fibromi a partire dai sintomi riportati dalle clienti ai ginecologi Si tratta di prevedere il numero di potenziali fibroidi a partire dalla presenza o no di emorragia, dolori pelvici, mal di schiena e frequenza dellurinazione.
  • 31. Fibroma Probabilita intorno al 20% di avere multipli fibromi cono dolore pelvico presente e frequente urinazione La probabilita passa a piu del 40% se si aggiunge la presenza di emorragia.
  • 32. Incendi foreste Gli incendi delle foreste costituiscono un serie pericolo per le vite umani, per leconomia di una regione e per lecologia. Questo fenomeno e legato a causa multiple e nonostante gli sforzi delle nazioni per controllare questio disastri ogni anno milioni di ettari di foeste vanno in fumo. Dati raccolti per il parco portoghese di Monteshino da Jan. 2000 a Dec 2003
  • 33. Incendi foreste Frequenza area fortemente skewed Trasformazione: Log(area+1) Si avvicina piu ad una normale migliorando i risultati del DM
  • 34. Incendi I dati sono stati discretizzati e i classificatori valutati una volta considerando la variabile risposta trasformata Log(x+1) (riga sotto) e una volta la variabile risposta non trasformata (riga sopra)
  • 35. Zoo Questo data base contiene 16 attributi e due classi, il tipo di animale e il suo nome. Qui di seguito una parte dellintero database.
  • 36. Zoo Viene utilizzato il classificatore di clustering una volta calcolata la distanza di similarita per quello gerarchico.
  • 37. Risorse Orange Website: http://orange.biolab.si/ Tutorials: http://www.biolab.si/janez/kyoto/ Interactive Network Analysis with Orange http://www.jstatsoft.org/v53/i06 Orange Whitepaper with scripting examples http://www.celta.paris- sorbonne.fr/anasem/papers/miscelanea/InteractiveDataMining.pdf