2. Storia
1996 University of Ljubljana and Jo転ef Stefan Institute
started development of ML*, a machine learning framework in
C++.
1997 Python integration layer
2003 GUI based on PyQt
In 2009- over 100 widgets were created and maintained.
2013 Orange Canvas 2.7 released Major GUI redesign.
Source: http://en.wikipedia.org/wiki/Orange_%28software%29
3. Perche usare Orange?
Non e necessaria nessuna conoscenza di
programmazione Programazzione visuale
Ottima visualizzazione dei dati
Facile da usare
Add-ons per
Bioinformatica
Network Analysis
Text mining
Free and open source software
4. Installazione
Download installer from http://orange.biolab.si/
Run installer
Requires Python 2.6 or 2.7
Includes NumPy, SciPy, PyQt, other required libraries
To run, double-click on the Orange Canvas icon
5. Scheme
Widgets
Orange usa i widgets che sono dei blocchi
pre-costruiti di data analisi. In questo
caso abbiamo il file widget connesso al
data table widget . Questultimo mostra i
dati in forma tabellare. Per ogni widget
abbiamo 2 束orecchie損 per le connessioni.
Canvas
16. Demo
Esempio di classificazione con data set IRIS
Esempio di classificazione con data set WINE
Esempio di Na誰ve Bayes con data set TITANIC
Esempio di classificazione con data set INSETTI
Esempio di Naive Bayes con data set FIBROMA
Esempio di classificazione con il data set INCENDI
Esempio di clustering con il dat set ZOO
17. Iris
Un problema famoso
R. A. Fishers Iris Dataset.
3 classi
50 esempi per ogni classe
La task e' quella di classificare le
piante Iris in 3 varieta' usando la
lunghezza dei petali e la
larghezza dei petali.
Iris
Setosa
Iris
Versicolor
Iris
Virginica
18. Iris
Utilizzati tre classificatori:
- SOM
- Decision Tree
- SVM
SOM Visualizer : per vedere la
mappa di Kohonen
Tree Grpah: per vedere lalbero
decisionale
Widget Predictions: per verificare le
performance della SVM
Widget Test Learner : per verificare
laccuratezza dei 3 classificatori
19. Wine
Relevant Information: Questi dati sono il risultato di analisi
chimiche di vini della stessa regione Italiana ma provenienti da 3
diverse coltivazioni. L'analisi ha misurato 13 costituenti del vino.
-- Attributi
1) Alcol
2) Acido malico
3) Ash
4) Alcalinity of ash
5) Magnesio
6) Fenoli
7) Flavonoidi
8) Fenoli non flavanoidi
9) Proantocianidine
10) Intensita' colore
11) colore
12)OD280/OD315 diluiti nel vino
13)Prolina
Records
class 1 59
class 2 71
class 3 48
20. Wine
Classificazione effettuata
con una rete NN e una
SOM
Per la valutazione delle
performance e stato usato
il widget Test Learners con
RIOC curve e confusion
matrix
Il widget Select
Attribute serve a
definire gli attributi (o
predittori) e la classe
(o risposta).
21. Wine
Per lSOM possiamo
notare che il vino 1 e
quello che ha i livelli
di alchool piu alti
mentre il vino 2 e
quello con i livelli di
alchool piu bassi
Alchool level
22. Titanic
Per ogni persona a bordo del Titanic e riportato il sesso, eta
(bambino, adulto) lo stato economico (prima, seconda, terza classe
ed equipaggio) e se e sopravvisuta.
SOURCE:
"Report on the Loss of the `Titanic' (S.S.)" (1990), _British Board of Trade Inquiry Report_
(reprint), Gloucester, UK: Allan Sutton Publishing.
23. Titanic
La probabilita di sopravvivenza dei
bambini indipendentemente dal
sesso e del loro stato sociale e stata
del 52 %. Scegliendo le bambine
questa sale all 86%.
24. Insetti
Data una collezione di insetti con 5 esempi di grilli e di 5 esempi di cavallette,
decidere che tipo di insetto e' quello riportato sotto: grillo o cavalletta?
29. Fibroma
Stabilire la probabilita di avere un certo
numero di fibromi a partire dai sintomi
riportati dalle clienti ai ginecologi
Si tratta di prevedere il numero di
potenziali fibroidi a partire dalla
presenza o no di emorragia, dolori
pelvici, mal di schiena e frequenza
dellurinazione.
31. Fibroma
Probabilita intorno al 20% di avere multipli
fibromi cono dolore pelvico presente e
frequente urinazione
La probabilita passa a piu del 40% se si
aggiunge la presenza di emorragia.
32. Incendi foreste
Gli incendi delle foreste costituiscono un serie pericolo per le vite
umani, per leconomia di una regione e per lecologia. Questo
fenomeno e legato a causa multiple e nonostante gli sforzi delle
nazioni per controllare questio disastri ogni anno milioni di ettari di
foeste vanno in fumo.
Dati raccolti per il parco portoghese di
Monteshino da Jan. 2000 a Dec 2003
33. Incendi foreste
Frequenza area fortemente
skewed
Trasformazione: Log(area+1)
Si avvicina piu ad una normale
migliorando i risultati del DM
34. Incendi
I dati sono stati
discretizzati e i
classificatori valutati una
volta considerando la
variabile risposta
trasformata Log(x+1)
(riga sotto) e una volta la
variabile risposta non
trasformata (riga sopra)
35. Zoo
Questo data base contiene 16 attributi e due classi, il tipo di animale e il
suo nome. Qui di seguito una parte dellintero database.
36. Zoo
Viene utilizzato il classificatore
di clustering una volta calcolata
la distanza di similarita per
quello gerarchico.
37. Risorse
Orange Website: http://orange.biolab.si/
Tutorials: http://www.biolab.si/janez/kyoto/
Interactive Network Analysis with Orange
http://www.jstatsoft.org/v53/i06
Orange Whitepaper with scripting examples
http://www.celta.paris-
sorbonne.fr/anasem/papers/miscelanea/InteractiveDataMining.pdf