I have been nominated for the decentrale onderwijsprijs, a teaching award issued by the computer science student association Inter-Actief. Part of the election process is that each nominee gives a short (10-15 min) mini-lecture. Mine was about "Onzekere databases" (Uncertain databases; In Dutch). Announcement of the winner is March 9th, 2015.
1 of 12
Download to read offline
More Related Content
Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)
2. Voorschotje nieuw onderdeel (volgend cursusjaar)
Mastervak Data Science
Leerdoelen
Wat is een onzekere database?
Waar zijn ze goed voor?
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 2
WAT EN WAAROM?
3. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 3
DATABASES
Preferred customers
SELECT SUM(Sales)
FROM CarSales
WHERE Sales>30
111
BMW en Mercedez-Benz
zijn preferred customers
Car brand Sales
BMW 72
Mercedes-Benz 39
Renault 20
4. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 4
DATA COMBINEREN
Car brand Sales
B.M.W. 25
Mercedes 32
Renault 10
Car brand Sales
BMW 72
Mercedes-Benz 39
Renault 20
Car brand Sales
Bayerische Motoren Werke 8
Mercedes 35
Renault 15
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
5. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 5
HET PROBLEEM VAN SEMANTISCHE DUPLICATEN
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Preferred customers
SELECT SUM(Sales)
FROM CarSales
WHERE Sales>100
0
No preferred customers
6. Een voorbeeld van koppelen en integreren van data
Denk ook aan data exchange, conversion, information extraction, data
analysis, e-science, data warehousing, business intelligence, migration, etc.
in een niet-perfecte wereld
Structural heterogeneity, data conflicts, semantic duplicates,
incompleteness, inexactness, outdatedness, ambiguity, errors, etc.
Schone correcte data is een speciaal geval
Behandel problemen met datakwaliteit als een fact of life en
niet als iets dat je achteraf wel kunt repareren
Databases zouden goed met slechte data moeten
kunnen omgaan Onzekere databases kunnen dat!
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 6
HET WEERBARSTIGE PROBLEEM VAN DATAKWALITEIT
7. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 7
DE MEESTE PROBLEMEN MET DATAKWALITEIT KUNNEN
WORDEN GEMODELLEERD ALS ONZEKERHEID IN DATA
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Mercedes 106
Mercedes-Benz 106
1
2
3
4
5
6
X=0
X=0
X=1 Y=0
X=1 Y=1
X=0 4 and 5 different 0.2
X=1 4 and 5 the same 0.8
Y=0 Mercedes
correct name
0.5
Y=1 Mercedes-Benz
correct name
0.5
B.M.W. / BMW / Bayerische Motoren Werke op dezelfde manier
Voorbeeld: semantische duplicaten
7
8
8. Sales of preferred customers
SELECT SUM(sales)
FROM carsales
WHERE sales 100
Antwoord: 106
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs
ONZEKERE ANTWOORDEN ZIJN WAARDEVOL
SUM(sales) P
0 14%
105 6%
106 56%
211 24%
Tweede meest
waarschijnlijke
antwoord met 24% kans
en mogelijk factor 2 fout
(211 vs 106)
Risico op flinke fout
in het antwoord
8
9. Lijkt heel erg op een normale database
Data in tabellen
Vragen stellen met SQL
Schaalbaarheid in data als ook onzekerheid, etc.
Maar
meerdere mogelijke antwoorden op querys
of benaderingen van antwoorden
Nu niet, maar in Data Science wel:
Slimme algoritmen voor kansberekeningen (intern)
Ervaring opdoen met echte datakwaliteitsproblemen
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 9
ONZEKERE DATABASE
10. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 10
POSSIBLE WORLDS-THEORIE
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Mercedes 106
Mercedes-Benz 106
Renault 45
1
2
3
4
5
X=0
X=0
X=1 Y=0
X=1 Y=1
X=0 4 and 5 different 0.2
X=1 4 and 5 the same 0.8
Y=0 Mercedes correct 0.5
Y=1 Mercedes-Benz correct 0.5
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Renault 45
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Renault 45
Car brand Sales
Mercedes 106
Renault 45
Car brand Sales
Mercedes-Benz 106
Renault 45
X=0
Y=0
X=1
Y=0
X=0
Y=1
X=1
Y=1
0.4
0.1
0.4
0.2 * 0.5
= 0.1
0 (0.2)
106 (0.8)
11. Data afkomstig van natuurlijke taalverwerking
210 euro for a double in the Paris Hilton
etc. etc.
Zelfs in zoiets recht-toe-recht-aans als de
ledenadministratie van Inter-Actief
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 11
TOEPASBAARHEID / PROBLEEM VAN DATAKWALITEIT
S/M-nr Naam Adres
: : :
m7653247 Maurice van Keulen Borneostraat 34a
: : :S-nr Naam Adres
: : :
s8807922 Maurice van Keulen Stroom-Eschlaan 35
: : :
12. Wat is een onzekere database?
Lijkt op normale database, maar slaat ook
alternatieven en waarschijnlijkheden op
+ meerdere mogelijke antwoorden en benaderingen
Waar zijn ze goed voor?
Ze kunnen omgaan met data van slechte kwaliteit
Modelleren van kwaliteitsproblemen als onzekerheid
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 12
WRAP UP
Editor's Notes
#5: Wie denkt dat BMW is? Wie weet dat ook echt zeker?