際際滷

際際滷Share a Scribd company logo
MINI-COLLEGE ONDERWIJSPRIJS
ONZEKERE DATABASES
MAURICE VAN KEULEN
Voorschotje nieuw onderdeel (volgend cursusjaar)
 Mastervak Data Science
Leerdoelen
 Wat is een onzekere database?
 Waar zijn ze goed voor?
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 2
WAT EN WAAROM?
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 3
DATABASES
Preferred customers 
SELECT SUM(Sales)
FROM CarSales
WHERE Sales>30
111
BMW en Mercedez-Benz
zijn preferred customers
Car brand Sales
BMW 72
Mercedes-Benz 39
Renault 20
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 4
DATA COMBINEREN
Car brand Sales
B.M.W. 25
Mercedes 32
Renault 10
Car brand Sales
BMW 72
Mercedes-Benz 39
Renault 20
Car brand Sales
Bayerische Motoren Werke 8
Mercedes 35
Renault 15
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 5
HET PROBLEEM VAN SEMANTISCHE DUPLICATEN
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Preferred customers 
SELECT SUM(Sales)
FROM CarSales
WHERE Sales>100
0
No preferred customers
Een voorbeeld van koppelen en integreren van data 
Denk ook aan data exchange, conversion, information extraction, data
analysis, e-science, data warehousing, business intelligence, migration, etc.
 in een niet-perfecte wereld
Structural heterogeneity, data conflicts, semantic duplicates,
incompleteness, inexactness, outdatedness, ambiguity, errors, etc.
Schone correcte data is een speciaal geval
Behandel problemen met datakwaliteit als een fact of life en
niet als iets dat je achteraf wel kunt repareren
 Databases zouden goed met slechte data moeten
kunnen omgaan  Onzekere databases kunnen dat!
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 6
HET WEERBARSTIGE PROBLEEM VAN DATAKWALITEIT
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 7
DE MEESTE PROBLEMEN MET DATAKWALITEIT KUNNEN
WORDEN GEMODELLEERD ALS ONZEKERHEID IN DATA
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Mercedes 106
Mercedes-Benz 106
1
2
3
4
5
6
X=0
X=0
X=1 Y=0
X=1 Y=1
X=0 4 and 5 different 0.2
X=1 4 and 5 the same 0.8
Y=0 Mercedes
correct name
0.5
Y=1 Mercedes-Benz
correct name
0.5
B.M.W. / BMW / Bayerische Motoren Werke op dezelfde manier
Voorbeeld: semantische duplicaten
7
8
Sales of preferred customers
 SELECT SUM(sales)
FROM carsales
WHERE sales 100
 Antwoord: 106
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs
ONZEKERE ANTWOORDEN ZIJN WAARDEVOL
SUM(sales) P
0 14%
105 6%
106 56%
211 24%
Tweede meest
waarschijnlijke
antwoord met 24% kans
en mogelijk factor 2 fout
(211 vs 106)
Risico op flinke fout
in het antwoord
8
Lijkt heel erg op een normale database
 Data in tabellen
 Vragen stellen met SQL
 Schaalbaarheid in data als ook onzekerheid, etc.
Maar
 meerdere mogelijke antwoorden op querys
of benaderingen van antwoorden
Nu niet, maar in Data Science wel:
 Slimme algoritmen voor kansberekeningen (intern)
 Ervaring opdoen met echte datakwaliteitsproblemen
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 9
ONZEKERE DATABASE
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 10
POSSIBLE WORLDS-THEORIE
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Mercedes 106
Mercedes-Benz 106
Renault 45
1
2
3
4
5
X=0
X=0
X=1 Y=0
X=1 Y=1
X=0 4 and 5 different 0.2
X=1 4 and 5 the same 0.8
Y=0 Mercedes correct 0.5
Y=1 Mercedes-Benz correct 0.5
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Renault 45
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Renault 45
Car brand Sales
Mercedes 106
Renault 45
Car brand Sales
Mercedes-Benz 106
Renault 45
X=0
Y=0
X=1
Y=0
X=0
Y=1
X=1
Y=1
0.4
0.1
0.4
0.2 * 0.5
= 0.1
0 (0.2)
106 (0.8)
 Data afkomstig van natuurlijke taalverwerking
210 euro for a double in the Paris Hilton
 etc. etc.
 Zelfs in zoiets recht-toe-recht-aans als de
ledenadministratie van Inter-Actief
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 11
TOEPASBAARHEID / PROBLEEM VAN DATAKWALITEIT
S/M-nr Naam Adres
: : :
m7653247 Maurice van Keulen Borneostraat 34a
: : :S-nr Naam Adres
: : :
s8807922 Maurice van Keulen Stroom-Eschlaan 35
: : :
 Wat is een onzekere database?
Lijkt op normale database, maar slaat ook
alternatieven en waarschijnlijkheden op
+ meerdere mogelijke antwoorden en benaderingen
 Waar zijn ze goed voor?
Ze kunnen omgaan met data van slechte kwaliteit
Modelleren van kwaliteitsproblemen als onzekerheid
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 12
WRAP UP

More Related Content

Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)

  • 2. Voorschotje nieuw onderdeel (volgend cursusjaar) Mastervak Data Science Leerdoelen Wat is een onzekere database? Waar zijn ze goed voor? 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 2 WAT EN WAAROM?
  • 3. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 3 DATABASES Preferred customers SELECT SUM(Sales) FROM CarSales WHERE Sales>30 111 BMW en Mercedez-Benz zijn preferred customers Car brand Sales BMW 72 Mercedes-Benz 39 Renault 20
  • 4. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 4 DATA COMBINEREN Car brand Sales B.M.W. 25 Mercedes 32 Renault 10 Car brand Sales BMW 72 Mercedes-Benz 39 Renault 20 Car brand Sales Bayerische Motoren Werke 8 Mercedes 35 Renault 15 Car brand Sales B.M.W. 25 Bayerische Motoren Werke 8 BMW 72 Mercedes 67 Mercedes-Benz 39 Renault 45
  • 5. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 5 HET PROBLEEM VAN SEMANTISCHE DUPLICATEN Car brand Sales B.M.W. 25 Bayerische Motoren Werke 8 BMW 72 Mercedes 67 Mercedes-Benz 39 Renault 45 Preferred customers SELECT SUM(Sales) FROM CarSales WHERE Sales>100 0 No preferred customers
  • 6. Een voorbeeld van koppelen en integreren van data Denk ook aan data exchange, conversion, information extraction, data analysis, e-science, data warehousing, business intelligence, migration, etc. in een niet-perfecte wereld Structural heterogeneity, data conflicts, semantic duplicates, incompleteness, inexactness, outdatedness, ambiguity, errors, etc. Schone correcte data is een speciaal geval Behandel problemen met datakwaliteit als een fact of life en niet als iets dat je achteraf wel kunt repareren Databases zouden goed met slechte data moeten kunnen omgaan Onzekere databases kunnen dat! 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 6 HET WEERBARSTIGE PROBLEEM VAN DATAKWALITEIT
  • 7. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 7 DE MEESTE PROBLEMEN MET DATAKWALITEIT KUNNEN WORDEN GEMODELLEERD ALS ONZEKERHEID IN DATA Car brand Sales B.M.W. 25 Bayerische Motoren Werke 8 BMW 72 Mercedes 67 Mercedes-Benz 39 Renault 45 Mercedes 106 Mercedes-Benz 106 1 2 3 4 5 6 X=0 X=0 X=1 Y=0 X=1 Y=1 X=0 4 and 5 different 0.2 X=1 4 and 5 the same 0.8 Y=0 Mercedes correct name 0.5 Y=1 Mercedes-Benz correct name 0.5 B.M.W. / BMW / Bayerische Motoren Werke op dezelfde manier Voorbeeld: semantische duplicaten 7 8
  • 8. Sales of preferred customers SELECT SUM(sales) FROM carsales WHERE sales 100 Antwoord: 106 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs ONZEKERE ANTWOORDEN ZIJN WAARDEVOL SUM(sales) P 0 14% 105 6% 106 56% 211 24% Tweede meest waarschijnlijke antwoord met 24% kans en mogelijk factor 2 fout (211 vs 106) Risico op flinke fout in het antwoord 8
  • 9. Lijkt heel erg op een normale database Data in tabellen Vragen stellen met SQL Schaalbaarheid in data als ook onzekerheid, etc. Maar meerdere mogelijke antwoorden op querys of benaderingen van antwoorden Nu niet, maar in Data Science wel: Slimme algoritmen voor kansberekeningen (intern) Ervaring opdoen met echte datakwaliteitsproblemen 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 9 ONZEKERE DATABASE
  • 10. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 10 POSSIBLE WORLDS-THEORIE Car brand Sales Mercedes 67 Mercedes-Benz 39 Mercedes 106 Mercedes-Benz 106 Renault 45 1 2 3 4 5 X=0 X=0 X=1 Y=0 X=1 Y=1 X=0 4 and 5 different 0.2 X=1 4 and 5 the same 0.8 Y=0 Mercedes correct 0.5 Y=1 Mercedes-Benz correct 0.5 Car brand Sales Mercedes 67 Mercedes-Benz 39 Renault 45 Car brand Sales Mercedes 67 Mercedes-Benz 39 Renault 45 Car brand Sales Mercedes 106 Renault 45 Car brand Sales Mercedes-Benz 106 Renault 45 X=0 Y=0 X=1 Y=0 X=0 Y=1 X=1 Y=1 0.4 0.1 0.4 0.2 * 0.5 = 0.1 0 (0.2) 106 (0.8)
  • 11. Data afkomstig van natuurlijke taalverwerking 210 euro for a double in the Paris Hilton etc. etc. Zelfs in zoiets recht-toe-recht-aans als de ledenadministratie van Inter-Actief 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 11 TOEPASBAARHEID / PROBLEEM VAN DATAKWALITEIT S/M-nr Naam Adres : : : m7653247 Maurice van Keulen Borneostraat 34a : : :S-nr Naam Adres : : : s8807922 Maurice van Keulen Stroom-Eschlaan 35 : : :
  • 12. Wat is een onzekere database? Lijkt op normale database, maar slaat ook alternatieven en waarschijnlijkheden op + meerdere mogelijke antwoorden en benaderingen Waar zijn ze goed voor? Ze kunnen omgaan met data van slechte kwaliteit Modelleren van kwaliteitsproblemen als onzekerheid 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 12 WRAP UP

Editor's Notes

  • #5: Wie denkt dat BMW is? Wie weet dat ook echt zeker?
  • #8: Notice that all these are tables
  • #11: Notice that all these are tables