1. Datamining 2007 antwoordmodel werkcollege-opgaven, week 2
N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordt
verwacht dat zij normale Nederlandse zinnen gebruiken.
1. Wat is het verschil tussen associatie-regels en classi鍖catie-regels?
Associatieregels kunnen elk attribuut voorspellen, classi鍖catieregels alleen de class.
Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver-
schillende associatieregels verschillende onderliggende regelmatigheden beschrijven.
(1 punt)
2. Geef twee methoden voor het behandelen van missende attribuutwaar-
den in decision trees.
behandel missing value als een zelfstandige attribuutwaarde
kies de populairste tak voor een instantie met missende waarde
verdeel de instantie met missende waarde over de verschillende takken, waarbij
elk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak.
(goed>=2: 1 punt; 0<goed<2: 1/2 punt)
3. Vind je decision tables een goed methode om kennis in op te slaan voor
datamining? Motiveer je antwoord.
Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis of
data? (1 punt)
4. Bij instance learning bestaat het model van de data uit de (onveran-
derde) data zelf. Waarin zit de intelligentie van deze methode?
Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en er
wordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijking
is de intelligentie van instance learning. (1 punt)
5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default,
except, if, then en else), en een if-then-else-regel die precies dezelfde
informatie uitdrukt. (1/2 punt per regel)
Voorbeeld:
Default: limonade
except if alcohol > 1%
then bier
except if alcohol > 11%
then wijn
except if alcohol > 16%
then sterke drank
1
2. if alcohol > 16%
then sterke drank
else if alcohol > 11%
then wijn
else if alcohol > 1%
then bier
else limonade
6. In het boek (tweede editie, sectie 3.7) staat een voorbeeld van een re-
gressieboom en een modelboom voor hetzelfde probleem (鍖guur 3.7 b
en c). Leg uit waarom de modelboom nauwkeuriger is.
De regressieboom levert een gemiddelde waarde op aan het eind van elke tak, terwijl
de modelboom een lineaire expressie als einde heeft, en de uiteindelijke waardes
dus nog verder kunnen speci鍖ceren. De modelboom combineert de voordelen van
regressievergelijkingen en -bomen. (1 punt)
7. De plaatjes in het boek bij instance learning (editie 2, 鍖guren 3.8c en
3.9a) lijken erg op elkaar. Betekent dit dat instance learning en clus-
tering eigenlijk hetzelfde doen? Motiveer je antwoord.
Bij instance learning zijn classes bekend tijdens het leren, terwijl bij clustering
classes onbekend zijn. Bij nieuwe instanties lijken beide technieken echter veel
op elkaar: mbv een afstandsmaat wordt bepaald tot welke (groep) instanties de
nieuwe instantie behoort. De k-nearest neighbor techniek wordt gebruikt bij zowel
instance learning als bij clustering. (1 punt)
8. Leg uit hoe het verband tussen magnesiumtekort en migraine werd ont-
dekt.
Swanson haalde kernwoorden met een signi鍖cante frequentie uit artikelen over mi-
graine en herhaalde voor elk kernwoord het proces van documenten zoeken en
kernwoorden identi鍖ceren. Zo kwam hij via spreading depression bij magne-
siumtekort. (1 punt)
9. Bij informatie-extratie wordt automatisch kennis uit teksten gehaald.
Bedenk aan de hand van het voorbeeld in het artikel twee moeilijkheden
die bij deze taak zouden kunnen optreden
referenties: hoe weet je dat him naar a man verwijst
ambiguiteit: is another American een derde gegijzelde, of verwijst het naar
een andere tekst om aan te geven dat het alweer een Amerikaan is die gegijzeld
wordt (en zijn er dus maar 2 gegijzelden).
slaat in Iraq op de verwanten, de man of beiden?
wanneer zijn de 48 uur ingegaan?
(goed>=2: 1 punt; 0<goed<2: 1/2 punt)
10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee
eens? Waarom?
Text mining heeft voordelen voor veel vakgebieden, hoewel goed nagedacht moet
worden over de implementatie. (1/2 punt) Eigen mening (1/2 punt).
2