際際滷

際際滷Share a Scribd company logo
Datamining 2007 antwoordmodel werkcollege-opgaven, week 2
N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordt
verwacht dat zij normale Nederlandse zinnen gebruiken.
1. Wat is het verschil tussen associatie-regels en classi鍖catie-regels?
Associatieregels kunnen elk attribuut voorspellen, classi鍖catieregels alleen de class.
Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver-
schillende associatieregels verschillende onderliggende regelmatigheden beschrijven.
(1 punt)
2. Geef twee methoden voor het behandelen van missende attribuutwaar-
den in decision trees.
 behandel missing value als een zelfstandige attribuutwaarde
 kies de populairste tak voor een instantie met missende waarde
 verdeel de instantie met missende waarde over de verschillende takken, waarbij
elk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak.
(goed>=2: 1 punt; 0<goed<2: 1/2 punt)
3. Vind je decision tables een goed methode om kennis in op te slaan voor
datamining? Motiveer je antwoord.
Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis of
data? (1 punt)
4. Bij instance learning bestaat het model van de data uit de (onveran-
derde) data zelf. Waarin zit de intelligentie van deze methode?
Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en er
wordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijking
is de intelligentie van instance learning. (1 punt)
5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default,
except, if, then en else), en een if-then-else-regel die precies dezelfde
informatie uitdrukt. (1/2 punt per regel)
Voorbeeld:
Default: limonade
except if alcohol > 1%
then bier
except if alcohol > 11%
then wijn
except if alcohol > 16%
then sterke drank
1
if alcohol > 16%
then sterke drank
else if alcohol > 11%
then wijn
else if alcohol > 1%
then bier
else limonade
6. In het boek (tweede editie, sectie 3.7) staat een voorbeeld van een re-
gressieboom en een modelboom voor hetzelfde probleem (鍖guur 3.7 b
en c). Leg uit waarom de modelboom nauwkeuriger is.
De regressieboom levert een gemiddelde waarde op aan het eind van elke tak, terwijl
de modelboom een lineaire expressie als einde heeft, en de uiteindelijke waardes
dus nog verder kunnen speci鍖ceren. De modelboom combineert de voordelen van
regressievergelijkingen en -bomen. (1 punt)
7. De plaatjes in het boek bij instance learning (editie 2, 鍖guren 3.8c en
3.9a) lijken erg op elkaar. Betekent dit dat instance learning en clus-
tering eigenlijk hetzelfde doen? Motiveer je antwoord.
Bij instance learning zijn classes bekend tijdens het leren, terwijl bij clustering
classes onbekend zijn. Bij nieuwe instanties lijken beide technieken echter veel
op elkaar: mbv een afstandsmaat wordt bepaald tot welke (groep) instanties de
nieuwe instantie behoort. De k-nearest neighbor techniek wordt gebruikt bij zowel
instance learning als bij clustering. (1 punt)
8. Leg uit hoe het verband tussen magnesiumtekort en migraine werd ont-
dekt.
Swanson haalde kernwoorden met een signi鍖cante frequentie uit artikelen over mi-
graine en herhaalde voor elk kernwoord het proces van documenten zoeken en
kernwoorden identi鍖ceren. Zo kwam hij via spreading depression bij magne-
siumtekort. (1 punt)
9. Bij informatie-extratie wordt automatisch kennis uit teksten gehaald.
Bedenk aan de hand van het voorbeeld in het artikel twee moeilijkheden
die bij deze taak zouden kunnen optreden
 referenties: hoe weet je dat him naar a man verwijst
 ambiguiteit: is another American een derde gegijzelde, of verwijst het naar
een andere tekst om aan te geven dat het alweer een Amerikaan is die gegijzeld
wordt (en zijn er dus maar 2 gegijzelden).
 slaat in Iraq op de verwanten, de man of beiden?
 wanneer zijn de 48 uur ingegaan?
(goed>=2: 1 punt; 0<goed<2: 1/2 punt)
10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee
eens? Waarom?
Text mining heeft voordelen voor veel vakgebieden, hoewel goed nagedacht moet
worden over de implementatie. (1/2 punt) Eigen mening (1/2 punt).
2

More Related Content

Dm uitwerkingen wc2

  • 1. Datamining 2007 antwoordmodel werkcollege-opgaven, week 2 N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordt verwacht dat zij normale Nederlandse zinnen gebruiken. 1. Wat is het verschil tussen associatie-regels en classi鍖catie-regels? Associatieregels kunnen elk attribuut voorspellen, classi鍖catieregels alleen de class. Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver- schillende associatieregels verschillende onderliggende regelmatigheden beschrijven. (1 punt) 2. Geef twee methoden voor het behandelen van missende attribuutwaar- den in decision trees. behandel missing value als een zelfstandige attribuutwaarde kies de populairste tak voor een instantie met missende waarde verdeel de instantie met missende waarde over de verschillende takken, waarbij elk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak. (goed>=2: 1 punt; 0<goed<2: 1/2 punt) 3. Vind je decision tables een goed methode om kennis in op te slaan voor datamining? Motiveer je antwoord. Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis of data? (1 punt) 4. Bij instance learning bestaat het model van de data uit de (onveran- derde) data zelf. Waarin zit de intelligentie van deze methode? Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en er wordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijking is de intelligentie van instance learning. (1 punt) 5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default, except, if, then en else), en een if-then-else-regel die precies dezelfde informatie uitdrukt. (1/2 punt per regel) Voorbeeld: Default: limonade except if alcohol > 1% then bier except if alcohol > 11% then wijn except if alcohol > 16% then sterke drank 1
  • 2. if alcohol > 16% then sterke drank else if alcohol > 11% then wijn else if alcohol > 1% then bier else limonade 6. In het boek (tweede editie, sectie 3.7) staat een voorbeeld van een re- gressieboom en een modelboom voor hetzelfde probleem (鍖guur 3.7 b en c). Leg uit waarom de modelboom nauwkeuriger is. De regressieboom levert een gemiddelde waarde op aan het eind van elke tak, terwijl de modelboom een lineaire expressie als einde heeft, en de uiteindelijke waardes dus nog verder kunnen speci鍖ceren. De modelboom combineert de voordelen van regressievergelijkingen en -bomen. (1 punt) 7. De plaatjes in het boek bij instance learning (editie 2, 鍖guren 3.8c en 3.9a) lijken erg op elkaar. Betekent dit dat instance learning en clus- tering eigenlijk hetzelfde doen? Motiveer je antwoord. Bij instance learning zijn classes bekend tijdens het leren, terwijl bij clustering classes onbekend zijn. Bij nieuwe instanties lijken beide technieken echter veel op elkaar: mbv een afstandsmaat wordt bepaald tot welke (groep) instanties de nieuwe instantie behoort. De k-nearest neighbor techniek wordt gebruikt bij zowel instance learning als bij clustering. (1 punt) 8. Leg uit hoe het verband tussen magnesiumtekort en migraine werd ont- dekt. Swanson haalde kernwoorden met een signi鍖cante frequentie uit artikelen over mi- graine en herhaalde voor elk kernwoord het proces van documenten zoeken en kernwoorden identi鍖ceren. Zo kwam hij via spreading depression bij magne- siumtekort. (1 punt) 9. Bij informatie-extratie wordt automatisch kennis uit teksten gehaald. Bedenk aan de hand van het voorbeeld in het artikel twee moeilijkheden die bij deze taak zouden kunnen optreden referenties: hoe weet je dat him naar a man verwijst ambiguiteit: is another American een derde gegijzelde, of verwijst het naar een andere tekst om aan te geven dat het alweer een Amerikaan is die gegijzeld wordt (en zijn er dus maar 2 gegijzelden). slaat in Iraq op de verwanten, de man of beiden? wanneer zijn de 48 uur ingegaan? (goed>=2: 1 punt; 0<goed<2: 1/2 punt) 10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee eens? Waarom? Text mining heeft voordelen voor veel vakgebieden, hoewel goed nagedacht moet worden over de implementatie. (1/2 punt) Eigen mening (1/2 punt). 2