�ݺ�ߣ

DM2007 model theorie-opgaven week 4
1. Wat zijn de twee verschillen tussen perceptronleerregel en de leerregel gebruikt bij Winnow?
• de gewichten in perceptronleerregel worden vernieuwd door optellen of aftrekken, bij
Winnow door vermenigvuldigen of delen. (1/2 punt)
• bij Winnow wordt de klasse bepaald door gebruik van een (aanpasbare) parameter
theta, bij perceptron wordt de klasse bepaald door te kijken naar het teken (positief of
negatief)(1/2 punt)
2. Bij instance learning kan de beste klasse worden bepaald door de testinstantie te vergelijken met alle
trainingsinstanties. Waarom zijn kD-bomen efficiënter voor het kiezen van de beste klasse voor een
testinstantie?
kD-bomen vinden een initiële nearest-neighbor gebaseerd op de leaf node waarin de nieuwe
instantie valt. Vervolgens wordt er omhoog in de boom gekeken of er punten kunnen zijn die
dichterbij liggen dan het initiële punt. Het aantal vergelijkingen dat gedaan moet worden
is (meestal) veel kleiner dan zonder boom, waarbij de nieuwe instantie met elke opgeslagen
instatie vergeleken moet worden. (1 punt)
3. Uit de weerdata (Tabel 1.2 op bladzijde 11 van het boek) kan de itemset outlook=sunny; humid-
ity=high; play=no worden afgeleid. Hoeveel associatieregels kunnen maximaal uit zo’n itemset
worden gehaald? En hoeveel van deze regels hebben in dit geval een accuraatheid van 100%?
Er kunnen 7 associatieregels afgeleid worden (zie voorbeeld op blz. 115 in tweede editie)
(1/2 punt)
Zoals te zien in de tabel hebben 2 regels 100% accuraatheid (1/2 punt)
regel accuraatheid
if outlook = sunny and humidity = high then play = no 3/3
if outlook = sunny and play = no then humidity = high 3/3
if humidity = high and play = no then outlook = sunny 3/4
if outlook = sunny then humidity = high and play = no 3/5
if humidity = high then outlook = sunny and play = no 3/7
if play = no then outlook = sunny and humidity = high 3/5
if - then outlook = sunny and humidity = high and play = no 3/14
4. Leid de beste dekkingsregel (covering rule) af voor de aanbeveling ”soft” volgens de contactlensdata
(Tabel 1.1 op bladzijde 6 van de tweede editie van het boek). Laat alle stappen van de afleiding zien en
geef bij elke stap aan wat de dekking en selectie is van de afgeleide voorwaarden. Indien er meerdere
”beste” beste dekkingsregels zijn dan hoeft u daar maar 1 van af te leiden. zie tabel op volgende
bladzijde (1 punt)
5. Reken uit hoeveel entropy(1,4) bedraagt. Geef niet alleen een getal als antwoord maar laat alle
stappen van de berekening zien. (1 punt)
Er had moeten staan: bereken info[1,4].
info[1,4] = entropy(1/5,4/5)
entropy(1/5,4/5) = -1/5 * log(1/5) - 4/5 * log(4/5) = 0.464 + 0.258 = 0.722 bits

if ? then recommendation = soft
- age = young 2/8
- age = pre-pres. 2/8
- age = pres. 1/8
- spec. pres. = myope 2/12
- spec. pres. = hyperm. 3/12
- astig. = no 5/12
- astig. = yes 0/12
- tear pr. = reduced 0/12
- tear pr. = normal 5/12
if astig. = no and ? then recommendation = soft
- age = young 2/4
- age = pres. 1/4
- tear pr. = reduced 0/6
- tear pr. = normal 5/6
if astig. = no and tear pr. = normal and ? then recommendation = soft
- age = young 2/2
- age = pres. 1/2
if astig. = no and tear pr. = normal and spec. pres. = hyperm. then recommendation = soft

6. Bij een clusteringprobleem met zes datapunten en drie clusters als doel, start k-means in de volgende
situatie (o: datapunten 1-6; x: clustercentra A-C; afstanden C4 = A3 > B4 = B3). Hoe liggen de
clustercentra nadat het algoritme is toegepast? (1/2 punt) Is die eindsituatie optimaal?
Gezien het aantal clusters en de ligging van de datapunten is deze eindsituatie optimaal.
(1/2 punt)
7. Leg het concept Lift uit aan de hand van een voorbeeld uit Tabel ”Performance of the Profiling Mod-
ule” op bladzijde 69.
Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van een
taak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt)
Bijvoorbeeld, de apriorikan op een kind in de leeftijd 2 tot en met 11 is 0.2482. In de se-
lectie van het profilingsysteem is deze kans 0.8421. De lift veroorzaakt door het systeem is
0.8421/0.2482=3.39.
8. Het ADS-systeem krijgt via PVRs alleen te zien waarnaar gekeken wordt en niet wie er kijkt. Hoe
komt het systeem desondanks aan modellen gebaseerd op leeftijd en geslacht van de kijker?
De training set bevat de samenstellingen van de huishoudens (leeftijden, geslachten) en door
dit te combineren met het kijkgedrag kunnen modellen geleerd worden die aan de hand van
het kijkgedrag een schatting doen van de samenstelling van het huishouden. (1 punt)
9. De Profiling Module deelt verschillende huishoudens in in clusters. Als je die clusters vergelijkt
met de vormen genoemd in sectie 4.8 van het Dataminingboek, zijn ze dan exclusief, overlappend of
probabilistisch?
Probabilistisch; er wordt met een percentage aangeduid hoe groot de kans is dat een huishouden
tot een bepaald cluster hoort. (1 punt)
10. Aan het einde van de sectie ”Departure from Traditional Role” doen de auteurs vier voorstellen over
hoe om te gaan met de verzamelde informatie. Wat vindt u van deze voorstellen? Licht uw antwoord
toe.
eigen mening (1 punt)

�ݺ�ߣ

Dm uitwerkingen wc4

More Related Content

Dm uitwerkingen wc4