Czwarta część wykładów na temat deep learning i uczenia maszynowego. Prowadzone były na AGH, przez firme Craftinity (Craftinity.com), razem z kołem naukowym BIT (http://knbit.edu.pl/pl/)
5. ● nieskierowany model probabilistyczny
● dwie grupy binarnych zmiennych losowych
Restricted Boltzmann
Machine
szmienne ukryte (hidden)
szmienne widoczne (visible)
6. RBM - joint probability
● model z energią (model Boltzmanna)
● zmienne o wartościach binarnych
15. - Ponieważ gradient będziemy liczyć
wielokrotnie zamiast za każdym razem
obliczać wartość przeciętną możemy
wylosować v zaszyte w ’i
Samplowanie Gibbsa
- Postępując tak wielokrotnie będziemy
przybliżać się do minimalizacji
- Obserwację losową RBM’a nazywamy
fantazją sieci
16. Cel - wylosować próbkę z rozkładu wielowymiarowego
P(x, y)
Sposób - generujemy x z rozkładu P(x | y) i
y z rozkładu P(y | x)
Algorytm:
Samplowanie Gibbsa
Kontynuuj aż rozkłady prawdopodobieństw
będą stacjonarne
18. - Zacznij próbkowanie od przykładu
treningowego
- wykonaj jedynie kilkanaście kroków
- pomimo poważnej korelacji pomiędzy tak
otrzymaną fantazją a przykładem uczącym
otrzymujemy zaskakująco dobry gradient
- Czasami wystarcza 1 krok!
Propozycja Hintona
#6: na ostatnim wykładzie o PGM było o maszynie Boltzmanna, której zmienne losowe miały wartość {0,1}
specyficzna własność każda zmienna z danej grupy ma połączenia nieskierowane z wszystkimi zmiennymi z przeciwnej grupy
pomiędzy zmiennymi z tej samej grupy połączeń nie ma
#7: na ostatnim wykładzie - w UGM prawdopodobieństwo łączne rozkłada się na iloczyn potencjałów, w maszynie Boltzmanna dwa typy - potencjał związany z poj. zmienną i z krawędzią
reparametryzacja potencjałów - logarytm ze starego
łączne prawdopodobieństwo zapisane jako e do potęgi, gdzie w potędze była suma tych nowych potencjałów związanych ze zmiennymi - ten człon to energia - taka postać to rozkład Boltzmanna
RBM - rozkład Boltzmanna; W,c,h - parametry
#8: teraz o własnościach RBM-ów w kontekście własności PGM
#9: zaobserwujemy wszystkie zmienne v, zmienna jest niezależna od wszystkich innych z warstwy zmiennych ukrytych
jeżeli jeden zbiór zmiennych jest niezależny od drugiego jeżeli obserwujemy trzeci, to prawd. łączne warunkowe tych zbiorów rozkłada się na iloczyn
#10: mając tę własność można policzyć prawd. warunkowe zmiennych ukrytych od zm. widzialnych
pokazać na rysunku mnożenie hWv