ݺߣ

ݺߣShare a Scribd company logo
Metody Deep Learning
Wykład 4
http://arxiv.org/pdf/1502.01852.pdf
Metody Deep Learning - Wykład 4
Metody Deep Learning - Wykład 4
Zaczynamy
● nieskierowany model probabilistyczny
● dwie grupy binarnych zmiennych losowych
Restricted Boltzmann
Machine
szmienne ukryte (hidden)
szmienne widoczne (visible)
RBM - joint probability
● model z energią (model Boltzmanna)
● zmienne o wartościach binarnych
Conditional
independence - reminder
CI in RBM
inference
inference c.d
RBM learning
- zaobserwowany zbiór
danych
szukamy parametrów modelu tak aby
było jak największe:
RBM learning c.d
- zaobserowany zbiór
danych
W RBM każdy zaobserwowany wektor
odpowiada zmiennym widocznym
do obliczenia nie bardzo
Wpierw łatwiejsza część gradientu
Contrastive Divergence
-Teoretycznie możemy rozważyć każde możliwe v
-Ilość możliwości jest rzędu
Contrastive Divergence c.d
jak wyznaczyć
- Ponieważ gradient będziemy liczyć
wielokrotnie zamiast za każdym razem
obliczać wartość przeciętną możemy
wylosować v zaszyte w ’i
Samplowanie Gibbsa
- Postępując tak wielokrotnie będziemy
przybliżać się do minimalizacji
- Obserwację losową RBM’a nazywamy
fantazją sieci
Cel - wylosować próbkę z rozkładu wielowymiarowego
P(x, y)
Sposób - generujemy x z rozkładu P(x | y) i
y z rozkładu P(y | x)
Algorytm:
Samplowanie Gibbsa
Kontynuuj aż rozkłady prawdopodobieństw
będą stacjonarne
Samplowanie Gibbsa w ’i
- Zacznij próbkowanie od przykładu
treningowego
- wykonaj jedynie kilkanaście kroków
- pomimo poważnej korelacji pomiędzy tak
otrzymaną fantazją a przykładem uczącym
otrzymujemy zaskakująco dobry gradient
- Czasami wystarcza 1 krok!
Propozycja Hintona
Model uczymy metodą
stochastycznego spadku gradientu
Uczenie
Metody Deep Learning - Wykład 4

More Related Content

Metody Deep Learning - Wykład 4

Editor's Notes

  • #6: na ostatnim wykładzie o PGM było o maszynie Boltzmanna, której zmienne losowe miały wartość {0,1} specyficzna własność każda zmienna z danej grupy ma połączenia nieskierowane z wszystkimi zmiennymi z przeciwnej grupy pomiędzy zmiennymi z tej samej grupy połączeń nie ma
  • #7: na ostatnim wykładzie - w UGM prawdopodobieństwo łączne rozkłada się na iloczyn potencjałów, w maszynie Boltzmanna dwa typy - potencjał związany z poj. zmienną i z krawędzią reparametryzacja potencjałów - logarytm ze starego łączne prawdopodobieństwo zapisane jako e do potęgi, gdzie w potędze była suma tych nowych potencjałów związanych ze zmiennymi - ten człon to energia - taka postać to rozkład Boltzmanna RBM - rozkład Boltzmanna; W,c,h - parametry
  • #8: teraz o własnościach RBM-ów w kontekście własności PGM
  • #9: zaobserwujemy wszystkie zmienne v, zmienna jest niezależna od wszystkich innych z warstwy zmiennych ukrytych jeżeli jeden zbiór zmiennych jest niezależny od drugiego jeżeli obserwujemy trzeci, to prawd. łączne warunkowe tych zbiorów rozkłada się na iloczyn
  • #10: mając tę własność można policzyć prawd. warunkowe zmiennych ukrytych od zm. widzialnych pokazać na rysunku mnożenie hWv
  • #12: parametry W,v,h jak je wyznaczyć