sieci neuronowe - współczynnik uczenia

0

Hey, chciałem skierować moje pytanie do znawców tematu SSN a mianowicie mam następujący cytat:

Techniki zmian współczynników uczenia i momentum:
· zastosowanie większych wartości h oraz m na początku uczenia i zmniejszanie ich
w miarę zbliŜania się funkcji błędu do minimum,
· przyjęci na początku procesu uczenia małych wartości współczynnika uczenia h
(ewentualnie równieŜ współczynnika momentu m). Gdy proces uczenia nabierze
tempa współczynniki są zwiększane, by w końcowej fazie ponownie ich
zmniejszyć,
· uzaleŜnienie współczynnika uczenia od wartości funkcji błędu
średniokwadratowego – gdy błąd maleje moŜna zwiększyć współczynnik uczenia,
gdy rośnie naleŜy go zmniejszyć.
Doświadczalnie stwierdzono, iŜ najlepsze efekty uzyskuje się gdy współczynnik
uczenia zwiększa się algebraicznie o stałą wartość, a zmniejsza geometrycznie.

I chciałem prosić o wyjaśnienie co oznacza ostatnie zdanie (pogrubione) tj. Doświadczalnie stwierdzono, iŜ najlepsze efekty uzyskuje się gdy współczynnik uczenia zwiększa się algebraicznie o stałą wartość, a zmniejsza geometrycznie.
Czy mógłby ktoś podać mi przykłąd o co tu chodzi - będę ogromnie wdzięczny!

Ok, już chyba kumam. Chodzi chyba o to, że współczynnik uczenia ma maleć w trakcie procesu nauki ale ma być jak największy (żeby krok uczenia był jak największy) tzn. żeby z jednej strony malał a z drugiej strony był stosunkowo duży.
Czy może ktoś potwierdzić?

1

zwęszenie algebraiczne:
eps=1E-7;
x=x+eps;
zmniejszenie geometryczne:
x=x*(1-eps);

0
misiek123 napisał(a)

Chodzi chyba o to, że współczynnik uczenia ma maleć w trakcie procesu nauki ale ma być jak największy (żeby krok uczenia był jak największy) tzn. żeby z jednej strony malał a z drugiej strony był stosunkowo duży.
Czy może ktoś potwierdzić?

większy współczynnik uczenia = szybsza nauka, ale kiedy jesteśmy blisko minimum błędu duża wartość współczynnika uniemożliwia wpasowanie się w miarę dokładnie w to minimum (bo skaczemy raz za dużo w jedną stronę, raz za dużo w drugą).

0

Dzięki Panowie.
Niestety w dalszym ciągu nie rozumiem tego... Tzn. rozumiem czym jest współczynnik uczenia i jego ideę, ale ciągle nie rozumiem tego zdania :/

_13th_Dragon napisał(a)

zwęszenie algebraiczne:
eps=1E-7;
x=x+eps;
zmniejszenie geometryczne:
x=x*(1-eps);

A czemu tak? Możesz mi powiedzieć skąd takie wnioski - kojarzę np. średnią arytmetyczną i geometryczną ale one mają nieco inne "własności" i w dodatku są one jakoś opisane w przeciwieństwie do pojęcia "zwiększenie/zmniejszenie geometryczne/arytmetyczne"-go... Do tegoi co one mają wspólnego ze współczynnikiem uczenia i jego efektywnością?

Moim zdaniem autorowi chodziło o coś innego.
W końcu współczynnik uczenia najpierw przyjmuje stosunkowo duże wartości a w trakcie procesu uczenia maleje (zmniejsza się go, gdy funkcja błędu rośnie a nie spada). Z drugiej strony jest taka metoda optymalizacji jak "metoda najszybszego spadku", polegająca właśnie na wyznaczeniu w miarę maksymalnej długości kroku uczenia w danym momencie (w każdym momencie ten krok maksymalny będzie innej wielkości, chociaż nie da się go dokładnie oszacować - a przynajmniej nie w efektywny sposób. Zazwyczaj się wyznacza krok uczenia w 3 różnych wielkościach i tworzy się jakąś funkcję (wielomian) przechodzący przez te 3 punkty (interpolacja) a następnie oszacowuje się ekstermum tej funkcji - czy jakoś tak...

1 użytkowników online, w tym zalogowanych: 0, gości: 1