Mam krótkie pytanie do znawców tematu. Co jest nowego w głębokich sieciach neuronowych względem starych sieci jedno, dwu lub trójwarstwowych? Pewne różnice są oczywiste: ilość warstw i funkcja aktywacji relu i softmax. Co jest jeszcze nowatorskiego względem starych architektur, starych metod uczenia, starych metod inicjalizacji, itd. Dodam, że ja w swoich próbach na bardzo głębokich sieciach nie widzę lepszych efektów, właściwie to widzę więcej problemów z powodu utykania w płytkim minimum lokalnym.
Pozdrawiam