@Michał karwec - Czyli zdecydowałeś się odpowiedzieć tylko na część posta w dodatku nie dotyczącą sedna moich zarzutów wobec Ciebie i jeszcze zrobić to błędnie- ok :)
Tym razem krótko:
Jeżeli chodzi o zapamiętywanie to jest na to prosty sposób, przeuczyć model na istniejącym kodzie
Ty sam to wymyślasz, czy ktoś Ci to pisze? Przeuczymy duży model na istniejącym kodzie i co dalej? Już pomijam fakt jak bardzo karkołomne jest to zadanie, jak bardzo wymaga poetykietowania danych nie tylko o strukturze samego kodu, ale też problemów biznesowych, które rozwiązuje etc... Dodatkowo ilość danych potrzebna, żeby fine tuningować model do rozumienia pełnego kontektu biznesowego i technicznego aplikacji jest ogromna... A Ty chcesz sobie beztrosko przetrenowywać model po każdej zmianie :D
Zauważ, że wielkodusznie nie przyczepiłem się do nieostrożnego użycia słowa "przeuczyć" ...
Nie mogę Cię rozgryźć... niby słownictwo, którego starasz się używać wskazuje, że coś tam liznąłeś a czasem wypowiadasz się jak totalny laik i ignorant.
czy jakiś informatyk zna cały kod projektu czy bazuje na jego fragmentach
"jakiś informatyk" jest w stanie o wiele szybciej i bardziej wydajnie przeskakiwać poszczególnymi fragmentami kodu a także uczyć się ich wzajemnych zależności niż LLM...
Dlaczego wspomniałem o problemach nieseparowanych bo to nie pierwsze lato w AI
To dalej nie wnosi nic do meritum dyskusji, poza chęcią użycia "fachowego" słownictwa... Wierz mi... Siedzę w tym 10 lat. Nie zaimponowałeś :P Poza tym przyznaj się - wymyśliłeś to teraz :D W przeciwnym razie wcześniej chociaż byś o tym wspomniał.
utaj najczęściej przychodziła "zima" AI jak chociażby perceptrony które też miały być wielką rewolucją ale nie radził sobie z problemami nielinowymi
Rozumiem, że twierdzisz, że współczesne modele nie opierają się na koncepcji perceptronów? :D Sądzę, że mógłbyś się zdziwić :) Dodaj, że chodziło Ci o perceptron Rosenblatta.. będzie bardziej fachowo :D
to ciekawe jakie to są granice, jest to bardzo ciekawe
Kilka z brzegu: problem z poprawnym rozumieniem dłuższych sekwencji tekstu zawierających wiele równoległych kontekstów, ograniczona zdolność do wnioskowania, ograniczenie ilości tokenów...
Z miła chęcią zobaczę też dowód że większa ilość oczyszczonych danych nie poprawia jakości modelu
Proszę bardzo. W naszym uproszczonym przykładzie weź sobie dowolny model, którego architektura nie jest w stanie idealnie zamodelować Twojego problemu i sprawdź czy osiągniesz 100% skuteczności poprzez samo zwiększanie danych treningowych.
Chłopie nawet jak tworzysz sieć neuronową rozwiązującą dany problem, to iteracyjnie dobierasz jej optymalne hiperparametry, gęstość i rodzaje warstw głębokich, funkcje aktywacji, funkcje błędu etc... Że też nikt do tej pory nie wpadł, że wystarczyłoby po prostu zwiększyć liczbę danych... xD
Próg do którego zwiększanie liczby dobrej jakości danych treningowych poprawia skuteczność modelu, jest ściśle związany z jego architekturą i jej dopasowaniem do problemu.
Co do LSTM co ci po nim bez mocy obliczeniowej, co chcesz zrobić z sieciami jak nie masz mocy obliczeniowej, gpt itp też by nie odniosły sukcesu gdyby nie gigantyczne moce obliczeniowe, chociaż to rozmowa co jest ważniejsze silnik czy koła w samochodzie
Nie manipuluj... Ja wyraźnie podkreśliłem, że kwestia mocy obliczeniowej również jest kluczowa a moja krytyka dotyczyła Twojego stwierdzenia, że jest ważniejsza niż same ograniczenia wynikające z architektury modeli.
Nie to nie jest spekulacja, a przypuszczanie/przewidywanie i ty robisz to samo
Nie misiu tęczowy - nie jesteśmy tacy sami. Ty wygłaszasz tezy pewne i zarzucasz syndrom wyparcia tym, którzy się z Tobą nie zgadzają.. Ja wskazuję, że w tym momencie nie ma podstaw, żeby twierdzić, że w najbliższym czasie z pewnością osiągniemy przełom, że istnieją poważne argumenty (nawet zwykłe rozumowanie indukcyjne i wielokrotnie wspominane przez Ciebie "zimy" w AI) za tym, że nie osiągniemy oraz, że dyskusja na ten temat jest otwarta, w żadnym zaś razie tego nie wykluczając.