Big Data Scientist / Analyst

0

Ktoś tu sie tym zajmuje? Mógłby podać czym to się mniej więcej obecnie je? Jakie podstawy matematyczne trzeba mieć?

0

Raczej wszystkiego z tego nie będziesz potrzebował, ale tutaj masz w miarę ładnie rozpisane jak to wygląda:

http://nirvacana.com/thoughts/wp-content/uploads/2013/07/RoadToDataScientist1.png

1

Według mnie jeśli chodzi o matematykę, to na początek trzeba orientować się w takich działach jak:

  • algebra liniowa
  • statystyka
    potem przydatna jest jeszcze analiza matematyczna (np. umieć policzyć pochodną szeregu)

Natomiast uważam że ciekawym pomysłem może być wystartowanie od ML, wybierasz sobie jakiś problem:

  • rozpoznawanie ręcznie napisanych cyfr za pomocą algorytmu kNN
  • czytasz jak działa algorytm (starasz się to zrozumieć)
  • piszesz program wykorzystując gotowe biblioteki (np. http://scikit-learn.org/)
  • starasz się w jakiś sposób zwizualizować wynik
  • samodzielnie implementujesz algorytm kNN (doczytując teorię)

Taki problem możesz rozwijać dalej:

  • zamiast za każdym razem wyliczać dane z obrazka (wyciągać zmienne z obserwacji), może warto je gdzieś zapisać (a co jak tych danych będzie miliard)
  • może podczas dodawania nowego obrazka od razu go rozpoznawać
  • jak poradzić sobie ze znajdowaniem sąsiadów w dużej ilość obserwacji (policzenie odległości z każdym sąsiadem w wielowymiarowej przestrzeni)
    itd

Bo zaczynając od rozwiązywania samych zadań z algebry i statystyki można się szybko znudzić - brak efektów to często brak dalszej motywacji.

0
artur_waw napisał(a):

Według mnie jeśli chodzi o matematykę, to na początek trzeba orientować się w takich działach jak:

  • algebra liniowa
  • statystyka
    potem przydatna jest jeszcze analiza matematyczna (np. umieć policzyć pochodną szeregu)

Natomiast uważam że ciekawym pomysłem może być wystartowanie od ML, wybierasz sobie jakiś problem:

  • rozpoznawanie ręcznie napisanych cyfr za pomocą algorytmu kNN
  • czytasz jak działa algorytm (starasz się to zrozumieć)
  • piszesz program wykorzystując gotowe biblioteki (np. http://scikit-learn.org/)
  • starasz się w jakiś sposób zwizualizować wynik
  • samodzielnie implementujesz algorytm kNN (doczytując teorię)

Taki problem możesz rozwijać dalej:

  • zamiast za każdym razem wyliczać dane z obrazka (wyciągać zmienne z obserwacji), może warto je gdzieś zapisać (a co jak tych danych będzie miliard)
  • może podczas dodawania nowego obrazka od razu go rozpoznawać
  • jak poradzić sobie ze znajdowaniem sąsiadów w dużej ilość obserwacji (policzenie odległości z każdym sąsiadem w wielowymiarowej przestrzeni)
    itd

Bo zaczynając od rozwiązywania samych zadań z algebry i statystyki można się szybko znudzić - brak efektów to często brak dalszej motywacji.

Czyli to takie szukanie "klastrów" w wielowymiarowych przestrzeniach tworzonych przez dane?

0

Ja zauważyłem, że zagranicą jest coraz więcej ofert dla Data Scientist, zarobki podobne do programisty. Jak myślicie co będzie w przyszłości (w Polsce i na świecie) bardziej pożądane? Data Scientist czy Programista?

0

Najbardziej pożądane będą osoby potrafiące w praktyce połączyć obie specjalności.

0

Powiem wam, jak to wygląda z mojego punktu widzenia, czyli menedżera. Dzieciakom znudzonym programowaniem wydaje się, że jak już potrafią napisać prosty klasyfikator w R (na co wystarczą 2-3 linie kodu), to mogą aplikować na stanowisko Data Scientist, a jak przychodzi do rozmowy rekrutacyjnej, to oczka pląsają się przy pytaniach przykładowo o wartość oczekiwaną, eigenvectory, law of the unconscious statistician, albo Mallows’ Cp. Zarobki w SV są podobne do zarobków programisty z jednego powodu - trzeba mieć z 10 lat doświadczenia w statystyce, pisanie czystego i wydajnego kodu jest na plus, ale tylko najlepsi mają te dwie cechy.

Dlatego najlepsi data scientyści są po studiach ze statystyki, ekonomii, fizyki czy matematyki.

Z drugiej strony, można pracować jako Data Engineer, i tutaj osoby po bazach danych będą się dobrze czuły, choć jest cała masa nowej technologii do nauki (która to, swoją drogą, po półtora roku jest już nieaktualna).

Tytuł tego wątku też jest ciekawy - pierwszy człon opisuje stanowisko, które nie istnieje, a drugi to zwykły analityk danych :)

0
Świetny Orzeł napisał(a):

Powiem wam, jak to wygląda z mojego punktu widzenia, czyli menedżera. Dzieciakom znudzonym programowaniem wydaje się, że jak już potrafią napisać prosty klasyfikator w R (na co wystarczą 2-3 linie kodu), to mogą aplikować na stanowisko Data Scientist, a jak przychodzi do rozmowy rekrutacyjnej, to oczka pląsają się przy pytaniach przykładowo o wartość oczekiwaną, eigenvectory, law of the unconscious statistician, albo Mallows’ Cp.

Ej no, eigenvectory i wartość oczekiwania to pierwszy maks drugi rok informatyki ( przynajmniej tej uniwersyteckiej ). Aż tak słabo?
Ogólnie mów do mnie jeszcze jak możesz na temat algebry i statystyki. Rozwiązywanie układów równań, dopasowania funkcji, interpolacje? Analiza szeregów czasowych?

0
Jara mnie matma napisał(a):

Ej no, eigenvectory i wartość oczekiwania to pierwszy maks drugi rok informatyki ( przynajmniej tej uniwersyteckiej ). Aż tak słabo?

Wartość oczekiwana to liceum. Tylko większość ludzi tego nie pamięta. Nie zdziwiłbym się, gdyby większość nie pamiętała nawet tego, jak się mnoży macierze.
A, że do tego każdy programista wie, iż wiedza ze studiów się do pracy nie przydaje (co jest prawdą w przypadku typowych programistów), to potem przejście w kierunku bardziej zaawansowanej informatyki jest trudne.

0
CharField napisał(a):

Witam,

Za tydzien czeka mnie rozmowa na stanowisko Data Scientist.

Rozmowa kwalifikacyjna ma miec forme: case study scenario to be prepared and presented...

czego sie mozna spodziewac po takiej formie interview na takie stanowisko?

Wszystkiego. Jedna firma może wymagać jakichś podstawowych podstaw, inna zaś może cię przemaglować wte wewte i nazad. Sądzę, że coś algebry i klastrowania to będzie pewnik. Ale ja dziedzinę data science ledwo liznąłem, więc się tym nie kieruj nadto.

1 użytkowników online, w tym zalogowanych: 0, gości: 1