Cześć, potrzebuję pomocy z realizacją projektu BigData na studia, oto jego kroki:
- Przetwarzanie i analiza w środowisku rozproszonym - Big Data & Data Science
- Opracować: koncepcję, główne procesy przetwarzania, architekturę środowiska przetwarzania i analizy (VM lub cloud Azure) w przetwarzaniu strumieniowym i wsadowym.
- Dobierać odpowiednie komponenty BD&DS - rozproszone (min. 2 węzłach): zasoby/bazy, środowiska przetwarzania, kolejki, środowisko zarządzania przetwarzaniem/procesami (NiFi, AirFlow), VM, kontenery/dockery
- Analiza statystyczna (strumień dla SMO - określć/wyliczyć parametry strumienia lambda)
- Zastosowanie AI (ML,DL,NLP,...).
Podczas realizacji tego zadania mam całkowitą dowolność w doborze interesujących mnie narzędzi, więc nie ma żadnego znaczenia czy wybiorę Hadoopa, Sparka, Piga czy coś od Elastica.
Totalnie nic nie wiem odnośnie BigData, więc liczę, że z waszą pomocą uda mi się zrealizować ten projekt. Czy ktoś ma jakieś rady od czego w ogóle zacząć? Dane na pewno pobiorę za pomocą jakiegoś ogólnodostępnego API i w sumie na tym kończy się moja wiedza, odnośnie tego projektu.
Będę wdzięczy za jakąkolwiek formę pomocy - zarówno za jakieś materiały na YT czy nawet zwykłe linki do artykułów.
Dzięki za pomoc! :D