Projekt Big Data na studia

0

Cześć, potrzebuję pomocy z realizacją projektu BigData na studia, oto jego kroki:

  1. Przetwarzanie i analiza w środowisku rozproszonym - Big Data & Data Science
  2. Opracować: koncepcję, główne procesy przetwarzania, architekturę środowiska przetwarzania i analizy (VM lub cloud Azure) w przetwarzaniu strumieniowym i wsadowym.
  3. Dobierać odpowiednie komponenty BD&DS - rozproszone (min. 2 węzłach): zasoby/bazy, środowiska przetwarzania, kolejki, środowisko zarządzania przetwarzaniem/procesami (NiFi, AirFlow), VM, kontenery/dockery
  4. Analiza statystyczna (strumień dla SMO - określć/wyliczyć parametry strumienia lambda)
  5. Zastosowanie AI (ML,DL,NLP,...).

Podczas realizacji tego zadania mam całkowitą dowolność w doborze interesujących mnie narzędzi, więc nie ma żadnego znaczenia czy wybiorę Hadoopa, Sparka, Piga czy coś od Elastica.

Totalnie nic nie wiem odnośnie BigData, więc liczę, że z waszą pomocą uda mi się zrealizować ten projekt. Czy ktoś ma jakieś rady od czego w ogóle zacząć? Dane na pewno pobiorę za pomocą jakiegoś ogólnodostępnego API i w sumie na tym kończy się moja wiedza, odnośnie tego projektu.

Będę wdzięczy za jakąkolwiek formę pomocy - zarówno za jakieś materiały na YT czy nawet zwykłe linki do artykułów.

Dzięki za pomoc! :D

0

To, czego szukasz to Apache Flink - trzeba to tylko postawić, architektura pomiędzy batchami, a strumieniami praktycznie niczym się nie różni.

2

Zacznijmy od tego, co chcesz zrobić. Dostałeś wytyczne a teraz trzeba się zastanowić jaki problem można dzięki nim rozwiązać. Generalnie to co masz zrobić to stworzyć pipeline. Zaciągasz dane z punktu A, przetwarzasz je po czym przerzucasz do punktu B. To tak w telegraficznym skrócie.

1 użytkowników online, w tym zalogowanych: 0, gości: 1