Projekt Big Data na studia

Cześć, potrzebuję pomocy z realizacją projektu BigData na studia, oto jego kroki:

Przetwarzanie i analiza w środowisku rozproszonym - Big Data & Data Science
Opracować: koncepcję, główne procesy przetwarzania, architekturę środowiska przetwarzania i analizy (VM lub cloud Azure) w przetwarzaniu strumieniowym i wsadowym.
Dobierać odpowiednie komponenty BD&DS - rozproszone (min. 2 węzłach): zasoby/bazy, środowiska przetwarzania, kolejki, środowisko zarządzania przetwarzaniem/procesami (NiFi, AirFlow), VM, kontenery/dockery
Analiza statystyczna (strumień dla SMO - określć/wyliczyć parametry strumienia lambda)
Zastosowanie AI (ML,DL,NLP,...).

Podczas realizacji tego zadania mam całkowitą dowolność w doborze interesujących mnie narzędzi, więc nie ma żadnego znaczenia czy wybiorę Hadoopa, Sparka, Piga czy coś od Elastica.

Totalnie nic nie wiem odnośnie BigData, więc liczę, że z waszą pomocą uda mi się zrealizować ten projekt. Czy ktoś ma jakieś rady od czego w ogóle zacząć? Dane na pewno pobiorę za pomocą jakiegoś ogólnodostępnego API i w sumie na tym kończy się moja wiedza, odnośnie tego projektu.

Będę wdzięczy za jakąkolwiek formę pomocy - zarówno za jakieś materiały na YT czy nawet zwykłe linki do artykułów.

Dzięki za pomoc! :D

To, czego szukasz to Apache Flink - trzeba to tylko postawić, architektura pomiędzy batchami, a strumieniami praktycznie niczym się nie różni.

Zacznijmy od tego, co chcesz zrobić. Dostałeś wytyczne a teraz trzeba się zastanowić jaki problem można dzięki nim rozwiązać. Generalnie to co masz zrobić to stworzyć pipeline. Zaciągasz dane z punktu A, przetwarzasz je po czym przerzucasz do punktu B. To tak w telegraficznym skrócie.

Liczba odpowiedzi na stronę

Projekt Big Data na studia

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami