Jakie rozwiazanie wybrac?

0

Mam 5 vpsów (wkrótce będzie 50 albo 500), do każdego mam podpięte duże bloki IPv4, adresacja będzie wykorzystana do data scraping i udostępniania zescrapowanych i odpowiednio obrobionych danych klientom w formie json.

Klient będzie łączył się z głównym serwerem z którego zapytanie będzie przesyłane na jeden z vpsów, zwracane na serwer główny i przekazywane klientowi.

Aktualnie w testach cała infrastruktura robi 50 req/sec, docelowo będzie musiała pociągnąć 1-3k req/sec.
50req/s = około 60TB miesięcznie na samo zescrapowanie danych.

Mam dwie opcje do wyboru:

  1. Mogę na każdym z vpsów trzymać skrypty pobierające i obrabiające dane - w ten sposób oszczędzam na transferze z racji, że vps wysyła do głównego serwera odpowedź w json.

  2. Mogę na każdym VPS zainstalować squida, używać adresacji IP jako proxy i obrabiać dane na głównym serwerze. Taka opcja wydaje mi się prostsza, ale będę musiał wydać więcej na transfer.

Którą opcje byście wybrali i dlaczego?

P.S.
W sumie mógłbym zrezygnować z serwera głównego i zamiast tego postawić load balancer, ale spora część vpsów nie ma (i nie będzie miała) ochrony antyddos... jak konkurencja kupi jakiś ddos to leżym i kwiczym.

0

To co napisałeś (o ddos) nie ma dla mnie żadnego sensu.

Co ma atak DDOS do load balancera?
Jedyne co przychodzi mi do głowy, to to, że końcówki będą brały udział w kontakcie z klientem, co jest głupie.

Bardzo oszczędnie napisałeś jak ma wyglądać całe rozwiązanie.
Przyjmując:

  1. pincet serwerów
  2. każdy z tych serwerów ma własny dysk ze zescrapowanymi danymi
  3. vps'y generują odpowiedź json
  4. musi być serwer dla klienta

Na Twoim miejscu postawiłbym te pincet serwerów tak jak napisałeś, z tym że dodałbym jakieś sensowne logowanie typu one-packet-auth (knock knock lub coś podobnego).
Każdy serwer byłby rozpoznawany po jakimś hashu jakie dane scrapuje (tutaj nie wiadomo jak).
O powyższe oparłbym load balancer, który zwracałby również load serwera w requescie o dane i tak bym przydzielał (+ oczywiście jakiś hash, gdzie co jest, hash->ip).
Load balancer + serwer dla klienta, można umieścić w chmurce.

I teraz atak DDOS:

  1. Na chmurkę, jeśli rozwiązanie będzie wykonane zgodnie ze sztuką, to życzę powodzenia atakującym.
  2. Końcówki - ktoś mógłby poznać ich ip i je ddosić. Ale jak wszystko będziesz miał pozamykane w odpowiedni sposób to na dobrym providerze vpsów, fajnie Cię przełączą i odfiltrują jak trzeba.

Wiadomo, połączenie vps'y -> chmurka, na jakiś tunelu, bo bezpiecznie, łatwo skalować i zarządzać oraz wydajnie (chyba bo nie wiadomo co i jak jest w backu).
Nie jestem pewien czy dobrze wyobraziłem sobie to rozwiązanie, z opisu który zawarłeś.

1 użytkowników online, w tym zalogowanych: 0, gości: 1