Mam 5 vpsów (wkrótce będzie 50 albo 500), do każdego mam podpięte duże bloki IPv4, adresacja będzie wykorzystana do data scraping i udostępniania zescrapowanych i odpowiednio obrobionych danych klientom w formie json.
Klient będzie łączył się z głównym serwerem z którego zapytanie będzie przesyłane na jeden z vpsów, zwracane na serwer główny i przekazywane klientowi.
Aktualnie w testach cała infrastruktura robi 50 req/sec, docelowo będzie musiała pociągnąć 1-3k req/sec.
50req/s = około 60TB miesięcznie na samo zescrapowanie danych.
Mam dwie opcje do wyboru:
-
Mogę na każdym z vpsów trzymać skrypty pobierające i obrabiające dane - w ten sposób oszczędzam na transferze z racji, że vps wysyła do głównego serwera odpowedź w json.
-
Mogę na każdym VPS zainstalować squida, używać adresacji IP jako proxy i obrabiać dane na głównym serwerze. Taka opcja wydaje mi się prostsza, ale będę musiał wydać więcej na transfer.
Którą opcje byście wybrali i dlaczego?
P.S.
W sumie mógłbym zrezygnować z serwera głównego i zamiast tego postawić load balancer, ale spora część vpsów nie ma (i nie będzie miała) ochrony antyddos... jak konkurencja kupi jakiś ddos to leżym i kwiczym.