Robot do zbierania konkretnych danych ze strony informacyjnej

0

Szukam porady jak wykonać taki algorytm który będzie pobierał dane ze strony infrmacyjnej i przekazywał mi sygnał w formie alertu na smsa lub emaila lub na telegram.Chodz mi o powiadomienie w sprawe ukazania sę konkretnego artykułu po konkretnych słowach kluczwych w tutule. W jaki sposób się to tworzy i czy jest to legalne od strony prawnej. Do kogo mam się zgłosić w tej sprawie i w jakim jezyku to się programuje?

0

Jeżeli strona nie udostępnia żadnego API to potrzebujesz aplikacji tzw. webcrawlera (najwygodniej robi się to chyba w pythonie), który będzie "wędrował" po stronie i szukał tego co potrzebujesz. Jak znajdzie to notyfikacja SMS to już pikuś bo albo podpinasz do kompa modem GSM z kartą SIM i odpowiednimi kodami AT sterujesz wysyłką albo wykupujesz sobie gotową usługę np na serwersms.pl i wpinasz się w ich API. Notyfikacja mailowa jest jeszcze prostsza bo api do wysyłki maila jest w niemal każdym języku wysokiego poziomu. Co do telegrama to przyznam szczerze, że tutaj nie mam wiedzy bo nie korzystam ale zapewne też mają jakieś API.

0

Czy to jest legalne od strony prawnej to nie do końca wiadomo, jeżeli byś wysyłał tysiące zapytań do strony dziennie, to po pierwsze mogą Ci zbanować IP, a w eksteramalnych przypadkach zgłosić na Policję jako zakłócanie pracy sieci teleinformatycznych.

Ja mam serwis hobbystyczny z treściami które chętnie kradnie moja konkurencja, a raczej kradła, bo zrobiłem system który skutecznie wykrywa scraping, i dużo już banów poleciało - np. wszystkie serwery z centrów typu Hetzner, OVH itd. mają u mnie bana. Znacznie mi się dzięki temu zmniejszyło obciążenie strony, co ma też wpływ chociażby na SEO.

Dlatego jak już chcesz robić scraping to zalecam ostrożność, i postawienie sobie limitów - np. nie więcej niż 50 wywołań dziennie i między każdym wywołaniem minimum 15 minut przerwy, bo naprawdę bardzo łatwo można zrobić analizę gdzie oddziela się prawdziwy ruch od tych z robotów takiego typu jak chcesz zrobić.

Ja mogę pozwolić Googlowi albo Bingowi żeby mi robił po 10 tys. wywołań dziennie, ale jakimś botom SEO (np. z ahrefs) i innym spamującym mi serwer wywołaniami HTTP dziękuję. U mnie jak przekroczysz liczbę wywołań w zbyt krótkim czasie i nie jesteś na białej liście, od razu dostajesz tymczasowego bana na IP.

0

Swego czasu do czegoś takiego po prostu użyłem "Google apps script" - na dysku google po prostu tworzysz nowy skrypt, masz bezpośredni dostęp do Gmaila, możesz reagować na przychodzące maile i je wysyłać do siebie, webcrawling też jest mega łatwy, kiedyś się dało ustawić żeby taki skrypt się odpalał co minutę i dało się ustawić powiadomienie sms na etykietę maila więc miałem za darmo powiadomienie sms i mailowe gdy właśnie pojawiło się coś na jakiejś stronie. Całość dosłownie zajmowała 5 linii kodu i od zerowego stanu wiedzy z dokumentacją dało się to zrobić w 15 minut, nie wiem czy to jeszcze działa

1 użytkowników online, w tym zalogowanych: 0, gości: 1