Szukam porady jak wykonać taki algorytm który będzie pobierał dane ze strony infrmacyjnej i przekazywał mi sygnał w formie alertu na smsa lub emaila lub na telegram.Chodz mi o powiadomienie w sprawe ukazania sę konkretnego artykułu po konkretnych słowach kluczwych w tutule. W jaki sposób się to tworzy i czy jest to legalne od strony prawnej. Do kogo mam się zgłosić w tej sprawie i w jakim jezyku to się programuje?
Jeżeli strona nie udostępnia żadnego API to potrzebujesz aplikacji tzw. webcrawlera (najwygodniej robi się to chyba w pythonie), który będzie "wędrował" po stronie i szukał tego co potrzebujesz. Jak znajdzie to notyfikacja SMS to już pikuś bo albo podpinasz do kompa modem GSM z kartą SIM i odpowiednimi kodami AT sterujesz wysyłką albo wykupujesz sobie gotową usługę np na serwersms.pl i wpinasz się w ich API. Notyfikacja mailowa jest jeszcze prostsza bo api do wysyłki maila jest w niemal każdym języku wysokiego poziomu. Co do telegrama to przyznam szczerze, że tutaj nie mam wiedzy bo nie korzystam ale zapewne też mają jakieś API.
Czy to jest legalne od strony prawnej to nie do końca wiadomo, jeżeli byś wysyłał tysiące zapytań do strony dziennie, to po pierwsze mogą Ci zbanować IP, a w eksteramalnych przypadkach zgłosić na Policję jako zakłócanie pracy sieci teleinformatycznych.
Ja mam serwis hobbystyczny z treściami które chętnie kradnie moja konkurencja, a raczej kradła, bo zrobiłem system który skutecznie wykrywa scraping, i dużo już banów poleciało - np. wszystkie serwery z centrów typu Hetzner, OVH itd. mają u mnie bana. Znacznie mi się dzięki temu zmniejszyło obciążenie strony, co ma też wpływ chociażby na SEO.
Dlatego jak już chcesz robić scraping to zalecam ostrożność, i postawienie sobie limitów - np. nie więcej niż 50 wywołań dziennie i między każdym wywołaniem minimum 15 minut przerwy, bo naprawdę bardzo łatwo można zrobić analizę gdzie oddziela się prawdziwy ruch od tych z robotów takiego typu jak chcesz zrobić.
Ja mogę pozwolić Googlowi albo Bingowi żeby mi robił po 10 tys. wywołań dziennie, ale jakimś botom SEO (np. z ahrefs) i innym spamującym mi serwer wywołaniami HTTP dziękuję. U mnie jak przekroczysz liczbę wywołań w zbyt krótkim czasie i nie jesteś na białej liście, od razu dostajesz tymczasowego bana na IP.
Swego czasu do czegoś takiego po prostu użyłem "Google apps script" - na dysku google po prostu tworzysz nowy skrypt, masz bezpośredni dostęp do Gmaila, możesz reagować na przychodzące maile i je wysyłać do siebie, webcrawling też jest mega łatwy, kiedyś się dało ustawić żeby taki skrypt się odpalał co minutę i dało się ustawić powiadomienie sms na etykietę maila więc miałem za darmo powiadomienie sms i mailowe gdy właśnie pojawiło się coś na jakiejś stronie. Całość dosłownie zajmowała 5 linii kodu i od zerowego stanu wiedzy z dokumentacją dało się to zrobić w 15 minut, nie wiem czy to jeszcze działa